نام پژوهشگر: آتنا فرهمند

رفع نویز و دودویی سازی تصاویر اسناد چاپی به کمک خوشه بندی ویژگی ها
thesis دانشگاه تربیت معلم - تهران - دانشکده فنی 1392
  آتنا فرهمند   جمشید شنبه زاده

در این پایان نامه، یک روش جدید جهت رفع نویز و دودویی سازی تصویر اسکن شده اسناد با جامعیتی بالاتر از روش های موجود ارائه شده است. رفع نویز یکی از بخش های مهم در مرحله پیش پردازش سیستم های بازشناسی حروف با کمک ابزار نوری ( ocr) است. تصاویر اسناد، ممکن است در مرحله تولید (چاپ یا نوشتن)، اسکن شدن یا آرشیو شدن پیش از اینکه هرنوع پردازش هوشمندی روی آن ها انجام گیرد، دچار نویز شوند. از آنجایی که وجود نویز در تصویر، روی عملکرد سیستم ocr تاثیر نامطلوبی می گذارد، رفع این نویزها، پیش از مراحل قطعه بندی و بازشناسی، یکی از بخش های مهم و ضروری در مرحله پیش پردازش سیستم ocr است. دقت رفع نویزهای موجود به صورت مستقیم بر دقت و سرعت سیستم ocr تأثیر می گذارد و به دلیل تنوع انواع آ ن ها در تصاویر اسناد و محدودیت روش های مطرح شده در مواجهه با انواع مختلفی از نویزها در کنار هم، تلاش برای ارائه روش های جامع تر با دقتی بالاتر همچنان ادامه دارد. روش های بسیاری برای رفع نویز و دودویی سازی تصاویر اسناد در طی سالیان ارائه شده است. اغلب این روش ها محدود به رفع یک نویز خاص در تصویر هستند و جز روش هایی که روی رفع نویزهای زمینه کار می کنند، اکثر روش ها تنها روی تصویر دودویی اعمال می شوند. این بدان معناست که باید یک مرحله دودویی سازی پیش از رفع نویز انجام گیرد که علاوه بر دشواری تعیین حد آستانه مناسب با وجود نویز در تصویر، خود دودویی سازی می تواند باعث به وجود آمدن نویز در تصویر شود. همچنین در بسیاری از روش ها، با رفع نوعی از نویز، نوع دیگری به وجود می آید که مطلوب نیست لذا در این پایان نامه به از بین بردن مجموعه ای از نویزها در کنار هم توجه شده و همزمان با این عمل دودویی سازی هم انجام می شود. برای این منظور از خوشه بند kfcm جهت خوشه بندی پیکسل های تصویر، با توجه به ویژگی های مناسب، به متن، نویز و زمینه استفاده می شود. به این ترتیب تشخیص پیکسل های ناخواسته در تصویر و دودویی سازی تواماً انجام می شود. همچنین به دلیل انتخاب ویژگی های مناسب جهت انجام خوشه بندی ، سیستم دقت مناسبی نیز دارد.