نام پژوهشگر: مریم شامقلی

رفع اعوجاج و بهبود کیفیت تصاویر اسکن شده از کتب فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1392
  مریم شامقلی   حسین خسروی

وقتی سند توسط اسکنر و یا دوربین دیجیتال تهیه شده ‎باشد، همواره با دو نوع مشکل یکی تخریب فتومتریک و دیگری تخریب هندسی مواجه است. • تخریب هندسی: خمیدگی غیرخطی در سطح کتاب، کجی سند • تخریب فتومتریک: سایه‎ی ایجاد شده در امتداد ستون فقرات کتاب قطور در این پایان‎نامه سعی بر این است که با ارائه‎ی یک روش نوین، به رفع اعوجاج اسناد به منظور افزایش خوانایی تصاویر سند در نرم‎افزار‎های ocr بپردازیم. برای رفع تخریب فتومتریک در الگوریتم پیشنهادی از باینری‎سازی به روش ساولای ارتقاء یافته استفاده شده است. برای حذف حاشیه‎های زاید که در اثر اعمال روش ساولای ارتقاء یافته ایجاد شده است، از عملگر‎های مورفولوژیکی استفاده شده است. برای رفع تخریب هندسی، ابتدا با استفاده از الگوریتم dlcm یا عملگر مورفولوژی dilation خطوط تصویر را تشخیص داده و سپس با استفاده از تخمین خمیدگی خطوط بالا و پایین به وسیله‎ی تخمین سه‎جمله‎ای، خمیدگی تصویر را بدست می آوریم و با انتقال سطح خمیده سند به سطح مستطیلی با استفاده از تناسبات هندسی، تخریب هندسی را برطرف می‎کنیم. در این روش از هیچ سخت افزار خارجی و اطلاعات اولیه‎ی اسکنر و دوربین استفاده نشده است. نتایج تجربی بر روی پایگاه‎های داده‎ی فارسی و انگلیسی - پایگاه داده فارسی شامل پایگاه داده تهیه شده به وسیله‎ی خانم خسروی‎راد و پایگاه داده تهیه شده برای پایان نامه و پایگاه داده‎ی انگلیسی dfki - که دارای اعوجاج های متنوعی هستند، بیانگر قدرت و دقت الگوریتم پیشنهادی می‎باشد. برای کمیت بخشیدن به نتایج بدست آمده، از نرم افزار نویسه‎خوان پرشیانگار برای متون فارسی و نرم افزار امنی پیج برای متون انگلیسی که هر دو از نرم‎ افزار قدرتمند در حوزه‎ی ocr می‎باشند، استفاده شده است. نتیجه مقایسه روش پیشنهادی با روش ارائه شده در پایان نامه خانم خسروی‎راد، بیانگر برتری روش پیشنهادی می‎باشد. از آن جا که این روش برای متون انگلیسی هم جواب قابل قبولی را تولید می‎کند، می‎توان فرض کرد با استفاده از این روش، برای تمام خطوط نوشتاری که در راستای افقی هستند جواب خوبی بدست آید. مقایسه‎ی روش پیشنهادی با روش‎های seg، skel، snake، بیانگر برتری این روش نسبت به روش های نام برده می باشد.