نام پژوهشگر: مریم شامقلی
مریم شامقلی حسین خسروی
وقتی سند توسط اسکنر و یا دوربین دیجیتال تهیه شده باشد، همواره با دو نوع مشکل یکی تخریب فتومتریک و دیگری تخریب هندسی مواجه است. • تخریب هندسی: خمیدگی غیرخطی در سطح کتاب، کجی سند • تخریب فتومتریک: سایهی ایجاد شده در امتداد ستون فقرات کتاب قطور در این پایاننامه سعی بر این است که با ارائهی یک روش نوین، به رفع اعوجاج اسناد به منظور افزایش خوانایی تصاویر سند در نرمافزارهای ocr بپردازیم. برای رفع تخریب فتومتریک در الگوریتم پیشنهادی از باینریسازی به روش ساولای ارتقاء یافته استفاده شده است. برای حذف حاشیههای زاید که در اثر اعمال روش ساولای ارتقاء یافته ایجاد شده است، از عملگرهای مورفولوژیکی استفاده شده است. برای رفع تخریب هندسی، ابتدا با استفاده از الگوریتم dlcm یا عملگر مورفولوژی dilation خطوط تصویر را تشخیص داده و سپس با استفاده از تخمین خمیدگی خطوط بالا و پایین به وسیلهی تخمین سهجملهای، خمیدگی تصویر را بدست می آوریم و با انتقال سطح خمیده سند به سطح مستطیلی با استفاده از تناسبات هندسی، تخریب هندسی را برطرف میکنیم. در این روش از هیچ سخت افزار خارجی و اطلاعات اولیهی اسکنر و دوربین استفاده نشده است. نتایج تجربی بر روی پایگاههای دادهی فارسی و انگلیسی - پایگاه داده فارسی شامل پایگاه داده تهیه شده به وسیلهی خانم خسرویراد و پایگاه داده تهیه شده برای پایان نامه و پایگاه دادهی انگلیسی dfki - که دارای اعوجاج های متنوعی هستند، بیانگر قدرت و دقت الگوریتم پیشنهادی میباشد. برای کمیت بخشیدن به نتایج بدست آمده، از نرم افزار نویسهخوان پرشیانگار برای متون فارسی و نرم افزار امنی پیج برای متون انگلیسی که هر دو از نرم افزار قدرتمند در حوزهی ocr میباشند، استفاده شده است. نتیجه مقایسه روش پیشنهادی با روش ارائه شده در پایان نامه خانم خسرویراد، بیانگر برتری روش پیشنهادی میباشد. از آن جا که این روش برای متون انگلیسی هم جواب قابل قبولی را تولید میکند، میتوان فرض کرد با استفاده از این روش، برای تمام خطوط نوشتاری که در راستای افقی هستند جواب خوبی بدست آید. مقایسهی روش پیشنهادی با روشهای seg، skel، snake، بیانگر برتری این روش نسبت به روش های نام برده می باشد.