نام پژوهشگر: مصطفی گلزاده حمزکانلو
مصطفی گلزاده حمزکانلو حسین خسروی
سامانه های نویسه خوان نوری، ocr، نقش بزرگی در تحقق دولت الکترونیک و کاهش حجم بایگانیهای کاغذی و دیجیتال دارند. این سامانه ها از سه بخش اصلی پیش پردازش، شناسایی متن و پس پردازش تشکیل شده اند. طبیعی است که هر خطایی در مرحله پیش پردازش، بازگشت ناپذیر است، مثلا اگر زاویه چرخش سند اشتباه شناسایی شود، سبب خواهد شد که خطوط متن کج بشوند و فرایند شناسایی متن، به درستی صورت نگیرد. یکی از قسمتهای مهم در پیش پردازش، تحلیل پیکربندی اسناد است؛ به این معنا که مشخص کنیم کدام بخشها از تصویر سند، متن است، کدام بخشها جدول اند و چه نواحی ای شکل هستند. هر خطایی در این بخش، سبب تولید خطاهای بیشتر در فرایند ocr خواهد شد. در این پایان نامه به تحلیل ساختار اسناد فارسی چند ستونه می پردازیم. در زمینه تحلیل اسناد، سه رویکرد، متداول است، رویکرد پایین به بالا که از پیکسلها شروع می کند و با ادغام و رشد پیکسلها، به نواحی بزرگتر می رسد. رویکرد بالا به پایین مثل روش برش xy که ابتدا تصویر را با برشهایی به چند ناحیه تقسیم می کند و سپس با تکنیکهایی هر ناحیه، را به نواحی کوچکتر تجزیه می کند. ترکیب این دو روش هم با عنوان رویکرد ترکیبی شناخته می شود. ما یک رویکرد تقریبا ترکیبی که بیشتر مبتنی بر روش پایین به بالاست ارائه می دهیم. در این رویکرد از تکنیکهای آستانه گذاری وفقی، برچسب زنی مولفه ها، عملیات ریخت شناسی و تبدیل هاف استفاده شده و با یک الگوریتم مکاشفه ای و معرفی قوانین خاصی برای ترکیب نواحی کوچک بدون ادغام نواحی غیریکسان، سند را به ناحیه های متنی، جدول و شکل تقسیم می کنیم. روش معرفی شده روی اسناد متعدد چند ستونه و اسنادی که زمینه ی گرافیکی یا هنری دارند، آزمایش شده و عملکرد خوبی در مقایسه با نرم افزارهای پیشرو در حوزه ocr مثل omnipage و finereader ارائه می دهد. که نتایج به لحاظ عددی بدین شرح است که الگوریتم ما متن های فارسی را با 72 ، شکل ها را با 75 و جدول ها را 92 درصد درست تشخیص می دهد. و 88 درصد اسناد فارسی را تقریبا درست ناحیه بندی می کند.