نام پژوهشگر: پریسا شیروانی
پریسا شیروانی خشایار یغمایی
یکی از رایجترین اشکال انتقال اطلاعات، کاغذ می باشد. حجم زیادی از اطلاعات از طریق کاغذ منتقل می شوند. مستندات کاغذی از تنوع زیادی برخوردار هستند به عنوان مثال اطلاعات روی کاغذ می تواند شامل متون چاپی یا دست نویس، جداول، منحنی ها، تصاویر و ... باشد. ترکیب این اطلاعات بر روی اسناد کاغذی و همچنین استفاده از انواع مختلف قلم ها و ویژگی های خاص باعث دشواریهایی در بازیافت اطلاعات می گردد. علاوه بر این مسائلی از قبیل کیفیت چاپ، کاغذ، جوهر و همچنین کیفیت اسکن یک سند و ... عواملی هستند که کار بازشناسی متن را مشکل تر و پیچیده تر می سازند. ویژگیهای خط فارسی از دیگر موارد مشکل ساز در بازشناسی متون فارسی هستند. تا کنون کارهای زیادی برای متون زبان لاتین، چینی و ژاپنی انجام شده است، اما برای بازشناسایی متون فارسی و عربی با این که بسیاری از جمعیت جهان برای نوشتن از این زبانها استفاده می کنند، کارهای انجام شده نسبتا کم و پراکنده بوده است. از جمله علل این امر پیچیدگی های نوشتاری این زباها، فقدان پایگاه داده و لغت نامه های استاندارد و جامع برای متون فارسی و عربی ذکر شده است. در این پایان نامه الگوریتمی به منظور بازشناسی متون فارسی از ترکیب دو شاخه علمی پردازش تصویر و پردازش زبانهای طبیعی ارائه شده است. الگوریتم پیشنهادی شامل مراحل استخراج شبه کلمات به عنوان یکی از مهمترین اجزای الگوریتم شناسایی متن، ساخت کلمات از ترکیب شبه کلمات استخراج شده و سپس ترکیب کلمات به منظور ساخت جملات بالقوه معنی دار و در نهایت استفاده از دو مدل زبانی بایگرام و ترایگرام و چند قاعده گرامری به منظور تشخیص جمله صحیح بر اساس انطباق با گرامر رایج زبان فارسی می باشد. در الگوریتم ارائه شده، استفاده از قواعد گرامری مانند حذف ترکیبهای دستوری اشتباه منجر به بهبود نتایج حاصل از بازشناسی شد.