نام پژوهشگر: حامد عرب یارمحمدی
حامد عرب یارمحمدی علیرضا احمدی فرد
برای بازشناسی زیرکلمات فارسی سه رویکرد مبتنی بر جداسازی به حروف، مبتنی بر شکل کلی زیرکلمه و ترکیبی از این دو وجود دارد. در بسیاری از سازمان ها، تصاویر نامه ها با درجـه تفکـیک 150 نقطه بر اینچ و کمتر ذخیره می شوند. متنی با این درجه تفکـیک برای خواندن توسط کاربر انسانی مناسب است اما برای بازشناسی توسط سیستم شناسایی نوری کلمات این درجه تفکیک بسیار کم به نظر می رسد. حتی سیستم های شناسایی نوری کلمات لاتین هم غالبا برای 300 نقطه بر اینچ، توسعه یافته اند. در درجـه ی تفکـیک پایین ، جـداسازی به سخـتی امکان پذیر است و باید از روش هایی مانند شکل کلی استفاده نمود. در این پایان نامه به بررسی و بازشناسی زیرکلمات فارسی با درجـه تفکـیک 96 نقطه بر اینچ می پردازیم که برای این منظور از شکل کلی زیرکلمات برای بازشناسی آنها بهره برده ایم. سیستمی که در اینجا برای بازشناسی زیرکلمات فارسی ارائه شده مبتنی بر یک روش سه مرحله ای است . در مرحله نخست به کمک خوشه بندی، دامنه ی جستجوی تصاویر زیرکلمات موجود در فرهنگ لغت کاهش داده شده که این کار نه تنـها سرعت سیستم را بالا می برد بلکه دقت را نیز افزایش می دهد، در مرحله دوم بازشناسی، با استفاده از یک طبقه بند، 4 خوشه ی نزدیک به زیرکلمه ی آزمون ورودی تشخیص داده می شود و پس از آن با جستجو در میان آن خوشه های هدف، 10 نزدیک ترین زیرکلمات موجود در فرهنگ لغت، به زیرکلمه ی آزمون را می یابیم، این روند برای تمام زیرکلمات یک کلمه تکرار شده سپس در مرحله ی سوم با استفاده از روش رخدادهای محتمل برای توالی زیرکلمات، کلمه ی آزمون تشخیص داده می شود. دقت این الگوریتم بازشناسی بسیار مناسب تخمین زده می شود و قابلیت بازشناسی 098/01 % در کلماتی که از بیش از یک زیرکلمه تشکیل شده اند را داراست و کلماتی که صرفاً، تک زیرکلمه ای اند را با دقت 82/53 % بازشناسی می کند.