نام پژوهشگر: الهام بایسته تاشک
الهام بایسته تاشک علیرضا احمدی فرد
در این پایان نامه بازشناسی برون خط کلمات دست نوشته فارسی در یک فرهنگ لغت محدود مورد مطالعه قرار می گیرد. برای این منظور یک روش دو مرحله ای پیشنهاد می گردد. در مرحله نخست توسط الگوریتم های خوشه بندی سلسله مراتبی وisoclus کلمات موجود در فرهنگ لغت بر اساس تشابه خوشه بندی می شوند. ویژگی های تشابهی به کار رفته در این مرحله، بردارهای پروفایل بالا، پایین، پروژکشن عمودی و تعداد گذر از سیاه به سفید برای هر ستون تصویر است. برای کاهش ابعاد ویژگی های استخراج شده و محدود کردن آشفتگی این سیگنال ها از تبدیل موجک یک بعدی استفاده شده است. برای اندازه گیری تشابه بردارهای ویژگی های دو کلمه از معیار فاصله dtw استفاده می کنیم. میانگین هر خوشه در فضای ویژگی ها به عنوان نماینده آن خوشه و مدخل مشترک اعضای آن خوشه در فرهنگ لغت تصویری، در نظر گرفته می شود. تعداد کلمات موجود در فرهنگ لغت مورد مطالعه 16000 کلمه از 503 شهر ایران می باشدکه "ایران شهر" نام دارد. در این مرحله کلمات دست نوشته در 62 خوشه قرار می گیرند. در مرحله شناسایی کلمه ورودی، با انتخاب 5 خوشه نزدیک به کلمه دست نوشته مورد آزمون با دقت 94% حدود 77% از کلمات مورد بررسی کاهش خواهد یافت. در مرحله دوم بازشناسی، یکی از کلمات کاندید بدست آمده از مرحله اول می بایست بعنوان کلمه مورد آزمون تشخیص داده شود. در این مرحله از ویژگی هیستوگرام گرادیان روشنایی محلی استفاده می کنیم. برای این منظور گرادیان تصویر کلمه ورودی بلوک بندی می شود. در این پایان نامه دو روش بلوک بندی تطبیقی برای بهبود عملکرد بازشناسی پیشنهاد می گردد. در روش اول اندازه بلوک ها بر اساس توزیع پیکسل های سیاه (قلم) تنظیم می شوند و در روش دوم اجزاء اصلی کلمات دست نوشته به طور جداگانه بلوک بندی و سپس با هم ترکیب می شوند. بردارهای ویژگی مبتنی بر گرادیان کلمه ورودی با بردارهای ویژگی حاصل از کلمات کاندید در فرهنگ لغت در یک طبقه بند مقایسه می شوند. برای این منظور از کلاسه بندهای k نزدیکترین همسایه و svm چند کلاسه استفاده می شود. نتایج بازشناسی کلمات دست نوشته پایگاه داده "ایران شهر" نشان می دهد که مرحله کاهش کاندید ها در فرهنگ لغت باعث افزایش نسبی دقت و سرعت می شود. این به دلیل حذف کلمات نامتشابه در بازشناسی کلمه دست نوشته مورد بررسی است. همچنین روش پیشنهادی بلوک بندی تطبیقی در استخراج ویژگی هیستوگرام گرادیان محلی باعث بهبود 13 درصدی دقت سیستم بازشناسی می شود.