نام پژوهشگر: غلامرضا نادعلی نیا چاری

بازشناسی کلمات دست نویس فارسی بر اساس جداسازی بخش ها
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه سمنان 1390
  غلامرضا نادعلی نیا چاری   خشایار یغمایی

در این تحقیق یک سیستم بازشناسی کلمات فارسی معرفی می شود که از خودهمبستگی محلی مرتبه بالای تصویر قطبی-لگاریتمی برای استخراج ویژگی از زیر- کلمات فارسی استفاده می کند. این شیوه ی استخراج ویژگی باعث می شود سیستم در مقابل تغییرات نگارشی مانند تغییر مقیاس های خطی و چرخش مقاوم شود. از مراحل مهم در یک سیتم بازشناسی کلمات، مرحله استخراج ویژگی می باشد. با توجه به این که کلمات دست نوشته دارای تغییرات نگارشی مختلفی هستند بنابراین بایداز یک طرف، ویژگی ای از تصویر کلمات استخراج شود که در مقابل این تغییرات نگارشی مقاوم بوده واز طرف دیگر، بتواند نماینده منحصربفرد آن در یک کلاس خاص باشد. برخلاف بیشتر سیستم های بازشناسی برپایه hmm که از پنجره لغزان در مرحله استخراج ویژگی، به صورت یکنواخت نمونه گیری می کنند، دراین تحقیق روشی ارائه می شود که استخراج ویژگی به صورت غیر یکنواخت ومتمرکز صورت می گیرد. در واقع به کمک تبدیل قطبی-لگاریتمی ( log-polar ) که در ادامه مورد بحث قرار می گیرد می توان از تصویر کلمه به گونه ایی نمونه برداری انجام داد که بیشترین نمونه ها در یک ناحیه خاص متمرکز باشد و هر چه از آن ناحیه به سمت حاشیه وپیرامون تصویر کلمه پیش می رویم نقاط نمونه برداری شده کمتر شود. مزیت این روش این است که می توان تعداد نقاط نمونه برداری از بخشی ازتصویر کلمه که دارای اطلاعات (پیکسل های سیاه) بیشتری است را افزایش داد. همچنین از آنجاکه چرخش وتغییر مقیاس در تصویرکلمه به صورت شیفت در تصویر log-polar ظاهر می شود، می توان به کمک تابع خود همبستگی که یک تابع غیر حساس به شیفت است، سیستم بازشناسی رادر مقابله با تغییراتی همچون تغییر مقیاس های خطی وچرخش مقاوم کرد. در این سیتم بازشناسی کلمات فارسی از مدل مخفی مارکوف به عنوان طبقه بند استفاده شده است. به این صورت که برای هر زیر-کلمه یک مدل تعریف می شود. مدل های زیر- کلمات با یک شبکه دیکشنریی خاص به یکدیگر متصل می شوند. استفاده از شبکه دیکشنری امنیت و دقت خروجی سیستم بازشناسی را افزایش می دهد. انتهای هر مسیر در شبکه دیکشنری به یک کلمه منحصر بفرد ختم می شود. مجموع این مسیر ها در شبکه، دیتابیس مارا تشکیل می دهند. برای ارزیابی سیستم از دیتابیس "ایران شهر" استفاده شده است. . این دیتابیس شامل نام 30 شهر ازشهرهای ایران می باشدکه توسط 26نویسنده مختلف نوشته شده است. این دیتابیس در مجموع شامل 780نمونه کلمه دست نویس می باشدکه از 600 نمونه آن برای آموزش و 180 نمونه ی آن برای تست استفاده شده است. مقایسه نتایج حاصل از روش پیشنهادی با نتایج سایر روش های استخراج ویژگی، موید این است که سیستم بازشناسی پیشنهاد شده در این مقاله از حساسیت کمتری نسبت به تغییرات نگارشی برخوردار است. به عبارت دیگر می توان گفت، سیستم بازشناسی به روش پیشنهادی، وابستگی کمتری نسبت به یک نویسنده خاص دارد.