نام پژوهشگر: مجید مرزانی

بازشناسی حروف مجزای برخط فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده برق و کامپیوتر 1392
  مجید مرزانی   سید محمد رضوی

در این پایان نامه، روشی برای بازشناسی برخط حروف مجزای دست نویس فارسی ارایه می شود. در روش پیشنهادی برای بازشناسی حروف مجزای دست نویس فارسی، از دانش مربوط به بدنه اصلی و ریزحرکات به طور همزمان استفاده شده است. در این تحقیق حروف مجزای دست نویس فارسی بر اساس تشابه بدنه اصلی در 18، و بر اساس تشابه ریزحرکات در 11 گروه، گروه بندی می شوند. برای مثال، سیستم برای حرف «چ»، بدنه اصلی و ریزحرکات را شناسایی می کند، اگر گروه شناسایی شده از بدنه اصلی و ریزحرکات همخوانی داشته باشند، نمونه ناشناخته شناسایی می شود. در صورت بروز ناهمخوانی احتمالی بین گروه های شناسایی شده از بدنه اصلی و ریزحرکات تصمیم گیری نهایی برای تعیین کلاس خروجی به عملیات پس پردازش واگذار می شود. در عملیات پس پردازش ناهمخوانی پیش آمده با استفاده از الگوریتم تصحیح خطا، تاحد امکان تصحیح می گردد. در این تحقیق چهار مجموعه ویژگی نقطه ای و یک مجموعه ویژگی سراسری، از نمونه های پیش پردازش شده استخراج شده است. به منظور دست یابی به بهترین مجموعه ویژگی، آزمایش های متعددی با استفاده از مجموعه ویژگی های نقطه ای و همچنین استفاده از ویژگی های نقطه ای درکنار ویژگی های سراسری انجام شده-است. به منظور کاهش هزینه محاسباتی و افزایش قدرت تفکیک پذیری ویژگی ها، با استفاده از روش های کاهش ابعاد ویژگی همچون تحلیل جداکننده خطی (lda) و تحلیل مولفه های اصلی (pca)، ابعاد بردار ویژگی از 102 ویژگی به 17 ویژگی کاهش می یابد. برای طبقه بندی بدنه اصلی حروف و همچنین برای ریزحرکات از طبقه بند ماشین بردار پشتیبان (svm) با رویکرد یک در مقابل یک (ovo) استفاده شده است. نتایج بدست آمده نشان می دهند که با استفاده از روش پیشنهادی حدود 98 درصد از حروف مجزای دست نویس فارسی برخط به درستی بازشناسی می شوند. در این پایان نامه به عنوان تحقیق جانبی، بازشناسی برخط ارقام دست نویس فارسی ارایه شده است. بهترین نرخ بازشناسی، با بهره گیری از تغییرات در راستای افقی (?x) و تغییرات در راستای عمودی (?y) به عنوان ویژگی نقطه ای در کنار مجموعه ویژگی های سراسری حاصل می شود، که میانگینی برابر با 98.08 درصد دارد. روش پیشنهادی ارایه شده در این تحقیق روی حروف مجزا و ارقام دست نویس فارسی پایگاه داده online-tmu انجام شده است.