نام پژوهشگر: محمدعلی بزرگ زاده

تشخیص بر خط دستنوشته فارسی مبتنی بر روش های یادگیری
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1386
  محمدعلی بزرگ زاده   محمد رحمتی

در این پایان نامه، ضمن بررسی تاریخچه و تعدادی از روش های متداول تشخیص برخط حروف و کلمات، یک سیستم تشخیص برخط کلمات فارسی، طراحی و پیاده سازی شده است. ورودی این سیستم توسط قلم نوری دریافت می شود. اخیراً بعلت فراگیر شدن دستگاه های کامپیوتر جیبی و تلفن های همراه پیشرفته، اهمیت چنین سیستمی، بیش از پیش مورد توجه قرار گرفته است. در روش پیشنهادی ما، عمل شناسایی دستنوشته، از طریق جستجوی پرتو انجام می شود. این جستجو بر روی فرضیه هایی که با جلو رفتن گام های زمانی تکمیل می شوند، انجام می شود. امتیازدهی به این فرضیه ها از راه یافتن فاصله dtw بدنه و علایم حروف منتسب شده در فرضیه با الگوهای نمونه ای دسته مربوطه شان انجام می پذیرد. در جستجوی پرتو، هرس کردن فرضیه ها، بسیار اهمیت دارد. به همین منظور، لیست نسبتاً جامعی از 15 تکنیک مرتبط با هرس و کنترل رشد بی رویه فرضیه ها، ارایه شده است که می تواند مرجع مناسبی برای کارهای بعدی در این زمینه باشد. برخی از این تکنیک ها، با توجه به ویژگی های خاص زبان فارسی و برای اولین بار، مطرح شده اند. هرچند برخی از این تکنیک ها بطور پراکنده در مقالات مختلف مطرح شده اند.در مرحله آموزش و آماده سازی سیستم، الگوهای نمونه ای برای دسته های مختلف بدنه و علامت حروف فارسی یافت می شود. الگوهای نمونه در هر دسته، می بایست طوری انتخاب شود که شامل انواع رسم الخط های نمونه آن دسته باشد. برای جمع آوری داده های آموزشی، از 160 نفر، هر کدام 34 کلمه و 32 حرف مجزای الفبای فارسی جمع آوری شد. از انواع سطح تحصیلات از دانش آموز گرفته تا دکترا، از سنین مختلف و جنسیت مرد و زن با انواع رسم الخط های نگارشی در بین این 160 نفر بوده اند. تقطیع کلیه این کلمات در مرحله آموزش برای جداکردن تکه های علایم و حروف هر کلمه بصورت دستی انجام پذیرفته است. سپس الگوهای نمونه ای در هر دسته با یک روش خوشه بندی پایین به بالا انتخاب شده است.در خوشه بندی، برای معیار فاصله، از همان معیاری استفاده می شود که در مرحله شناسایی نیز برای امتیازدهی به فرضیه ها استفاده می شود یعنی فاصله dtw که تغییراتی در روش کلاسیک آن، بوجود آمده است. تعریف ارایه شده برای فاصله بین دو الگو در dtw کلاسیک، به تعداد تارها حساس است. چنین تعریف فاصله ای بطور ضمنی باعث خواهد شد که به سمت ترازبندی هایی با تعداد تارهای کمتر تمایل ایجاد شود. برای حل این مشکل، تغییر کوچکی در الگوریتم داده شد بطوریکه بجای مینیمم کردن مجموع فواصل نقاط متناظر، میانگین فواصل نقاط متناظر مینیمم شود.در این پایان نامه، تعریف فاصله بین عناصر دو دنباله، بصورت تابعی غیرخطی از اختلاف زاویه می باشد. براساس خروجی تابع غیرخطی استفاده شده، هنگامیکه اختلاف زاویه کم باشد (خصوصاً کمتر از 27 درجه)، فاصله، بسیار کم (در حدود 0.02) می باشد که منطقی است زیرا انتظار داریم با اختلافات اندک زاویه بین نقاط متوالی دو دستنوشته که امری طبیعی است با اغماض برخورد شود و وقتی اختلاف زاویه بین دو الگو زیاد می شود، رشد فاصله بین دو الگو، تشدید گردد. همچنین در این کار، بمنظور کاهش تعداد دسته ها، برای حروفی که بدنه مشترک دارند دسته های بدنه، با هم ادغام شده است. تا جایی که ما اطلاع داریم، ایده نگاه جداگانه به بدنه حروف در 4 حالت اول، وسط، آخر و مجزا و ادغام دسته های بدنه مشترک، برای کاهش تعداد دسته ها در کار دیگری، مستندسازی نشده است.با تنظیم بهینه پارامترها، به نرخ تشخیص صحیح 84.38 % و میانگین زمان اجرای 5/7 ثانیه برای تشخیص یک کلمه می رسیم. بعنوان داده های آزمایشی، از داده هایی که از 8 نفر جمع آوری شده بود استفاده کرده ایم. هر فرد، 20 کلمه را می نویسد که بصورت تصادفی از یک فرهنگ لغت شامل 11900 لغت انتخاب می شود. چنانچه میانگین زمان اجرا از اهمیت بالایی برخوردار باشد، می توان بازاء کاهش اندک در نرخ تشخیص، میانگین زمان اجرا را تا حد زیادی کاهش داد. با تغییر اندک در مقادیر پارامترها، میانگین زمان اجرا 5 ثانیه کاهش می یابد و به 5/2 ثانیه تقلیل پیدا می کند درحالیکه از نرخ تشخیص صحیح، کمتر از 3% کاسته می شود و نرخ تشخیص صحیح به 81.88% می رسد. درصورتیکه، میانگین زمان اجرا، 1 ثانیه دیگر کمتر شود و به 5/1 ثانیه برسد، نرخ تشخیص صحیح برابر با 78.75% خواهد بود. تنظیمات اخیر، احتمالاً برای یک سیستم تجاری با محدودیت زمان اجرا مناسب تر است.از مزایای روش ارایه شده، می توان به سادگی پیاده سازی، امکان تنظیم دقت در مقابل سرعت شناسایی، امکان تطبیق با نویسنده، عدم وجود شرایط محدودکننده در نگارش کلمات، استفاده از تکنیک های فراوان برای کنترل رشد فرضیه ها و عدم وابستگی حداکثر مدت زمان لازم برای شناسایی کلمه به حجم فرهنگ لغات اشاره نمود.