نام پژوهشگر: رضا حسینی نژاد
عبدالحسین صراف زاده رضا حسینی نژاد
این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در متن نیز باید مشخص باشند. الگوریتم پیشنهادی از مدل پنهان مارکوف استفاده می کند. این مدل یکی از موفق ترین روش های بازشناسی گفتار می باشد که به دلیل وجود شباهت های بسیار، در سال های اخیر در بازشناسی متون نیز مورد توجه زیادی قرار گرفته است. مدل پنهان مارکوف شامل حالات به همراه احتمال گذر بین آن هاست و در هر حالت می توان مشاهدات احتمالی مختلفی نیز داشت. برای بازشناسی متن، مشاهدات می توانند مجموعه ای از مقادیر پیکسل ها و حالات بیانگر بخش های حروف باشند. برای کوچک کردن فضای حالت ویژگی ها و در نتیجه ساده تر کردن محاسبات، در این روش از کوانتیزاسیون برداری نیز استفاده شده است که این کار با کمک خوشه بندی انجام می شود. در این پایان نامه روش های مختلف خوشه بندی نیز ارائه شده و کارایی آن ها در مسئله بازشناسی بررسی گشته و در نهایت الگوریتم خوشه بندی agglomerative مورد استفاده قرار گرفته است. در فرآیند آموزش روش ارائه شده، سیستم تعداد زیادی تصاویر متنی به همراه اطلاعات قطعه بندی آن ها در سطح کاراکتر دریافت می کند. سپس یک پنجره در راستای خط زمینه حرکت کرده و ابتدا برای حالات مختلف هریک از کاراکترها یک مدل پنهان مارکوف ایجاد می شود. در نهایت با بررسی احتمال قرارگیری حروف در کنار یکدیگر، تمامی این مدل ها به یکدیگر متصل شده و یک مدل پنهان مارکوف کلی نیز تشکیل می گردد. آموزش مدل ها در این فرآیند توسط الگوریتم baum-welch می باشد. در بخش تست، سیستم تصویر متن را دریافت کرده و با استفاده از مکانیزم پنجره ذکر شده، دنباله ای از ویژگی ها را نتیجه می دهد. در این جا نیازی به قطعه بندی نیست و تنها تشخیص محل قرارگیری خط کافی می باشد. با وارد کردن این دنباله مشاهدات به مدلی که در مرحله قبل آموزش داده شده، مدل پنهان مارکوف بهینه ترین زنجیره از حالات که بیانگر متن موجود در تصویر است، را با استفاده از الگوریتم viterbi به ما بر می گرداند. برای بررسی عملکرد این سیستم در زبان فارسی، با استفاده از چندین واژه نامه معتبر، مجموعه وسیعی از کلمات ایجاد کرده و با کنار هم قرار دادن تصادفی آن ها متون زیادی را تشکیل داده ایم. سپس تصاویر این متون را با قلم های مورد نظر تولید و ساختار مناسبی برای توصیف آن ها ایجاد نموده ایم. به منظور مقایسه نیز از مجموعه داده عربی pats استفاده شده است. برای مجموعه تصاویر توسعه داده شده نرخ بازشناسی بین 98.32 تا 100 و برای مجموعه داده pats بین 95.37 تا 100 قرار دارد.