نام پژوهشگر: مریم سبزواری
مریم سبزواری علیرضا احمدی فرد
استخراج متن موجود در تصاویر صحنه های طبیعی، امروزه مورد توجه محققین زیادی قرارگرفته است. محتوای صحنه می تواند به دو طبقه مهم تقسیم بندی شود. محتوای ادراکی و محتوای معنایی. محتوای ادراکی شامل خصوصیات رنگ، شکل و بافت صحنه می باشد. در مقابل محتوای معنایی شامل متن، چهره، رفتارها و حرکات انسان است. در میان اطلاعات مختلف موجود در صحنه، اطلاعات متنی از اهمیت ویژ ه ای برخوردارند، چرا که به آسانی توسط انسان قابل فهم بوده و امکان توصیف محتوای یک صحنه را فراهم می کنند. در این پایان نامه، روشی برای استخراج متن از صحنه ها با پس زمینه پیچیده، بدون در نظر گرفتن زبان نوشتاری ارایه شده است. الگوریتم پیشنهادی از چهار مرحله اصلی تشکیل می شود. در مرحله اول به کمک ویژگی تغییر گرادیان در لبه های صحنه اقدام به استخراج نواحی کاندید متن می نماییم. در مرحله بعد از میان کاندیدها با توجه به این واقعیت که اجزاء تشکیل دهنده یک سطر متن در صحنه دارای راستا و ارتفاع تقریبا یکسانی هستند به گروه بندی نواحی استخراج شده می-پردازیم. در مرحله سوم از ویژگی های هیستوگرام اندازه گرادیان و زاویه گرادیان در نواحی استخراج شده، استفاده نموده تا نواحی غیر متنی را فیلتر نماییم. برای این منظور از یک طبقه بند ماشین بردار پشتیبان که توسط ویژگی های هیستوگرام اندازه گرادیان و زاویه گرادیان نواحی متنی و غیر متنی آموزش دیده است استفاده می کنیم. در ادامه با قرار دادن معیار فاصله بر مبنای عرض نواحی متنی یافت شده و استفاده از افکنش افقی نتیجه بهبود داده می شود. نتایج ارزیابی روش پیشنهادی بر روی صحنه ها ،دارای متون فارسی و انگلیسی با قلم های مختلف با پس زمینه های ساده و پیچیده متون می باشند که بر اساس تشخیص و ارزیابی نتایج حاصل از سه مجموعه داده icdar 2003/2005 dataset ، microsoft street view text detection dataset و مجموعه داده فارسی, روش تشخیص متن پیشنهاد شده می تواند برای متن با قلم ها، اندازه، رنگ و جهت گیری های مختلف کار آمد باشد. این نتیجه در مقایسه با روش های موجود بسیار امیدوار کننده است.