نام پژوهشگر: زهرا سادات مرتضوی طباطبایی
زهرا سادات مرتضوی طباطبایی بهروز قلی زاده
بازشناسی متون چاپی، از جمله زمینه های پرکاربرد بازشناسی الگو است. تاکنون تحقیقات متعددی در زمینه ی بازشناسی متون چاپی فارسی و عربی صورت گرفته است اما این تحقیقات، غالبا با محدودیت های فراوانی به ویژه در حوزه ی عملیاتی شدن، همراه بوده اند. کلیه ی تحقیقات انجام شده در این حوزه را می توان در قالب سه رویکرد مبتنی بر جداسازی حروف، رویکرد مبتنی بر بازشناسی شکل کلی زیرکلمات و رویکرد ترکیبی، تقسیم بندی نمود. در این پژوهش سعی شده است تا دو راهکار در زمینه ی رویکرد بازشناسی مبتنی بر شکل کلی کلمات و رویکرد ترکیبی ارائه شود. در راهکار نخست که مبتنی بر رویکرد شکل کلی کلمات می باشد، ابتدا به ارائه ی الگوی باینری محلی هرمی، به عنوان یک روش استخراج ویژگی مستقل از چرخش و کارا در حوزه ی تشخیص زیرکلمات چاپی پرداخته شده و سپس با بهره گیری از خوشه بندی فازی و شبکه های عصبی توابع پایه شعاعی، عملیات بازشناسی انجام می پذیرد. آزمایشات صورت گرفته حاکی از آن است که راهکار پیشنهادی با دقتی در حدود 97.81 درصد، قادر به تفکیک و تشخیص زیرکلمات چاپی می باشد. در راهکار دوم که مبتنی بر رویکرد ترکیبی است، نخست، گروهی از حروف ابتدا، میانه و انتهای کلمات، که با دقت بالایی قابل جداسازی و بازشناسی می باشند، به عنوان حروف شاخص مشخص می شوند و سپس با بهره گیری از الگوریتم ژنتیک و عملگرهای مورفولوژی، مجموعه ای ازعملگرهای مورفولوژی به همراه عناصر ساختاری بهینه که قادر به توصیف مناسب هر یک از گروه ها هستند مشخص شده و زیر کلمات هر یک از گروه ها بر اساس این حروف شاخص، کدگذاری می شوند. سپس یک دیکشنری تصویری، بر اساس زیرکلمات کد شده، ایجاد شده و در نهایت، عملیات بازشناسی زیرکلمات از طریق یک شبکه عصبی توابع پایه شعاعی و به کارگیری ویژگی موجک صورت پذیرفته است، صورت می پذیرد. در پایان این پژوهش نیز به منظور بکارگیری اطلاعات معنایی زمینه، به بررسی بهره گیری از مدل زبانی srilm در سطح کلمه و زیرکلمه بر روی یک سیستم پیشنهادی، پرداخته شده است. کلمات کلیدی بازشناسی متون، خوشه بندی فازی، شبکه عصبی توابع پایه شعاعی، الگوریتم ژنتیک، مدل زبانی