نام پژوهشگر: محمدرضا عربعامری
محمدرضا عربعامری علیرضا احمدی فرد
در این پایان نامه روشی برای تشخیص متن در تصاویر مختلف طبیعی پیشنهاد شده است. در ابتدا کلیه تصاویر با پنجره های ۱۶×۱۶ بدون هم پوشانی مورد برسی قرارگرفته و ماتریس مشخص شده با عملگر hog استخراج می شود و پس ازاین مرحله با توجه به تعداد نسبتا مناسب ویژگی ها، مجموعا 40 ویژگی که برای هر بلوک در یک بردار 40 تایی ذخیره و با سه حالت روی نویسه، داخل نویسه و یا منطقه کاملا مستقل مشخص شده و مجموع پنجره های ۱۶×۱۶ با ویژگی متناظر آن به ورودی کلاسه بند اعمال می شود. با توجه به عدم بالانس بودن یا توازن بین تعداد ویژگی ها در کلاس ها با عمل همسان سازی تعداد ویژگی های، قسمت کلاس غیر متن با کلاس متن تقریبا برابر می شود تا در نهایت هنگام آموزش کلاسه بند دچار خطا و واگرایی نشود. چالش بسیار مهم انتخاب کلاسه بند مناسب از بین مجموعه الگوریتم های شبکه عصبی svm و روش های آماری بوستینگ ها می باشد که پس از تحلیل های انجام شده روش بوستینگ با هسته لاجیت بوست بر اساس درصد درستی، مناسب تر تشخیص داده شده و به عنوان الگوریتم کلاسه بند منتخب تعیین می شود. برای اعتبار سنجی و از بین بردن شرایط تصادفی آموزش و آزمایش از روش 10-fold cross validation استفاده شده است تا درصد های مربوط به کلاسه بند لاجیت بررسی شود و اعتبار انتخاب تأیید شود. در نهایت روش پیشنهادی اعم از پنجره بندی تصاویر، استخراج کل ویژگی ها و در نهایت اعمال کلاسه بند و مشخص کردن محل های متن پیاده سازی شده، با چند تصویر نمونه جدید مورد بررسی قرار می گیرد. نتایج خروجی نشان می دهد که الگوریتم پیشنهادی قادر است با درصد نسبتا قابل قبول محل متن را در تصویر مختلف بدون در نظر گرفتن مکان یا منظره پشت متن مشخص کند. لازم به ذکر است که متون انتخاب شده در این پیاده سازی بر اساس دیتابیس های استاندارد متون چاپ شده به زبان های انگلیسی یا آسیایی شرقی می باشد و این الگوریتم برای زبان های فارسی موردبررسی قرار نمی گیرد. در نهایت نتایج اعمال روش هم به صورت جدول و به صورت تصاویر در قسمت مربوط به نتایج آورده شده است تا صحت روش با تصویر مشخص شود.