بازشناسی مستقل از اندازه متون چاپی فارسی با استفاده از توصیفگرهای مستقل از مقیاس و روش های انتخاب ویژگی

پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی
نویسنده سعید سرابی نوبخت
استاد راهنما جمشید شنبه زاده عبدالحسین صراف زاده
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1392

چکیده

این پایان نامه در خصوص بازشناسی متون چاپی فارسی و عربی به صورت مستقل از اندازه قلم است. بازشناسی آخرین مرحله در فرآیند ocr می باشد. در مراحل قبل انواع نویزها و چرخش موجود در تصویر برطرف شده، و ویژگی های مورد نظر از تصویر استخراج شده است. در روش پیشنهادی سیستم برای هر قلم فقط در یک اندازه مشخص آموزش داده می شود و پس از آن با دقت قابل قبولی در بازه ای از اندازه ها قادر به بازشناسی متون چاپی فارسی و عربی خواهد بود. همچنین در این سیستم فرآیند قطعه بندی و بازشناسی کاراکترها به صورت همزمان انجام می شود. اساس این روش بر استفاده از توصیفگرهای sift و مکانیزم پنجره لغزان استوار است. این توصیفگرها علاوه بر اینکه ساختار تصویر را به خوبی بیان می کنند، نسبت به برخی تغییرات مانند تغییر در مقیاس مقاوم هستند. علاوه بر توصیفگرهای sift، از تعدادی ویژگی های دیگر برای بالابردن میزان صحت بازشناسی استفاده شده است. به منظور افزایش کارایی، در روش پیشنهادی فضای حالت براساس موقعیت کاراکتر در کلمه به چهار حالت ابتدایی، میانی، پایانی و منفرد تقسیم، و برای هریک از این حالات یک کلاس بند در نظر گرفته شده است. همچنین در هریک از این چهار کلاس بند، با استفاده از مکانیزم وزن دهی به ویژگی ها، نرخ بازشناسی بهبود یافته است. فرآیند آموزش در این سیستم نسبت به سایر سیستم ها بسیار سریع تر است زیرا به ازای هر قلم، سیستم فقط در یک اندازه و روی تعداد اندکی سمبل آموزش می بیند. در پیاده سازی مرحله بازشناسی نیز، با استفاده از تکنیک هایی چون حافظه اشتراکی، مالتی ترد و توزیع پردازش روی هسته های پردازشی، سرعت اجرای الگوریتم بیش از 20 برابر نسبت به حالت عادی بهبود یافته است. الگوریتم پیشنهادی روی سه مجموعه داده pats ، apti و مجموعه داده حاصل از ocrdsg در حالت های مختلف تست شده است. نرخ بازشناسی در سطح کاراکتر برای مجموعه داده pats در بازه 98.13 تا 100 درصد و برای مجموعه داده apti در بازه 96.82 تا 100 درصد است. همچنین سیستم پیشنهادی روی مجموعه داده بدست آمده از ocrdsg به ازای هفت قلم فارسی متداول و در 13 اندازه مختلف، بر موتور بازشناسی tesseract پشتیبانی شده توسط گوگل غلبه دارد. در این حالت نرخ بازشناسی سیستم در سطح کاراکتر در بازه 97 تا 100 درصد است. نتایج این تست ها از عملکرد بسیار خوب این الگوریتم خصوصاً در اندازه های نزدیک به اندازه آموزش سیستم حکایت دارد. سیستم پیشنهادی تقریباً بر همه سیستم های شرکت کننده در مسابقه ذکر شده در متن پایان نامه غلبه می کند. توجه شود که این سیستم فقط برای یک اندازه آموزش داده شده و فاقد هرگونه لغتنامه و یا مرحله پس پردازش است. با آموزش سیستم برای اندازه های مختلف، نرخ بازشناسی در تمامی حالت ها به بیش از 99% می رسد.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

The effect of cyclosporine on asymmetric antibodies and serum transforming growth factor beta1 in abortion-prone model of mice CBA/J x DBA/2

كچ ي هد فده و هقباس : ي ک ي طقس زورب للع زا اه ي ،ررکم ا لماوع تلاخد ي ژولونوم ي ک ا رد ي ن قم طققس عون ي وراد دقشاب ي س ي روپسولک ي ،ن ح لدم رد طقس شهاک بجوم ي ناو ي CBA/j×DBA/2 م ي تنآ ددرگ ي داب ي اه ي ان و راققتم TGF-β لماوع زا عت مهم يي ن گلماح تشونرس هدننک ي سررب روظنم هب رضاح هعلاطم تسا ي ات ث ي ر اس ي روپسولک ي ن م رب ي از ا ي ن تنآ عون ي داب ي س و اه ي اکوت ي ن TGF...

متن کامل

The Study of Stressful Factors in Clinical Education for Nursing Students Studying in Nursing and Midwifery College in Khorramabad

کچ هدي پ شي مز هني فده و : شزومآ لاب يني شخب ساسا ي شزومآ مهم و راتسرپ ي تسا . و هنوگ ره دوج لکشم ي شزومآ رد لاب يني ، آراک يي هدزاب و ا ني شزومآ زا شخب راچد ار لکشم م ي دنک . فده اب رضاح شهوژپ سررب ي لماوع سرتسا از ي شزومآ لاب يني رد وجشناد ناي راتسرپ ي هدکشناد راتسرپ ي و يامام ي ماـجنا داـبآ مرـخ تسا هتفرگ . شور و داوم راک : رضاح هعلاطم کي هعلاطم صوت يفي عطقم ي تسا . د...

متن کامل

تشخیص کاراکتر فارسی پلاک خودرو، مستقل از چرخش و اندازه با استفاده از ممان‌های متعامد

چکیده امروزه با گسترش روز افزون سرعت تولید و واردات خودرو به کشور ایجاد سیستم‌‌های شناسایی و تشخیص پلاک خودرو امری ضروری به نظر می‌رسد. این عامل باعث گردیده است کنترل تردد ترافیک خودرو توسط نیروی انسانی بسیار ناممکن به نظر برسد. استفاده از این سیستم‌ها در صورتی که با شرائط محیطی کشور سازگار باشد باعث کاهش قابل توجهی از...

متن کامل

بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...

حذف خودکار آرتیفکت چشمی از سیگنال های مغزی با استفاده از ویژگی های آماری و زمانی- فرکانسی مولفه های مستقل

مهمترین مشکل در بررسی و پردازش ثبت های الکتروآنسفالوگرام (EEG) حضور انواع سیگنال های ناخواسته (آرتیفکت ها) است که حذف آنها با روش تحلیل مولفه های مستقل از بهترین گزینه های ممکن است. هدف مساله تحلیل مولفه های مستقل جداسازی کور ترکیبی خطی از منابع مستقل است. با اعمال این روش روی سیگنال های مغزی آغشته به آرتیفکت، آرتیفکت ها به صورت مولفه های مستقلی استخراج می شوند. تشخیص خودکار مولفه های مستقل مرب...

متن کامل

بازشناسی متون چاپی فارسی

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی

کلمات کلیدی

بازشناسی کاراکتر بازشناسی متن

میزبانی شده توسط پلتفرم ابری doprax.com