خوشه بندی زبان نوشتار در تصاویر اسناد چندخطه چاپی برای نرم افزارهای ocr

پایان نامه
چکیده

تشخیص حروف نوری یکی از حوزه های کاری در شناسایی الگو می باشد. همه ساله مقالات مرتبط با این موضوع در کنفرانس های حوزه هوش مصنوعی، شناسایی الگو، پردازش تصویر، ماشین بینایی و ... ارائه می شود. با این وجود به لحاظ گستردگی زبان ها در دنیا و پیچیدگی ذاتی این موضوع، هنوز علاقمندان بسیاری در پی یافتن نتایج بهتر برای شناسایی متون می باشند. اکثر مقالات با بیان این که هر زبان نوشتار ویژگی های خاص خود را دارا می باشد، فقط می توانند حروف سندی را شناسایی کنند که دارای یک زبان نوشتار است. در بررسی اسناد، موارد زیادی وجود دارد که سند دارای دو یا چند زبان متفاوت است. لذا سیستم های تشخیص متون نیاز به شناسایی چند زبان به صورت همزمان دارند. در این پژوهش با انتخاب چند زبان رسمی دنیا، الگوریتمی برای طبقه بندی زبان در یک سند چند زبانه پیشنهاد شده است. تفاوت کار طبقه بندی و شناسایی کامل هر زبان این است که سیستم نیازی ندارد وقت خود را صرف شناسایی کامل زبان نوشتار کند. سیستم شناسایی متون، فقط تشخیص میدهد هر قسمت از متن به کدام طبقه زبانی تعلق دارد و سپس کار استخراج ویژگیهای هوشمند متناسب با آن طبقه را انجام می دهد. هم چنین در سیستم پیشنهادی به دلیل عدم تشخیص دقیق خط، میزان خطا نیز کاهش پیدا میکند. الگوریتم پیشنهادی بر مبنای ویژگی های استخراج شده از ظاهر نوشتار، کار طبقه بندی را انجام می دهد. مدل های به کار رفته برای طبقه بندی، مدل ساده و سلسله مراتبی و طبقه بند مورد استفاده ساختار درخت تصمیم با سطوح آستانه وفقی است. درصد تشخیص به دست آمده بر روی متون اسکن شده 93.3% و برای داده های عکس برداری شده با دوربین 91% می باشد که اثر بخشی مدل ارائه شده را اثبات می کند.

منابع مشابه

رفع نویز و دودویی سازی تصاویر اسناد چاپی به کمک خوشه بندی ویژگی ها

در این پایان نامه، یک روش جدید جهت رفع نویز و دودویی سازی تصویر اسکن شده اسناد با جامعیتی بالاتر از روش های موجود ارائه شده است. رفع نویز یکی از بخش های مهم در مرحله پیش پردازش سیستم های بازشناسی حروف با کمک ابزار نوری ( ocr) است. تصاویر اسناد، ممکن است در مرحله تولید (چاپ یا نوشتن)، اسکن شدن یا آرشیو شدن پیش از اینکه هرنوع پردازش هوشمندی روی آن ها انجام گیرد، دچار نویز شوند. از آنجایی که وجود ...

خوشه بندی سلسله مراتبی و k-میانگین در نرم افزارهای r، sas و matlab

خوشه بندی سلسله مراتبی و خوشه بندی -kمیانگین، با توجه به توانایی هایی که در برطرف کردن نیازها و مشکلات پژوهشی در علوم مختلف دارند، کاربرد وسیع و گسترده ای در بین پژوهشگران پیدا کرده اند. کاربردهای وسیع خوشه بندی در زمینه های مختلف بهداشت و درمان، فنی و مهندسی، علوم اجتماعی و انسانی سبب رشد علم در این زمینه ها شده است. نرم افزارهای sas ، r و matlab به دلیل قابلیت های برنامه نویسی ای که دارند، از...

متن کامل

کاهش بعد تصاویر فراطیفی از طریق خوشه بندی فازی باندها

این مقاله یک روش نوین جهت انتخاب باند از تصاویر فراطیفی از طریق خوشه بندی باندها ارائه می دهد. نوآوری اصلی این تحقیق در دو موضوع قرار می‌گیرد: الف- ارائه یک فضای محاسباتی جدید با نام فضای پدیده که در آن باندها بر اساس انعکاس طیفی پدیده ها دارای بردار مشخصه می‌شودد. ب- ارائه معیار هایی نظیر عدم قطعیت و زاویه در فضای پدیده برای شناسایی باندهای با وابستگی بالا و باندهای حاوی اطلاعات. پس از آنکه فض...

متن کامل

راهنمایی انتخاب نرم افزارهای نقشه برداری برای کاربران

در طول دهه اخیر در تنوع و تکمیل نرم­ افزارهای نقشه ­برداری پیشرفت زیادی حاصل گردیده و استفاده از این نرم افزارها به عنوان یک ابزار اساسی در اکثر مؤسسات نقشه ­برداری رایج گردیده است. هدف از این مقاله مروری بر گستره نرم ­افزارهای موجود در زمینه  نقشه برداری برای کامپیوترهای شخصی و مشخص نمودن پارامترهای اساسی نظیر سخت افزار کامپیوتری مورد نیاز، سیستم عامل و مقایسه بهای لازم برای حداقل و حداکثر ساخ...

متن کامل

نظام نرم افزارهای متن باز

نظام متن باز رویکردی استبرای حمایت از توسعه و گسترش آزاد نرم‌افزارها که در پایان دهه 1990 در واکنش به ایجاد انحصار در زمینه تولید نرم‌افزار در تقابل با نظام مالکیت فکری مطرح شد. انتقال آزاد کدمبدأ همراه با نرم‌افزار و امکان توزیع، اصلاح و بازتوزیع آزادانه نسخه اصلاح شده از اصول اساسی این رویکرد است. اصول ده‌گانه حاکم بر نظام متن باز در تقابل با اصول و قواعد حاکم بر نظام حقوق مالکیت فکری قرار دا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه امام رضا علیه السلام - دانشکده مهندسی برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023