خوشه بندی زبان نوشتار در تصاویر اسناد چندخطه چاپی برای نرم افزارهای ocr
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه امام رضا علیه السلام - دانشکده مهندسی برق و کامپیوتر
- نویسنده راضیه خدیوی گلکارزاده
- استاد راهنما سعید شعرباف تبریزی عادل قاضی خانی
- سال انتشار 1392
چکیده
تشخیص حروف نوری یکی از حوزه های کاری در شناسایی الگو می باشد. همه ساله مقالات مرتبط با این موضوع در کنفرانس های حوزه هوش مصنوعی، شناسایی الگو، پردازش تصویر، ماشین بینایی و ... ارائه می شود. با این وجود به لحاظ گستردگی زبان ها در دنیا و پیچیدگی ذاتی این موضوع، هنوز علاقمندان بسیاری در پی یافتن نتایج بهتر برای شناسایی متون می باشند. اکثر مقالات با بیان این که هر زبان نوشتار ویژگی های خاص خود را دارا می باشد، فقط می توانند حروف سندی را شناسایی کنند که دارای یک زبان نوشتار است. در بررسی اسناد، موارد زیادی وجود دارد که سند دارای دو یا چند زبان متفاوت است. لذا سیستم های تشخیص متون نیاز به شناسایی چند زبان به صورت همزمان دارند. در این پژوهش با انتخاب چند زبان رسمی دنیا، الگوریتمی برای طبقه بندی زبان در یک سند چند زبانه پیشنهاد شده است. تفاوت کار طبقه بندی و شناسایی کامل هر زبان این است که سیستم نیازی ندارد وقت خود را صرف شناسایی کامل زبان نوشتار کند. سیستم شناسایی متون، فقط تشخیص میدهد هر قسمت از متن به کدام طبقه زبانی تعلق دارد و سپس کار استخراج ویژگیهای هوشمند متناسب با آن طبقه را انجام می دهد. هم چنین در سیستم پیشنهادی به دلیل عدم تشخیص دقیق خط، میزان خطا نیز کاهش پیدا میکند. الگوریتم پیشنهادی بر مبنای ویژگی های استخراج شده از ظاهر نوشتار، کار طبقه بندی را انجام می دهد. مدل های به کار رفته برای طبقه بندی، مدل ساده و سلسله مراتبی و طبقه بند مورد استفاده ساختار درخت تصمیم با سطوح آستانه وفقی است. درصد تشخیص به دست آمده بر روی متون اسکن شده 93.3% و برای داده های عکس برداری شده با دوربین 91% می باشد که اثر بخشی مدل ارائه شده را اثبات می کند.
منابع مشابه
رفع نویز و دودویی سازی تصاویر اسناد چاپی به کمک خوشه بندی ویژگی ها
در این پایان نامه، یک روش جدید جهت رفع نویز و دودویی سازی تصویر اسکن شده اسناد با جامعیتی بالاتر از روش های موجود ارائه شده است. رفع نویز یکی از بخش های مهم در مرحله پیش پردازش سیستم های بازشناسی حروف با کمک ابزار نوری ( ocr) است. تصاویر اسناد، ممکن است در مرحله تولید (چاپ یا نوشتن)، اسکن شدن یا آرشیو شدن پیش از اینکه هرنوع پردازش هوشمندی روی آن ها انجام گیرد، دچار نویز شوند. از آنجایی که وجود ...
خوشه بندی سلسله مراتبی و k-میانگین در نرم افزارهای r، sas و matlab
خوشه بندی سلسله مراتبی و خوشه بندی -kمیانگین، با توجه به توانایی هایی که در برطرف کردن نیازها و مشکلات پژوهشی در علوم مختلف دارند، کاربرد وسیع و گسترده ای در بین پژوهشگران پیدا کرده اند. کاربردهای وسیع خوشه بندی در زمینه های مختلف بهداشت و درمان، فنی و مهندسی، علوم اجتماعی و انسانی سبب رشد علم در این زمینه ها شده است. نرم افزارهای sas ، r و matlab به دلیل قابلیت های برنامه نویسی ای که دارند، از...
متن کاملکاهش بعد تصاویر فراطیفی از طریق خوشه بندی فازی باندها
این مقاله یک روش نوین جهت انتخاب باند از تصاویر فراطیفی از طریق خوشه بندی باندها ارائه می دهد. نوآوری اصلی این تحقیق در دو موضوع قرار میگیرد: الف- ارائه یک فضای محاسباتی جدید با نام فضای پدیده که در آن باندها بر اساس انعکاس طیفی پدیده ها دارای بردار مشخصه میشودد. ب- ارائه معیار هایی نظیر عدم قطعیت و زاویه در فضای پدیده برای شناسایی باندهای با وابستگی بالا و باندهای حاوی اطلاعات. پس از آنکه فض...
متن کاملراهنمایی انتخاب نرم افزارهای نقشه برداری برای کاربران
در طول دهه اخیر در تنوع و تکمیل نرم افزارهای نقشه برداری پیشرفت زیادی حاصل گردیده و استفاده از این نرم افزارها به عنوان یک ابزار اساسی در اکثر مؤسسات نقشه برداری رایج گردیده است. هدف از این مقاله مروری بر گستره نرم افزارهای موجود در زمینه نقشه برداری برای کامپیوترهای شخصی و مشخص نمودن پارامترهای اساسی نظیر سخت افزار کامپیوتری مورد نیاز، سیستم عامل و مقایسه بهای لازم برای حداقل و حداکثر ساخ...
متن کاملنظام نرم افزارهای متن باز
نظام متن باز رویکردی استبرای حمایت از توسعه و گسترش آزاد نرمافزارها که در پایان دهه 1990 در واکنش به ایجاد انحصار در زمینه تولید نرمافزار در تقابل با نظام مالکیت فکری مطرح شد. انتقال آزاد کدمبدأ همراه با نرمافزار و امکان توزیع، اصلاح و بازتوزیع آزادانه نسخه اصلاح شده از اصول اساسی این رویکرد است. اصول دهگانه حاکم بر نظام متن باز در تقابل با اصول و قواعد حاکم بر نظام حقوق مالکیت فکری قرار دا...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه امام رضا علیه السلام - دانشکده مهندسی برق و کامپیوتر
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023