نام پژوهشگر: ملیکه خدامی
ملیکه خدامی علیرضا بهراد
امروزه حجم زیادی از اسناد کاغذی موجود، توسط جاروب گر ها یا دوربین ها به اسناد تصویری دیجیتالی تبدیل می شوند. ذخیره سازی، بازیابی و مدیریت کارآمد این شیوه های تصویری، در بسیاری از برنامه ها نظیر اتوماسیون اداری و کتابخانه های دیجیتالی اهمیت فراوانی دارند. برای تبدیل اسناد تصویری به اسناد متنی از سیستم های تشخیص اپتیکی حروف، ocr، استفاده می شود. سیستم های ocr تابع زبان متن بوده و با توجه به زبان از الگوریتم های متفاوتی استفاده می شود. در سال های اخیر، با توجه به گسترش سیستم های ocr چند زبانه نیاز به ابزارهایی که قادر به تشخیص، بررسی و بازیابی منابع گفتاری و نوشتاری چند زبانه باشند، شدیداً افزایش پیدا کرده است. اما در اسناد چند زبانه اولین مرحله قبل از بازشناسی حروف، تشخیص نوع یا زبان متن است. الگوریتم های مختلفی برای تشخیص نوع یا زبان متن ارائه شده است. در این پروژه ضمن مرور انواع روش های شناسایی نوع زبان متن و بررسی تحقیقات صورت گرفته در این زمینه، دو روش جدید برای شناسایی نوع متون فارسی و لاتین در اسناد چاپی دو زبانه پیشنهاد شده است. با توجه به تفاوت های موجود بین رسم الخط، در دو زبان فارسی و لاتین از جمله پیوستگی حروف در کلمات فارسی در مقابل گسستگی آن در لاتین و استفاده فراوان از خطوط منحنی در فارسی در مقابل خطوط شکسته و مورب در لاتین، به نظر می رسد استفاده از ویژگی انحناء در تمایز بین متونی از این دو زبان موثر واقع شود. بر این اساس در اولین روش پیشنهادی به بررسی ویژگی انحنا در دو رسم الخط فارسی و لاتین پرداخته ایم. نتایج به دست آمده از تفاوت انحناء در این دو دست خط حکایت می کند. در روش پیشنهادی دوم با بهره بردن از خواص دیگر انحناء و نیز برخی ویژگی های شکلی و ساختاری دیگر سعی کرده ایم روش پیشنهادی قبل را تکمیل و عیوب و نواقص آن را برطرف نماییم. در هر دو روش پیشنهادی ابتدا شناسایی را در سطحِ اجزاء متصل انجام داده و سپس نشان داده ایم که با استفاده از شناسایی در این سطح می توان آن را به سطوح بالاتر نیز تعمیم داد، که البته در هر دو روش، بیشتر شناسایی در سطح کلمه مد نظر قرار داشته است. نتایج تجربی و مقایسه الگوریتم های پیشنهادی با سایر روش ها نشان دهنده نتایج مناسب روش های پیشنهادی می باشد.