نام پژوهشگر: مجتبی شفقی
مجتبی شفقی
ایده تشخیص حروف که در سالهای قبل از 1960 میلادی مطرح شد، هنوز به عنوان موضوع مهمی مورد توجه بوده و کارهای تحقیقاتی زیادی در این زمینه در دست اجرا است، اما بیشتر کارهای انجام شده در این زمینه، مربوط به زبان لاتین است. مهمترین کاربرد تشخیص حروف وارد کردن اطلاعات به کامپیوتر است، اما کاربرد تشخیص حروف منحصر به وارد کردن متن به کامپیوتر نمی باشد. یکی از کاربردهای عمده تشخیص حروف در اداره پست برای تفکیک اتوماتیک نامه ها است. همچنین با استفاده از سیستم تشخیص حروف در سیستم های بانکی می توان عملیات مربوط به چک و دیگر اسناد را سریعتر انجام داد. یکی از کاربردهای دیگر تشخیص حروف، کمک به افراد نابینا در خواندن کتاب است. در زبان عربی نوع نگارش و خط مورد استفاده با زبان های لاتین تفاوت بسیاری دارد. در خط عربی وجود علایم و اعراب گذاری ها باعث پیچیدگی این خط می شود. تحقیق جاری بر روی نگارش ثلث است که یکی از نگارش های اصلی در زبان عربی است. از آنجایی که در این تحقیق خط عربی بطور پیوسته نویسی پشتیبانی می شود، در کار پیش رو مشکلات زبان های پیوسته مانند اشتراک فضای مستطیل محیطی حروف یا عدم وجود خط عمودی جدا کننده دو حرف در بین تمامی حروف یک کلمه، مشکل جدا سازی حروف یک کلمه و یکسان نبودن اندازه حروف مطرح است. در خط عربی هر حرف می تواند در چند شکل مختلف ظاهر شود که خود باعث پیچیدگی بیشتر شناسایی در این خط می شود. از دیگر مشکلات مطرح در بحث شناسایی حروف مشکل چرخش صفحه است که متن می تواند در صفحه بصورت نادرست قرار گرفته باشد. در روش های بررسی شده برای شناسایی حروف چاپی عربی تاکنون به دقت حدود 96 درصد برای شناسایی متن در مورد متون بدون نویز رسیده اند که هنگامی که متن دارای نویز باشد این مقدار به شدت کاهش می یابد. در این تحقیق هدف و مطلوب رسیدن به دقت بالاتر از 96 درصد در مورد متون بدون نویز و دقت بالای 92 درصد در مورد متون دارای نویز است تا با ارایه روش جدیدی دقت شناسایی نیز افزایش یابد. در تحقیقات موجود چرخش قابل اصلاح متن در صفحه به میزان حداکثر 10 درجه بوده است، زیرا برای مقادیر بالاتر از 10 درجه، هنگام ایجاد هیستوگرام عمودی، خطوط متن ترکیب می شوند و جداپذیری از بین می رود. در این تحقیق با ترکیب روش هیستوگرام عمودی با روش های دیگر سعی شده است که چرخش های بالاتر بدون محدودیت اصلاح شود. این چرخش می تواند اکنون در محدوده 89 درجه تا منفی 89 درجه باشد. این محدودیت به علت شباهت خطوط واقعی و خطوط چرخش داده شده با زاویه 180 درجه است. روشهای مورد نظر برای حل این مسیله شبکه عصبی و مدل مارکف برای شناسایی حروف است که در پنجره متحرک استفاده شده است. پنجره متحرک فضایی با اندازه متغییر و قابلیت تغییر مکان و شکل مستطیلی است که با هدف شناسایی یک حرف بر روی متن حرکت داده می شود. به این صورت که در ابتدا تصویر از لحاظ چرخش متن اصلاح می شود، پس از آن خطوط و کلمات از هم جدا می شود. سپس مرز بین حروف و زمینه تصویر پیدا می شود و متن از زمینه جدا می شود. آنگاه یک پنجره متحرک بر روی تصویر خط جدا شده یا کلمات جدا شده حرکت می کند. سپس محتوای پنجره در هر مرحله به کمک شبکه عصبی و مدل مخفی مارکف پردازش می شوند. سپس حرف دارای بالاترین اطمینان به عنوان خروجی به قسمت های بعدی فرستاده می شود. در این تحقیق فرض شده است که متن ورودی با دقت 300 نقطه در اینچ رقمی شده است و تصویر می تواند بصورت رنگی یا سیاه سفید باشد. اندازه فونت متن ورودی بین 12 تا 24 فرض شده است و فونت متن ورودی نیز خط ثلث فرض شده است. در قسمت پیش پردازش برای اصلاح چرخش متن در صفحه، بطور میانگین دقت 96 درصد حاصل شده است و در قسمت شناسایی حروف با ترکیب این دو سیستم، دقت 95 درصد بدست آمده است.