نام پژوهشگر: محمد سفیدگرنیاامیری

بازشناسی تصاویر کاراکترهای فارسی با استفاده از روش های بر مبنای dtw
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی (نوشیروانی) بابل - دانشکده برق و کامپیوتر 1392
  محمد سفیدگرنیاامیری   رضا قادری

بازشناسی الگوها یکی از زمینه های مهم پژوهشی در زمینه علوم کامپیوتراست. یکی از شاخه های این حوزه که مطالعات بسیاری در خصوص آن انجام گرفته و کماکان نیز انجام می گیرد، بازشناسی تصاویرکاراکترها خصوصا از نوع دست نویس است. در طی سالیان زبان هایی همچون انگلیسی، چینی و هندی شاید به واسطه جمعیت بزرگ تشکیل دهنده در توسعه الگوریتم های بازشناسی تصاویر کاراکترها در مقایسه با سایر زبان به میزان بسیار بیشتری مورد توجه قرار گرفته اند. مجموعه کاراکترهای زبان فارسی که می توان با توجه به قرار گیری کاراکتر های نوشتاری عربی در درون آن، محدوده شامل بیش از 20 کشور و جمعیتی 400 میلیون نفری برای آن در نظر گرفت، با توجه به اهمیتی که دارد کمتر مورد توجه بوده است. در این پژوهش، دو روش برای بازشناسی تصاویر دستنویس کاراکترهای عددی فارسی ارایه شده است. در روش پیشنهادی اول از تبدیل رادون جهت استخراج مشخصه و الگوریتم برنامه نویسی پویا و کلاسیفایر k نزدیکترین همسایگی و در روش پیشنهادی دوم از تبدیل رادون، الگوریتم زمان تابی پویا و کلاسیفایر k نزدیکترین همسایگی جهت محاسبه تابع هزینه شباهت و بازشناسی استفاده شده است. هدف از طرح این دو الگوریتم، با استفاده از قابلیت تبدیل رادون در ایجاد مشخصه هایی با حجم کوچک و فشردگی بالا در تلفیق با برنامه نویسی پویا و زمان تابی پویا به عنوان روش هایی با نیاز به سخت افزار نه چندان قدرتمند، بازشناسی سریع با کارایی مطلوب بوده است. پایگاه داده مورد استفاده در این پژوهش مجموعه کاراکترهای جدا از هم شامل حروف اسامی شهرها و کد های پستی ایران است. در مطالعات پیشین انجام شده بر روی این پایگاه داده در بخش اعداد، روش هایی همچون کدینگ فراکتال و شبکه های عصبی به راندمان 91/37 درصد و مشخصه های ساختاری و آماری به راندمان 94/44 درصد دست یافته اند. در بخش حروف فارسی نیز با استفاده از کدینگ فراکتال و شبکه های عصبی و تقسیم بندی حروف فارسی به 8 کلاس راندمان 87/26 حاصل شده است. در مطالعه پیش رو، روش پیشنهادی اول بر روی پایگاه داده کد های پستی دست نویس فارسی موفق به دستیابی به راندمان 94/1 درصد شده است. روش پیشنهادی دوم بر روی داده های اعداد دست نویس موفق به کسب راندمان 87/2 درصد و بر روی داده های حروف دست نویس، با تفکیک حروف فارسی به 16 کلاس تشکیل دهنده ساختار اصلی 87/3 درصد، کارایی داشته است. همان گونه که از نتایج استنباط می شود نتایج مطالعه در راستای اهداف مد نظر قابل قبول بوده اند.