یک روش جدید برای مکان یابی کلمات در متون تاریخی دست نویس فارسی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده مهندسی برق و کامپیوتر
نویسنده محمد علی آبادی
استاد راهنما جواد صدری سیدمحمد رضوی
سال انتشار 1391

چکیده

بازشناسی متون دستنویس یکی از مسائل مهم در حوزه ی بازشناسی الگوست که اگرچه در چند دهه ی اخیر، تحقیقات وسیعی روی آن صورت گرفته اما هنوز از برخی جهات به عنوان یک مسئله ی باز مطرح است. یکی از زمینه هایی که در بازشناسی متون دستنویس فارسی خیلی کم به آن پرداخته شده و جای پژوهش بسیار دارد، مکان یابی کلمات (word spotting) ، در متون تاریخی دست نویس است. اهمیت موضوع زمانی بهتر مشخص می شود که بدانیم در کشور عزیز ما ایران، گنجینه های بسیار گران بهایی از کتب، متون و اسناد بسیار مهم تاریخی و مذهبی دست نویس وجود دارد و در کتابخانه های بزرگ به صورت آرشیو در مکانهای مخصوص نگه داری و محافظت می شود و تنها تصاویر اسکن شده آن به صورتcd یا dvd در اختیار محققان و پژوهشگران علوم انسانی- مذهبی- تاریخی- پزشکی و... قرار می گیرد. متأسفانه اکثر این متون، فاقد هرگونه واژه نامه و فهرست(index) می باشند، بنابراین پیداکردن اصطلاحات و کلمات کلیدی در این کتب به سختی و با جستجوی چشمی تمام صفحات کتاب صورت می گیرد که کاری بسیار طاقت فرسا ، وقت گیر و غیر دقیق است. هدف این پایان نامه، ارائه ی یک روش برای مکان یابی کلمات در متون تاریخی دست نویس فارسی است. در این روش ابتدا عملیات پیش پردازش برروی تصاویر اسکن شده ی متن تاریخی صورت می پذیرد و سپس از تصاویر پیش پردازش شده ، خطوط کتاب و به دنبال آن زیرکلمات هر خط جداسازی می گردد. در ادامه، از تصویر هر زیرکلمه دو دسته ویژگی مبتنی بر ستونهای تصویر و مبتنی بر ناحیه بندی تصویر استخراج می شود. معیار شباهت تصاویر زیرکلمات، ترکیبی از میزان شباهت های هریک از این دو نوع ویژگی تصاویر است که به طور جداگانه محاسبه شده اند. شباهت ویژگی های نوع اول مبتنی بر تطبیق انحراف زمانی پویا (dynamic time warping) محاسبه می شود و شباهت ویژگی دوم مبتنی بر محاسبه ی فاصله اقلیدسی بین بردار چگالی نواحی دو تصویر است. در مرحله ی بعد، زیرکلمات استخراج شده، توسط یک الگوریتم خوشه بندی در کلاسهای هم ارز طبقه بندی می شوند. درآخر هم باید یک ناظر، کلاس های ایجادشده را برچسب بزند. این فرایند، اگرچه بسیار وقت گیر است اما برای هر کتاب، تنها کافیست یکبار اجرا شود تا اطلاعات خوشه ها ذخیره گردد. بعداز انجام این کار، هرگاه یک کاربر نهایی کلمه ای را جستجو کند، سیستم آن را به زیرکلمات می شکند و براساس اطلاعات ذخیره شده ی زیرکلمات، مکان های وقوع احتمالی آن کلمه را در کتاب عرضه خواهد داشت. این فرایند، برروی یک کتاب تاریخی دست نویس فارسی که در کتابخانه ی مرکزی دانشگاه بیرجند نگه داری می شود، مورد آزمایش قرار گرفت. نتایج مراحل تطبیق و خوشه بندی، خوب و قابل قبول بود اما مشکل اصلی در مرحله ی جداسازیست؛ زیرا اولا در تعداد زیادی از خطوط کتاب، زیرکلمات به هم چسبیده اند و ثانیا در بسیاری از موارد نیز، زیرکلمات برروی هم قرار گرفته اند که کار اختصاص نقاط و سرکش ها را باخطای زیاد مواجه می نماید.

منابع مشابه

جداسازی خطوط در متون دست نویس فارسی

هدف این رساله، تقسیم بندی یک سند دستنویس به خطوط مجزا از یکدیگر است. جداسازی و استخراج خط، اولین و مهمترین مرحله پیش پردازش برای آنالیز و بازیابی تصویر یک سند است. هنگامی که یک خط جداسازی شد، (خط ایزوله شده) برای مراحل جداسازی کلمه، شناسایی آن، بازیابی زیرکلمات و حروف و سایر مراحلی که برای آنالیز یک سند مورد نیاز است، تحت بررسی قرار میگیرد. بنابراین استخراج صحیح خطوط، بمنظور درست انجام شدن سایر...

15 صفحه اول

بنیان دهستان و مکان یابی آن براساس متون تاریخی

بعضی از مناطق در طول تاریخ همواره به دلیل قرار گرفتن در یک محیط جغرافیایی خاص یا به دلیل مجاورت در کنار شهرهای بزرگ و یا عوامل طبیعی و غیرطبیعی اهمیت خود را ازدست‌داده و به‌تدریج فراموش‌شده‌اند، به‌طوری‌که فقط نامی از آن‌ها در منابع کهن باقی‌مانده است. حتی امروزه نیز بعضی از شهرها یا مناطق جغرافیایی هستند که هنوز موقعیت جغرافیایی و جایگاه آنان مشخص نشده که ازجمله آن می‌توان به دهستان اشاره کرد....

متن کامل

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

بازشناسی کلمات دست نویس فارسی بر اساس جداسازی بخش ها

در این تحقیق یک سیستم بازشناسی کلمات فارسی معرفی می شود که از خودهمبستگی محلی مرتبه بالای تصویر قطبی-لگاریتمی برای استخراج ویژگی از زیر- کلمات فارسی استفاده می کند. این شیوه ی استخراج ویژگی باعث می شود سیستم در مقابل تغییرات نگارشی مانند تغییر مقیاس های خطی و چرخش مقاوم شود. از مراحل مهم در یک سیتم بازشناسی کلمات، مرحله استخراج ویژگی می باشد. با توجه به این که کلمات دست نوشته دارای تغییرات نگار...

15 صفحه اول

مکان یابی در زبان فارسی

امکانات و روش‌های مکان‌یابی یکی از مهم‌ترین مباحث مطرح در حوزۀ زبان‌شناسی شناختی است. زبان با استفاده از منابع و امکاناتی عینی مانند اعضای بدن، اشیاء و موارد موجود در طبیعت و فرایندها به مفهوم‌سازی جهت‌های مکانی می‌پردازد. هر زبان با توجه به مسائل تاریخی و فرهنگی خود، از برخی یا همۀ امکانات فوق استفاده می‌کند. با توجه به این ملاحظات، هدف این مقاله شناسایی امکانات و منابع مکان‌یابی در زبان فارسی...

متن کامل

ارائۀ سامانۀ پشتیبان تصمیمِ مکان یابی برای کسب وکارهای جدید؛ موردکاوی مکان یابی واحد اسباب بازی

مقولۀ مکانیابی واحدهای کسب‎وکار، از مهم‎ترین عوامل مؤثر در کسب‎وکار موفق و از مزیتهای رقابتیِ واحدهای صنعتی است؛ بنابراین همواره در کانون توجه کارآفرینان قرار دارد. در این راستا مدل‎های ریاضی گوناگونی توسعه یافته‎اند. این مقاله درصدد توسعۀ نوعی سامانۀ پشتیبان تصمیمِ مکانیابی بر مبنای مدل ریاضی شبه‎خطی است. در نگرشی جامع به این مقاله، سه سر فصل کلی مشاهده می‎شود. بخش اول به پیشزمینه‎ای از مفاه...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده مهندسی برق و کامپیوتر

کلمات کلیدی

مکان یابی کلمات متون دست نویس فارسی متون تاریخی جداسازی زیرکلمات

میزبانی شده توسط پلتفرم ابری doprax.com