یک روش جدید برای مکان یابی کلمات در متون تاریخی دست نویس فارسی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده مهندسی برق و کامپیوتر
- نویسنده محمد علی آبادی
- استاد راهنما جواد صدری سیدمحمد رضوی
- سال انتشار 1391
چکیده
بازشناسی متون دستنویس یکی از مسائل مهم در حوزه ی بازشناسی الگوست که اگرچه در چند دهه ی اخیر، تحقیقات وسیعی روی آن صورت گرفته اما هنوز از برخی جهات به عنوان یک مسئله ی باز مطرح است. یکی از زمینه هایی که در بازشناسی متون دستنویس فارسی خیلی کم به آن پرداخته شده و جای پژوهش بسیار دارد، مکان یابی کلمات (word spotting) ، در متون تاریخی دست نویس است. اهمیت موضوع زمانی بهتر مشخص می شود که بدانیم در کشور عزیز ما ایران، گنجینه های بسیار گران بهایی از کتب، متون و اسناد بسیار مهم تاریخی و مذهبی دست نویس وجود دارد و در کتابخانه های بزرگ به صورت آرشیو در مکانهای مخصوص نگه داری و محافظت می شود و تنها تصاویر اسکن شده آن به صورتcd یا dvd در اختیار محققان و پژوهشگران علوم انسانی- مذهبی- تاریخی- پزشکی و... قرار می گیرد. متأسفانه اکثر این متون، فاقد هرگونه واژه نامه و فهرست(index) می باشند، بنابراین پیداکردن اصطلاحات و کلمات کلیدی در این کتب به سختی و با جستجوی چشمی تمام صفحات کتاب صورت می گیرد که کاری بسیار طاقت فرسا ، وقت گیر و غیر دقیق است. هدف این پایان نامه، ارائه ی یک روش برای مکان یابی کلمات در متون تاریخی دست نویس فارسی است. در این روش ابتدا عملیات پیش پردازش برروی تصاویر اسکن شده ی متن تاریخی صورت می پذیرد و سپس از تصاویر پیش پردازش شده ، خطوط کتاب و به دنبال آن زیرکلمات هر خط جداسازی می گردد. در ادامه، از تصویر هر زیرکلمه دو دسته ویژگی مبتنی بر ستونهای تصویر و مبتنی بر ناحیه بندی تصویر استخراج می شود. معیار شباهت تصاویر زیرکلمات، ترکیبی از میزان شباهت های هریک از این دو نوع ویژگی تصاویر است که به طور جداگانه محاسبه شده اند. شباهت ویژگی های نوع اول مبتنی بر تطبیق انحراف زمانی پویا (dynamic time warping) محاسبه می شود و شباهت ویژگی دوم مبتنی بر محاسبه ی فاصله اقلیدسی بین بردار چگالی نواحی دو تصویر است. در مرحله ی بعد، زیرکلمات استخراج شده، توسط یک الگوریتم خوشه بندی در کلاسهای هم ارز طبقه بندی می شوند. درآخر هم باید یک ناظر، کلاس های ایجادشده را برچسب بزند. این فرایند، اگرچه بسیار وقت گیر است اما برای هر کتاب، تنها کافیست یکبار اجرا شود تا اطلاعات خوشه ها ذخیره گردد. بعداز انجام این کار، هرگاه یک کاربر نهایی کلمه ای را جستجو کند، سیستم آن را به زیرکلمات می شکند و براساس اطلاعات ذخیره شده ی زیرکلمات، مکان های وقوع احتمالی آن کلمه را در کتاب عرضه خواهد داشت. این فرایند، برروی یک کتاب تاریخی دست نویس فارسی که در کتابخانه ی مرکزی دانشگاه بیرجند نگه داری می شود، مورد آزمایش قرار گرفت. نتایج مراحل تطبیق و خوشه بندی، خوب و قابل قبول بود اما مشکل اصلی در مرحله ی جداسازیست؛ زیرا اولا در تعداد زیادی از خطوط کتاب، زیرکلمات به هم چسبیده اند و ثانیا در بسیاری از موارد نیز، زیرکلمات برروی هم قرار گرفته اند که کار اختصاص نقاط و سرکش ها را باخطای زیاد مواجه می نماید.
منابع مشابه
جداسازی خطوط در متون دست نویس فارسی
هدف این رساله، تقسیم بندی یک سند دستنویس به خطوط مجزا از یکدیگر است. جداسازی و استخراج خط، اولین و مهمترین مرحله پیش پردازش برای آنالیز و بازیابی تصویر یک سند است. هنگامی که یک خط جداسازی شد، (خط ایزوله شده) برای مراحل جداسازی کلمه، شناسایی آن، بازیابی زیرکلمات و حروف و سایر مراحلی که برای آنالیز یک سند مورد نیاز است، تحت بررسی قرار میگیرد. بنابراین استخراج صحیح خطوط، بمنظور درست انجام شدن سایر...
15 صفحه اولبنیان دهستان و مکان یابی آن براساس متون تاریخی
بعضی از مناطق در طول تاریخ همواره به دلیل قرار گرفتن در یک محیط جغرافیایی خاص یا به دلیل مجاورت در کنار شهرهای بزرگ و یا عوامل طبیعی و غیرطبیعی اهمیت خود را ازدستداده و بهتدریج فراموششدهاند، بهطوریکه فقط نامی از آنها در منابع کهن باقیمانده است. حتی امروزه نیز بعضی از شهرها یا مناطق جغرافیایی هستند که هنوز موقعیت جغرافیایی و جایگاه آنان مشخص نشده که ازجمله آن میتوان به دهستان اشاره کرد....
متن کاملارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...
متن کاملبازشناسی کلمات دست نویس فارسی بر اساس جداسازی بخش ها
در این تحقیق یک سیستم بازشناسی کلمات فارسی معرفی می شود که از خودهمبستگی محلی مرتبه بالای تصویر قطبی-لگاریتمی برای استخراج ویژگی از زیر- کلمات فارسی استفاده می کند. این شیوه ی استخراج ویژگی باعث می شود سیستم در مقابل تغییرات نگارشی مانند تغییر مقیاس های خطی و چرخش مقاوم شود. از مراحل مهم در یک سیتم بازشناسی کلمات، مرحله استخراج ویژگی می باشد. با توجه به این که کلمات دست نوشته دارای تغییرات نگار...
15 صفحه اولمکان یابی در زبان فارسی
امکانات و روشهای مکانیابی یکی از مهمترین مباحث مطرح در حوزۀ زبانشناسی شناختی است. زبان با استفاده از منابع و امکاناتی عینی مانند اعضای بدن، اشیاء و موارد موجود در طبیعت و فرایندها به مفهومسازی جهتهای مکانی میپردازد. هر زبان با توجه به مسائل تاریخی و فرهنگی خود، از برخی یا همۀ امکانات فوق استفاده میکند. با توجه به این ملاحظات، هدف این مقاله شناسایی امکانات و منابع مکانیابی در زبان فارسی...
متن کاملارائۀ سامانۀ پشتیبان تصمیمِ مکان یابی برای کسب وکارهای جدید؛ موردکاوی مکان یابی واحد اسباب بازی
مقولۀ مکانیابی واحدهای کسبوکار، از مهمترین عوامل مؤثر در کسبوکار موفق و از مزیتهای رقابتیِ واحدهای صنعتی است؛ بنابراین همواره در کانون توجه کارآفرینان قرار دارد. در این راستا مدلهای ریاضی گوناگونی توسعه یافتهاند. این مقاله درصدد توسعۀ نوعی سامانۀ پشتیبان تصمیمِ مکانیابی بر مبنای مدل ریاضی شبهخطی است. در نگرشی جامع به این مقاله، سه سر فصل کلی مشاهده میشود. بخش اول به پیشزمینهای از مفاه...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده مهندسی برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023