طراحی سامانهای برای تشخیص اسناد مشابه به منظور استفاده در دستهبندی اسناد فارسی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی غیر انتفاعی و غیر دولتی نبی اکرم - دانشکده فنی
- نویسنده ابراهیم رزمی کندری
- استاد راهنما محمدرضا فیضی درخشی بهزاد مظفری تازه کند
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1392
چکیده
با افزایش اسناد الکترونیکی و رشد سریع شبکه جهانی وب از یک طرف و اهمیت در دسترس بودن اسناد از سویی دیگر، نیاز به دستهبندی اسناد وجود دارد. کار دستهبندی اسناد به منظور سازماندهی دادهها و دانش و همچنین توسعه تشخیص و تفکیک اسناد متنی صورت میگیرد. برای دستهبندی اسناد به گروههای مشخص شده باید از یک معیار سنجش شباهت یا فاصله بین اسناد استفاده شود. در این پایاننامه ابتدا تحقیق و مطالعهای روی مراحل دستهبندی انجام شد. مهمترین مراحل مورد نیاز دستهبندی، جداسازی کلمهها، محاسبه tf-idf، انتخاب اسناد اولیه دستهها، انتخاب معیار ارزیابی شباهت بین اسناد و در نهایت دستهبندی است. سپس بر روی آزمایش و ارزیابی معیارهای ارزیابی شباهت یا فاصله مورد استفاده در کار دستهبندی اسناد تمرکز شد. پر کاربردترین معیارهای شباهتیاب در مسئله دستهبندی اسناد متنی، فاصله اقلیدسی، شباهت کسینوسی، ضریب جاکارد، ضریب همبستگی پیرسون و میانگین واگرایی کولبک-لیبلر هستند. در این پایاننامه برای انجام آزمایشها از مجموعه آموزشی همشهری به عنوان پایگاه داده استفاده شده است. این مجموعه دارای 12 دسته است که تعداد اسناد موجود در هر دسته از 3758 تا 30924 سند متغیر است. برای ارزیابی دقت دستهبندی از معیارهای ارزیابی خلوص و آنتروپی استفاده میشود. در آزمایشهای انجام شده به بررسی تأثیر تعداد اسناد و دستهها در دقت دستهبندی پرداخته شد. پس از انجام این آزمایشها مشخص شد که افزایش تعداد اسناد و دستهها بر روی دقت دستهبندی به ترتیب تأثیر مثبت و منفی دارد. سپس آزمایشهایی برای ارزیابی و مقایسه معیارهای شباهتیاب صورت گرفت. در طی این آزمایشها مشخص شد که معیارهای همبستگی پیرسون و واگرایی کولبک-لیبلر به ترتیب بهترین و بدترین معیار هستند. پس از مشخص شدن دو معیار شباهتیاب برتر همبستگی پیرسون و جاکارد، دو معیار جدید با ترکیب این دو معیار، با ضرایب مختلف ارائه شد اما باعث افزایش دقت دستهبندی نسبت به معیار همبستگی پیرسون نشدند. سپس دو معیار جدید دیگر هر کدام با تغییر معیارهای همبستگی پیرسون و جاکارد پیشنهاد شدند. دقت دستهبندی با استفاده از معیار تغییریافته جاکارد دارای کارآیی کافی نبود. اما دقت دستهبندی با استفاده از معیار تغییریافته پیرسون افزایش یافت.
منابع مشابه
طراحی الگوی استفاده از تصویربرداری اسناد برای نگهداری مدارک پزشکی
زمینه و هدف: در یک دهه اخیر، نگهداری الکترونیکی مدارک پزشکی کاغذی بیماران با استفاده از شیوه تصویربرداری اسناد، بهشدت مورد توجه بیمارستانهای ایران قرارگرفته است. اما راهنما یا دستورالعمل مشخصی برای بیمارستان های کشور در خصوص استفاده از این روش وجود ندارد. لذا هدف از این مطالعه طراحی الگوی استفاده از تصویربرداری اسناد برای نگهداری مدارک پزشکی در بیمارستانها ب...
متن کاملطراحی و پیادهسازی یک سیستم بازیابی اسناد چاپی فارسی
هدف: معرفی، دستهبندی، و نقد پژوهشها دربارۀ سیستمهای بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روششناسی: شیوهای جدید با رویکرد جداسازی، طراحی و سپس پیادهسازی شده است. برای آموزش و آزمایش سیستم، پایگاه دادهای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این دادهها برای آموزش و نیمی...
متن کاملبررسی سیاستهای رقمیسازی اسناد آرشیوی: ارائۀ سیاهۀ پیشنهادی برای رقمیسازی اسناد در مراکز آرشیوی ایران
هدف: پژوهش حاضر، درصدد بررسی و مقایسۀ سیاستهای رقمیسازی اسناد موجود در آرشیوهای ملی کشورهای مختلف انگلیسیزبان در صورت وجود و دسترسی(استرالیا، مالزی، آمریکا، کانادا، سوییس و انگلستان) و سایر راهنماهای موجود در این زمینه و شناسایی معیارها و مؤلفههای مشترک مهم در کلیۀ آرشیوها بهمنظور ارائۀ سیاهۀ پیشنهادی برای رقمیسازی اسناد در مراکز آرشیوی ایران است. روش پژوهش:...
متن کاملنگاهی به اسناد سیور غال در دوره صفویه (بررسی اسناد سیورغال موجود در مرکز اسناد آستان قدس رضوی)
یکی از مهمترین دورههای حکومتی در ایران،در عصر صفویه میباشد که به رغم اهمیت زمانی این دوره و وجود منابع غنی پژوهشی مانند نسخ خطی و سفرنامهها متأسفانه در زمینهء اسناد-که مهمترین منابع تاریخ پژوهی به شمار میروند-فقیر و تهیدست میباشیم؛زیرا سندهای آن عصر غالبا از میان رفته و اکثر پژوهشهای موجود بر پایهء منابع تاریخی صورت گرفته است.در زمینههائی همچون موضوعات اداری،مالی و اجتماعی-که دچار ضعف...
متن کاملامکان بهکارگیری استاندارد مِتس در سامانههای اطلاعاتی آرشیوی باز برای اسناد رقمی فارسی
چکیده هدف: تشخیص قابلیت بهکارگیری استاندارد مِتس در سامانههای اطلاعاتی آرشیوی باز برای اسناد رقمی فارسی از دیدگاه صاحبنظران. روش/ رویکرد پژوهش: 145 مولفۀ استاندارد متس که قابلیت بهکارگیری برای اسناد رقمی فارسی را داشتند استخراج شد. پرسشنامهای بر مبنای این مولفهها طراحی و بین 30 تن از صاحبنظران حفاظت رقمی توزیع شد. روایی محتوا...
متن کاملرویکردی با ناظر در استخراج واژگان کلیدی اسناد فارسی با استفاده از زنجیرههای لغوی
Keywords are the main focal points of interest within a text, which intends to represent the principal concepts outlined in the document. Determining the keywords using traditional methods is a time consuming process and requires specialized knowledge of the subject. For the purposes of indexing the vast expanse of electronic documents, it is important to automate the keyword extraction task. S...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی غیر انتفاعی و غیر دولتی نبی اکرم - دانشکده فنی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023