طراحی سامانه‏ای برای تشخیص اسناد مشابه به منظور استفاده در دسته‏بندی اسناد فارسی

پایان نامه
چکیده

با افزایش اسناد الکترونیکی و رشد سریع شبکه جهانی وب از یک ‏طرف و اهمیت در دسترس بودن اسناد از سویی دیگر، نیاز به دسته‏بندی اسناد وجود دارد. کار دسته‏بندی اسناد به منظور سازماندهی داده‏ها و دانش و همچنین توسعه تشخیص و تفکیک اسناد متنی صورت می‏گیرد. برای دسته‏بندی اسناد به گروه‏های مشخص شده باید از یک معیار سنجش شباهت یا فاصله بین اسناد استفاده شود. در این پایان‏نامه ابتدا تحقیق و مطالعه‏ای روی مراحل دسته‏بندی انجام شد. مهمترین مراحل مورد نیاز دسته‏بندی، جداسازی کلمه‏ها، محاسبه tf-idf، انتخاب اسناد اولیه دسته‏ها، انتخاب معیار ارزیابی شباهت بین اسناد و در نهایت دسته‏بندی است. سپس بر روی آزمایش و ارزیابی معیارهای ارزیابی شباهت یا فاصله مورد استفاده در کار دسته‏بندی اسناد تمرکز شد. پر کاربردترین معیارهای شباهت‏یاب در مسئله دسته‏بندی اسناد متنی، فاصله اقلیدسی، شباهت کسینوسی، ضریب جاکارد، ضریب همبستگی پیرسون و میانگین واگرایی کول‏بک-لیبلر هستند. در این پایان‏نامه برای انجام آزمایش‏ها از مجموعه آموزشی همشهری به عنوان پایگاه داده استفاده شده است. این مجموعه دارای 12 دسته است که تعداد اسناد موجود در هر دسته از 3758 تا 30924 سند متغیر است. برای ارزیابی دقت دسته‏بندی از معیارهای ارزیابی خلوص و آنتروپی استفاده می‏شود. در آزمایش‏های انجام شده به بررسی تأثیر تعداد اسناد و دسته‏ها در دقت دسته‏بندی پرداخته شد. پس از انجام این آزمایش‏ها مشخص شد که افزایش تعداد اسناد و دسته‏ها بر روی دقت دسته‏بندی به ترتیب تأثیر مثبت و منفی دارد. سپس آزمایش‏هایی برای ارزیابی و مقایسه معیارهای شباهت‏یاب صورت گرفت. در طی این آزمایش‏ها مشخص شد که معیارهای همبستگی پیرسون و واگرایی کول‏بک-لیبلر به ترتیب بهترین و بدترین معیار هستند. پس از مشخص شدن دو معیار شباهت‏یاب برتر همبستگی پیرسون و جاکارد، دو معیار جدید با ترکیب این دو معیار، با ضرایب مختلف ارائه شد اما باعث افزایش دقت دسته‏بندی نسبت به معیار همبستگی پیرسون نشدند. سپس دو معیار جدید دیگر هر کدام با تغییر معیارهای همبستگی پیرسون و جاکارد پیشنهاد شدند. دقت دسته‏بندی با استفاده از معیار تغییریافته جاکارد دارای کارآیی کافی نبود. اما دقت دسته‏بندی با استفاده از معیار تغییریافته پیرسون افزایش یافت.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

طراحی الگوی استفاده از تصویربرداری اسناد برای نگهداری مدارک پزشکی

زمینه و هدف: در یک دهه اخیر، نگهداری الکترونیکی مدارک پزشکی کاغذی بیماران با استفاده از شیوه تصویربرداری اسناد، به‌شدت مورد توجه بیمارستان‌های ایران قرارگرفته است. اما راهنما یا دستورالعمل مشخصی برای بیمارستان های کشور در خصوص استفاده از این روش وجود ندارد. لذا هدف از این مطالعه طراحی الگوی استفاده از تصویربرداری اسناد برای نگهداری مدارک پزشکی در بیمارستان‌ها ب...

متن کامل

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی...

متن کامل

بررسی سیاست‌های رقمی‌سازی اسناد آرشیوی: ارائۀ سیاهۀ پیشنهادی برای رقمی‌سازی اسناد در مراکز آرشیوی ایران

هدف: پژوهش حاضر، درصدد بررسی و مقایسۀ سیاست‌های رقمی‌سازی اسناد موجود در آرشیوهای ملی کشورهای مختلف انگلیسی‌زبان در صورت وجود و دسترسی(استرالیا، مالزی، آمریکا، کانادا، سوییس و انگلستان) و سایر راهنماهای موجود در این زمینه و شناسایی معیارها و مؤلفه‌های مشترک مهم در کلیۀ آرشیوها به‌منظور ارائۀ سیاهۀ پیشنهادی برای رقمی‌سازی اسناد در مراکز آرشیوی ایران است. روش پژوهش:...

متن کامل

نگاهی به اسناد سیور غال در دوره صفویه (بررسی اسناد سیورغال موجود در مرکز اسناد آستان قدس رضوی)

یکی از مهم‌ترین دوره‌های حکومتی در ایران،در عصر صفویه می‌باشد که به رغم اهمیت زمانی این دوره و وجود منابع غنی پژوهشی مانند نسخ خطی و سفرنامه‌ها متأسفانه در زمینهء اسناد-که مهم‌ترین منابع تاریخ پژوهی به‌ شمار می‌روند-فقیر و تهیدست می‌باشیم؛زیرا سندهای آن عصر غالبا از میان رفته و اکثر پژوهشهای موجود بر پایهء منابع تاریخی صورت گرفته است.در زمینه‌هائی همچون موضوعات اداری،مالی و اجتماعی-که‌ دچار ضعف...

متن کامل

امکان به‌کارگیری استاندارد مِتس در سامانه‌های اطلاعاتی آرشیوی باز برای اسناد رقمی فارسی

چکیده هدف: تشخیص قابلیت به‌کارگیری استاندارد مِتس در سامانه‌های اطلاعاتی آرشیوی باز برای اسناد رقمی فارسی از دیدگاه صاحب‌نظران. روش/ رویکرد پژوهش: 145 مولفۀ استاندارد متس که قابلیت به‌کارگیری برای اسناد رقمی فارسی را داشتند استخراج شد. پرسش‌نامه‌ای بر مبنای این مولفه‌ها طراحی و بین 30 تن از صاحب‌نظران حفاظت رقمی توزیع شد. روایی محتوا...

متن کامل

رویکردی با ناظر در استخراج واژگان کلیدی اسناد فارسی با استفاده از زنجیره‌های لغوی

Keywords are the main focal points of interest within a text, which intends to represent the principal concepts outlined in the document. Determining the keywords using traditional methods is a time consuming process and requires specialized knowledge of the subject. For the purposes of indexing the vast expanse of electronic documents, it is important to automate the keyword extraction task. S...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی غیر انتفاعی و غیر دولتی نبی اکرم - دانشکده فنی

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023