نام پژوهشگر: ابراهیم رزمی کندری

طراحی سامانه‏ای برای تشخیص اسناد مشابه به منظور استفاده در دسته‏بندی اسناد فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی غیر انتفاعی و غیر دولتی نبی اکرم - دانشکده فنی 1392
  ابراهیم رزمی کندری   محمدرضا فیضی درخشی

با افزایش اسناد الکترونیکی و رشد سریع شبکه جهانی وب از یک ‏طرف و اهمیت در دسترس بودن اسناد از سویی دیگر، نیاز به دسته‏بندی اسناد وجود دارد. کار دسته‏بندی اسناد به منظور سازماندهی داده‏ها و دانش و همچنین توسعه تشخیص و تفکیک اسناد متنی صورت می‏گیرد. برای دسته‏بندی اسناد به گروه‏های مشخص شده باید از یک معیار سنجش شباهت یا فاصله بین اسناد استفاده شود. در این پایان‏نامه ابتدا تحقیق و مطالعه‏ای روی مراحل دسته‏بندی انجام شد. مهمترین مراحل مورد نیاز دسته‏بندی، جداسازی کلمه‏ها، محاسبه tf-idf، انتخاب اسناد اولیه دسته‏ها، انتخاب معیار ارزیابی شباهت بین اسناد و در نهایت دسته‏بندی است. سپس بر روی آزمایش و ارزیابی معیارهای ارزیابی شباهت یا فاصله مورد استفاده در کار دسته‏بندی اسناد تمرکز شد. پر کاربردترین معیارهای شباهت‏یاب در مسئله دسته‏بندی اسناد متنی، فاصله اقلیدسی، شباهت کسینوسی، ضریب جاکارد، ضریب همبستگی پیرسون و میانگین واگرایی کول‏بک-لیبلر هستند. در این پایان‏نامه برای انجام آزمایش‏ها از مجموعه آموزشی همشهری به عنوان پایگاه داده استفاده شده است. این مجموعه دارای 12 دسته است که تعداد اسناد موجود در هر دسته از 3758 تا 30924 سند متغیر است. برای ارزیابی دقت دسته‏بندی از معیارهای ارزیابی خلوص و آنتروپی استفاده می‏شود. در آزمایش‏های انجام شده به بررسی تأثیر تعداد اسناد و دسته‏ها در دقت دسته‏بندی پرداخته شد. پس از انجام این آزمایش‏ها مشخص شد که افزایش تعداد اسناد و دسته‏ها بر روی دقت دسته‏بندی به ترتیب تأثیر مثبت و منفی دارد. سپس آزمایش‏هایی برای ارزیابی و مقایسه معیارهای شباهت‏یاب صورت گرفت. در طی این آزمایش‏ها مشخص شد که معیارهای همبستگی پیرسون و واگرایی کول‏بک-لیبلر به ترتیب بهترین و بدترین معیار هستند. پس از مشخص شدن دو معیار شباهت‏یاب برتر همبستگی پیرسون و جاکارد، دو معیار جدید با ترکیب این دو معیار، با ضرایب مختلف ارائه شد اما باعث افزایش دقت دسته‏بندی نسبت به معیار همبستگی پیرسون نشدند. سپس دو معیار جدید دیگر هر کدام با تغییر معیارهای همبستگی پیرسون و جاکارد پیشنهاد شدند. دقت دسته‏بندی با استفاده از معیار تغییریافته جاکارد دارای کارآیی کافی نبود. اما دقت دسته‏بندی با استفاده از معیار تغییریافته پیرسون افزایش یافت.