نام پژوهشگر: ابراهیم رزمی کندری
ابراهیم رزمی کندری محمدرضا فیضی درخشی
با افزایش اسناد الکترونیکی و رشد سریع شبکه جهانی وب از یک طرف و اهمیت در دسترس بودن اسناد از سویی دیگر، نیاز به دستهبندی اسناد وجود دارد. کار دستهبندی اسناد به منظور سازماندهی دادهها و دانش و همچنین توسعه تشخیص و تفکیک اسناد متنی صورت میگیرد. برای دستهبندی اسناد به گروههای مشخص شده باید از یک معیار سنجش شباهت یا فاصله بین اسناد استفاده شود. در این پایاننامه ابتدا تحقیق و مطالعهای روی مراحل دستهبندی انجام شد. مهمترین مراحل مورد نیاز دستهبندی، جداسازی کلمهها، محاسبه tf-idf، انتخاب اسناد اولیه دستهها، انتخاب معیار ارزیابی شباهت بین اسناد و در نهایت دستهبندی است. سپس بر روی آزمایش و ارزیابی معیارهای ارزیابی شباهت یا فاصله مورد استفاده در کار دستهبندی اسناد تمرکز شد. پر کاربردترین معیارهای شباهتیاب در مسئله دستهبندی اسناد متنی، فاصله اقلیدسی، شباهت کسینوسی، ضریب جاکارد، ضریب همبستگی پیرسون و میانگین واگرایی کولبک-لیبلر هستند. در این پایاننامه برای انجام آزمایشها از مجموعه آموزشی همشهری به عنوان پایگاه داده استفاده شده است. این مجموعه دارای 12 دسته است که تعداد اسناد موجود در هر دسته از 3758 تا 30924 سند متغیر است. برای ارزیابی دقت دستهبندی از معیارهای ارزیابی خلوص و آنتروپی استفاده میشود. در آزمایشهای انجام شده به بررسی تأثیر تعداد اسناد و دستهها در دقت دستهبندی پرداخته شد. پس از انجام این آزمایشها مشخص شد که افزایش تعداد اسناد و دستهها بر روی دقت دستهبندی به ترتیب تأثیر مثبت و منفی دارد. سپس آزمایشهایی برای ارزیابی و مقایسه معیارهای شباهتیاب صورت گرفت. در طی این آزمایشها مشخص شد که معیارهای همبستگی پیرسون و واگرایی کولبک-لیبلر به ترتیب بهترین و بدترین معیار هستند. پس از مشخص شدن دو معیار شباهتیاب برتر همبستگی پیرسون و جاکارد، دو معیار جدید با ترکیب این دو معیار، با ضرایب مختلف ارائه شد اما باعث افزایش دقت دستهبندی نسبت به معیار همبستگی پیرسون نشدند. سپس دو معیار جدید دیگر هر کدام با تغییر معیارهای همبستگی پیرسون و جاکارد پیشنهاد شدند. دقت دستهبندی با استفاده از معیار تغییریافته جاکارد دارای کارآیی کافی نبود. اما دقت دستهبندی با استفاده از معیار تغییریافته پیرسون افزایش یافت.