نام پژوهشگر: نسرین ملکوتی
نسرین ملکوتی علی حمزه
در سال های اخیر با افزایش حجم اطلاعات و داده های متنی، مشکلات جدیدی برای کسانی که حوزه فعالیتشان در زمینه کار با داده بود به وجود آمد. بنابراین تحقیقات بسیاری در زمینه مدل کردن اطلاعات و استخراج اطلاعات مفید از آن ها به عمل آمد. کاربران نیازمند ابزارهایی بودند تا با استفاده از آن ها به راحتی بتوانند اطلاعات مفید را از داده های موجود استخراج و استفاده کنند. بدین منظور مباحث بسیاری در زمینه متن کاوی و بررسی شباهت بین متون مطرح شد. برای مثال روش فضای برداری به طور گسترده ای در باب موضوع شباهت سنجی بین اسناد متنی سخن به عمل آورده است و مدل های مختلفی از معیار شباهت سنجی را معرفی کرده است. با این وجود در بسیاری مدل های شباهت سنجی به وجود کلمات مشترک بین اسناد متنی توجه کمتری شده است و این در حالی است که وجود کلمات مشترک بین اسناد، باعث ایجاد ابهام در روند شباهت سنجی اسناد شده و کاربران را از هدف اصلی منحرف می کنند. در این پایان نامه سعی شده است یک روش برای بررسی میزان شباهت دو سند ارائه شود که با در نظر گرفتن تأثیر کلمات مشترک در بین اسناد و حذف هم پوشانی موجود بین اسناد متنی تخمین واقعی تر از میزان شباهت اسناد را به دست آورد و از این میزان شباهت برای خوشه بندی سندهای متنی استفاده شده است. این مدل شامل یک قسمت انتخاب ویژگی است که کلمات کلیدی واقع در متن را استخراج کرده، سپس با استفاده از تجزیه کننده های متنی درخت های تجزیه مربوط به سند های متنی را به دست آورده و با کمک وزن کلمات کلیدی بدست آمده از مرحله قبل، میزان شباهت بین درختان را تخمین می زند. برای بررسی میزان شباهت بین درختان از الگوریتم بدست آوردن تعداد زیر درختان مشابه در متن استفاده شده است. سندهای متنی به دلیل شامل بودن تعداد زیادی کلمات مشترک دارای هم پوشانی بسیاری هستند. وجود کلمات مشترک بین سندهای متنی ، از جمله مشکلات بررّسی دقیق میزان شباهت متن ها است که در صورتی که سیستم شباهت سنجی انتخاب ویژگی صحیحی از این متون به عمل آورد، قادر خواهد بود تا حدی، بر مشکل وجود هم پوشانی فائق آید. علاوه بر این کار کردن با متن و بدست آوردن میزان شباهت کاری زمان بر است، بنابراین استخراج مفهوم اصلی که از متن برداشت می شود از درجه اهمیت بسیاری برخوردار است.در این پایان نامه با ارائه روشی جدید برای استخراج کلمات کلیدی و با اهمیت در متن میزان شباهت بین سندهای متنی محاسبه می شود. در انتها با استفاده از الگوریتم های خوشه بندی از جمله الگوریتم خوشه بندی سلسله مراتبی و k خوشه بندی نزدیک ترین همسایه (knn)گروه بندی سندهای متنی انجام شده است. نتایج آزمایشگاهی و نمودارهای مقایسه ای به صورت واضح نشان می دهند که روش پیشنهاد شده از عملکرد بالاتری نسبت به روش های ارائه شده مشابه دارد.