نرجس رمضانی اومالی

نام پژوهشگر: نرجس رمضانی اومالی

دسته بندی اسناد وب با استفاده از گراف نمایه سازی اسناد

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات 1392
نرجس رمضانی اومالی مرتضی زاهدی

با رشد روزافزون اطلاعات در وب، اغلب پروژه های تحقیقاتی در این حوزه با هدف سازماندهی اطلاعات شکل می گیرند، به گونه¬ای که کاربر نهایی بتواند راحت¬تر و با سرعت بیشتر به اطلاعاتی با دقت بالا و کارایی بهینه دست¬یابد. دسته¬بندی اسناد ابزاری مهم در بسیاری از امور مربوط به بازیابی اطلاعات است. اغلب تکنیک¬های خوشه-بندی اسناد مانند مدل فضای برداری برپایه¬ی تحلیل کلمات منفرد، در مجموعه¬ داده موجود در سند هستند. کلمات منفرد به تنهایی فاقد اطلاعات کافی بوده و باعث بروز خطا در دسته¬بندی می¬شود. جهت دستیابی به خوشه¬بندی دقیق¬تر استفاده از ویژگی¬هایی حاوی اطلاعات بیشتر مانند عبارات و وزن آن عبارات در اسناد می¬تواند بسیار مفید باشد. روش¬های دیگری چون درخت پسوندی اگرچه از عبارات جهت دسته¬بندی استفاده می¬کنند ولی با افزایش تعداد اسناد به دلیل افزونگی بالا فاقد کارایی لازم هستند. در این میان مدل جدید نمایه¬سازی سند براساس عبارت با عنوان document index graph یک روش دسته¬بندی مبتنی بر گراف است که در سال 2004 مطرح شده است. این مدل به دلیل استفاده از عبارات نسبت به مدل¬های مبتنی بر کلمات منفرد بسیار کاراتر است. در این روش به صورت موثر انطباق عبارات جهت بررسی شباهت بین اسناد انجام می¬شود. این مدل به دلیل استفاده از ساختار گراف فاقد افزونگی بوده و در دسته¬بندی از هر تعداد سند پشتیبانی می¬کند. همچنین به دلیل ساختار افزایشی الگوریتم دسته¬بندی، قابلیت به¬کارگیری به صورت آنلاین در وب را نیز دارد. استفاده از این مدل، نتایج دسته¬بندی اسناد وب را در مقایسه با روش¬های سنتی تاحد چشم¬گیری بهبود می¬بخشد. این پایان¬نامه به بررسی روش¬های مختلف دسته¬بندی اسناد و نقاط قوت و ضعف هرکدام پرداخته و با تمرکز بر روش دسته¬بندی مبتنی بر گراف به بررسی این روش و مزایای آن نسبت به روش¬های قبلی می¬پردازد، در ادامه با توجه به این¬که این سیستم قابلیت استفاده در موتور جستجو را جهت دسته¬بندی اسناد بازیابی شده دارد، با نگاهی دیگر از زاویه موتور جستجو به بررسی عملکرد این سیستم پرداخته و سعی در بهبود کارایی این سیستم در قالب موتور جستجو داریم. اسناد بازیابی شده توسط موتور جستجو غالباً براساس میزان بازدید کاربران در لیست نتایج مرتب شده و در اختیار کاربر قرار می¬گیرند، با به¬کارگیری سیستم معرفی شده و اضافه کردن وزن¬¬هایی به نودها و یال-های گراف می¬توان وزن عبارت مورد جستجو را در اسناد مختلف محاسبه و آن¬ها را براساس وزن عبارت مورد جستجو مرتب کرد، این کار سبب می¬شود کاربر با دقت و سرعت بیشتر به اطلاعات مورد نظر خود دست¬یابد. برای اضافه کردن وزن با اصلاح ساختار گراف به ازای هر سند وزن نودها را با شمارش و وزن یال¬ها را با استفاده از یک شبکه¬عصبی پرسپترون محاسبه کرده و عملکرد سیستم را به عنوان بخشی از یک موتور جستجو بهبود می¬دهیم.

First 15 pages