دسته بندی اسناد وب با استفاده از گراف نمایه سازی اسناد
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات
- نویسنده نرجس رمضانی اومالی
- استاد راهنما مرتضی زاهدی حمید حسن پور
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1392
چکیده
با رشد روزافزون اطلاعات در وب، اغلب پروژه های تحقیقاتی در این حوزه با هدف سازماندهی اطلاعات شکل می گیرند، به گونه¬ای که کاربر نهایی بتواند راحت¬تر و با سرعت بیشتر به اطلاعاتی با دقت بالا و کارایی بهینه دست¬یابد. دسته¬بندی اسناد ابزاری مهم در بسیاری از امور مربوط به بازیابی اطلاعات است. اغلب تکنیک¬های خوشه-بندی اسناد مانند مدل فضای برداری برپایه¬ی تحلیل کلمات منفرد، در مجموعه¬ داده موجود در سند هستند. کلمات منفرد به تنهایی فاقد اطلاعات کافی بوده و باعث بروز خطا در دسته¬بندی می¬شود. جهت دستیابی به خوشه¬بندی دقیق¬تر استفاده از ویژگی¬هایی حاوی اطلاعات بیشتر مانند عبارات و وزن آن عبارات در اسناد می¬تواند بسیار مفید باشد. روش¬های دیگری چون درخت پسوندی اگرچه از عبارات جهت دسته¬بندی استفاده می¬کنند ولی با افزایش تعداد اسناد به دلیل افزونگی بالا فاقد کارایی لازم هستند. در این میان مدل جدید نمایه¬سازی سند براساس عبارت با عنوان document index graph یک روش دسته¬بندی مبتنی بر گراف است که در سال 2004 مطرح شده است. این مدل به دلیل استفاده از عبارات نسبت به مدل¬های مبتنی بر کلمات منفرد بسیار کاراتر است. در این روش به صورت موثر انطباق عبارات جهت بررسی شباهت بین اسناد انجام می¬شود. این مدل به دلیل استفاده از ساختار گراف فاقد افزونگی بوده و در دسته¬بندی از هر تعداد سند پشتیبانی می¬کند. همچنین به دلیل ساختار افزایشی الگوریتم دسته¬بندی، قابلیت به¬کارگیری به صورت آنلاین در وب را نیز دارد. استفاده از این مدل، نتایج دسته¬بندی اسناد وب را در مقایسه با روش¬های سنتی تاحد چشم¬گیری بهبود می¬بخشد. این پایان¬نامه به بررسی روش¬های مختلف دسته¬بندی اسناد و نقاط قوت و ضعف هرکدام پرداخته و با تمرکز بر روش دسته¬بندی مبتنی بر گراف به بررسی این روش و مزایای آن نسبت به روش¬های قبلی می¬پردازد، در ادامه با توجه به این¬که این سیستم قابلیت استفاده در موتور جستجو را جهت دسته¬بندی اسناد بازیابی شده دارد، با نگاهی دیگر از زاویه موتور جستجو به بررسی عملکرد این سیستم پرداخته و سعی در بهبود کارایی این سیستم در قالب موتور جستجو داریم. اسناد بازیابی شده توسط موتور جستجو غالباً براساس میزان بازدید کاربران در لیست نتایج مرتب شده و در اختیار کاربر قرار می¬گیرند، با به¬کارگیری سیستم معرفی شده و اضافه کردن وزن¬¬هایی به نودها و یال-های گراف می¬توان وزن عبارت مورد جستجو را در اسناد مختلف محاسبه و آن¬ها را براساس وزن عبارت مورد جستجو مرتب کرد، این کار سبب می¬شود کاربر با دقت و سرعت بیشتر به اطلاعات مورد نظر خود دست¬یابد. برای اضافه کردن وزن با اصلاح ساختار گراف به ازای هر سند وزن نودها را با شمارش و وزن یال¬ها را با استفاده از یک شبکه¬عصبی پرسپترون محاسبه کرده و عملکرد سیستم را به عنوان بخشی از یک موتور جستجو بهبود می¬دهیم.
منابع مشابه
بررسی وضعیت نمایه سازی اسناد آرشیوی مکتوب در مراکز آرشیوی شهر تهران از دیدگاه نمایه سازان با تأکید بر شیوه و کیفیت نمایه سازی اسناد آرشیوی
هدف: پژوهش حاضر، با هدف آگاهی از وضعیت نمایه سازی اسناد آرشیوی مکتوب در مراکز آرشیوی شهر تهران انجام شده است. روش/ رویکرد پژوهش: روش پژوهش، پیمایشی توصیفی و ابزار گردآوری داده ها پرسشنامه است. جامعۀ پژوهش شامل 100 نفر از نمایه سازان مراکز آرشیوی تهران است که کلیۀ آن ها به پرسشنامه ها پاسخ داده اند. یافته ها: یافته های پژوهش نشان داد که 42 درصد نمایه سازان، برای نمایه سازی، از هر دو زبان کنترل ش...
متن کاملنمایه سازی توزیع شده وب با استفاده از خزنده مهاجر
به علت سرعت بسیار زیاد در افزایش منابع وب و بسامد بالای تغییرات، نگهداری یک نمایه روزآمد برای مقاصد جستجوگری (موتورهای کاوش) به یک چالش تبدیل می شود. روش های سنتی خزنده ها، دیگر این قابلیت را ندارند که با روزآمد شدن و رشد دائمی وب، همگام شوند. با درک این مسئله، در این مقاله ما یک روش جایگزین، یعنی روش خزنده توزیع شده با استفاده از عامل های سیار[2] را پیشنهاد می کنیم. هدف ما ارائه یک شیوه خزش مق...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023