ارتقاء کیفیت سیستم های بازیابی اطلاعات متنی با استفاده از الگوریتم های خوشه بندی اسناد
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
- نویسنده محسن خزایی
- استاد راهنما امین اله مهابادی حسن نادری
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1390
چکیده
سیستم های بازیابی اطلاعات، با استفاده از یک استراتژی بازیابی خودکار تلاش می کنند اسناد مرتبط بیشتری را برای کاربر نمایان ساخته به نحوی که تا حد ممکن هیچ سند غیر مرتبطی بازیابی نگردد. در شاخه بازیابی اطلاعات، ارزیابی سیستم بازیابی اطلاعات نقشی اساسی ایفا می کند. در این خصوص، ارزیابی میزان کیفیت و اثربخشی بازیابی مهمترین نوع ارزیابی سیستم می باشد که تعیین کننده آن است که یک سیستم یا الگوریتم، تا چه اندازه قادر به انطباق، بازیابی و رتبه بندی اسنادی است که به نیاز اطلاعاتی کاربر مرتبط می باشد. هرچه تعداد اسناد مرتبط بازیابی شده توسط سیستم بیشتر و تعداد اسناد نامرتبط کمتر باشد، رضایت کاربر بالاتر بوده و میزان کیفیت سیستم بیشتر خواهد بود. در این پژوهش برای افزایش میزان دقت و اثربخشی سیستم بازیابی اطلاعات از روش های خوشه بندی اسناد استفاده شده، به ترتیبی که سعی می گردد قبل از این که کاربر نیاز اطلاعاتی خود را در قالب یک پرس و جو بیان نماید، اسناد داخل مجموعه به چندین گروه تقسیم شود بطوری که اسناد داخل یک خوشه نسبت به هم دارای بیشترین مشابهت بوده و در عین حال بیشترین فاصله را نسبت به اسناد سایر خوشه ها دارا باشند. بدین ترتیب، پرس و جوی کاربر ابتدا به نزدیک ترین خوشه مرتبط شده، سپس تنها اسناد داخل آن خوشه با توجه به میزان مشابهتشان با پرس و جو، رتبه بندی و در نتایج سیستم بازیابی ظاهر می گردند. بدین ترتیب اسنادی که از لحاظ ظاهری و لغوی شباهت چندانی با پرس و جو نداشته اما از نظر محتوی، نیاز اطلاعاتی کاربر را برآورده می سازند نیز در نتایج جستجو ظاهر می گردند. برای این منظور روش خوشه بندی جدیدی با استفاده از الگوریتم یافتن تطابق ماکزیمم در گراف دوبخشی معرفی شده و نشان می دهیم خوشه بندی اسناد و اعمال آن در سیستم بازیابی اطلاعات به بهبود نتایج در مقایسه با سیستم های سنتی می انجامد. بمنظور ارزیابی روش خوشه بندی و مقایسه آن با روش های موجود، از پیکره های استاندارد 20newsgroups، webkb و reuters 21578 و یک پیکره ساختگی استفاده شده است. همچنین جهت مقایسه سیستم بازیابی اطلاعات مبتنی بر خوشه بندی با روش سنتی، از پیکره استاندارد cranfield استفاده شده است. نتایج بدست آمده نشان می دهد روش خوشه بندی پیشنهادی دارای خروجی مطلوبی بوده و استفاده از آن در سیستم بازیابی اطلاعات، منجر به افزایش میزان دقت سیستم، در مقایسه با حالت سنتی خواهد شد.
منابع مشابه
استفاده از راهکار شبکه عصبی در بازیابی اطلاعات متنی
با افزایش حجم اطلاعات و با پیشرفت تکنولوژی، استفاده از الگوریتمهای سنتی جهت بازیابی سریع دادهها کافی نبوده و بهکارگیری راهکارهای نوین را جهت تسریع در بازیابی اطلاعات مربوط طلب میکند. در روشهای سنتی، پردازش اطلاعات، معمولا بهصورت ترتیبی صورت میگیرد. در روشهای جدید بازیابی اطلاعات، علاوه بر سرعت بازیابی، درک محتوای مدرک و بازیابی مدرک مربوط حائز اهمیت میباشد. بهکاربردن روشهای هوش مصنوع...
متن کاملیک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر
The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...
متن کاملآینده سامانههای بازیابی اطلاعات متنی
هدف: شناسایی عوامل مؤثر بر آیندة سامانههای بازیابی اطلاعات متنی هدف این پژوهش است. روششناسی: دادهها از متون و پیمایش نظرات متخصصان بازیابی اطلاعات به روش نمونهگیری هدفمند گردآوری شده است. یافتهها: بُعد فناوری بیشترین تأثیر را بر آیندة سامانههای بازیابی اطلاعات خواهد داشت. بُعد هوش مصنوعی با ضریب 93 مؤثرترین شناخته شد. حق مؤلف در بُعد سیاسی با ضریب86 و وابسته شدن مشاغل به اطلاعات در بُعد...
متن کاملارایه شاخصی جدید جهت سنجش اعتبار خوشه بندی در الگوریتم های خوشه بندی فازی نوع-2
One of the main issues in fuzzy clustering is to determine the number of clusters that should be available before clustering and selection of different values for the number of clusters will lead to different results. Then, different clusters obtained from different number of clusters should be validated with an index. But so far such an index has not been introduced for interval type-2 fuzzy C...
متن کاملجداسازی خودکار کانی های موجود در مقاطع نازک سنگ ها با استفاده از الگوریتم های پردازش تصویر و خوشه بندی
جداسازی خودکار کانی های موجود در مقاطع نازک با استفاده از روشهای پردازش تصویر، یکی از موضوعاتی است که در سالهای اخیر مورد توجه زمین شناسان قرار گرفته است. سنگها اصلیترین منبع اطلاعاتی زمین شناسان میباشند، و یکی از روشهای متداول مطالعه سنگها، تهیه مقاطع نازک از آنها و بررسی این مقاطع با استفاده از میکروسکوپ های انکساری قطبی کننده نور است. همچنین جداسازی کانی های موجود در مقاطع نازک،...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023