اثربخشی بسط پرس‌وجو مبتنی بر خوشه‌بندی اسناد شبه‌بازخورد با الگوریتم K-NN

Authors

  • رضا خدایی دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر
Abstract:

بسط پرس‌وجو یکی از روش‌های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه‌مرتبط (PRF) فرض می‌کند که اسناد رتبه‌بالا از نتایج اولیه بازیابی‌شده مرتبط به پرس‌وجو است و تعدادی کلمه مرتبط را از اسناد رتبه‌بالا برای بسط انتخاب می‌کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش‌هایی برای انتخاب بهترین اسناد به‌عنوان منبع برای انتخاب کلمه بسط سوق می‌دهد که انتخاب بهترین اسناد برای استخراج کلمات مرتبط برای بسط، موضوع مهمی در روش‌های بسط پرس‌وجو هست. در این مقاله، از خوشه‌بندی اسناد شبه‌بازخورد (CPRF) حاصل از نتایج اولیه، بر اساس شباهت مبتنی بر کلمه برای قرار دادن شبیه‌ترین اسناد کنار هم استفاده می‌شود. تعدادی از خوشه‌ها طبق محتوایشان به‌عنوان خوشه‌های بازخورد انتخاب می‌شوند و از خوشه‌های بازخورد، اسناد رتبه‌بالا به‌عنوان اسناد بازخورد انتخاب می‌شوند. سپس، یک سند ترکیبی از روی اسناد انتخابی تشکیل می‌شود و کلمات سند ترکیبی بر اساس تابع رتبه‌بندی TF-IDF مرتب می‌شوند. بعد، کلمات رتبه بالا برای بسط انتخاب می‌شوند. آزمایش‌های انجام‌گرفته روی مجموعه داده پزشکی MED نشان می‌دهد روش پیشنهادی معیار متوسط میانگین دقت (MAP) بالاتری نسبت به روش بازخورد شبه‌مرتبط (PRF) دارد.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn

بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...

full text

اثر تغییر اقلیم بر فراوانی سیلاب حوضه کلاردشت با استفاده از تلفیق الگوریتم K-nn و مدل HadCM3

تغییر اقلیم می­تواند منجر به تأثیرات جدی بر فراوانی، مقدار و مدت متغیرهای حدی هیدرولوژیکی شود. حدهای نهایی هیدرولوژیکی تغییریافته، می­تواند بر طراحی سازه­های هیدرولیک در آینده، توسعه دشت­های سیلابی و مدیریت منابع آب اثرگذار باشد. این پژوهش به بررسی تأثیرات تغییر اقلیم با استفاده از تلفیق روش تولید بارش K-nn و مدل HacCM3 از سری مدل­های گردش عمومی جو سناریوی A2 و همچنین مدل هیدرولوژیکی HEC-HMS می...

full text

Fast k-NN search

Random projection trees have proven to be effective for approximate nearest neighbor searches in high dimensional spaces where conventional methods are not applicable due to excessive usage of memory and computational time. We show that building multiple trees on the same data can improve the performance even further, without significantly increasing the total computational cost of queries when...

full text

اثر تغییر اقلیم بر فراوانی سیلاب حوضه کلاردشت با استفاده از تلفیق الگوریتم k-nn و مدل hadcm۳

تغییر اقلیم می­تواند منجر به تأثیرات جدی بر فراوانی، مقدار و مدت متغیرهای حدی هیدرولوژیکی شود. حدهای نهایی هیدرولوژیکی تغییریافته، می­تواند بر طراحی سازه­های هیدرولیک در آینده، توسعه دشت­های سیلابی و مدیریت منابع آب اثرگذار باشد. این پژوهش به بررسی تأثیرات تغییر اقلیم با استفاده از تلفیق روش تولید بارش k-nn و مدل haccm3 از سری مدل­های گردش عمومی جو سناریوی a2 و همچنین مدل هیدرولوژیکی hec-hms می...

full text

Scalable $k$-NN graph construction

The k-NN graph has played a central role in increasingly popular data-driven techniques for various learning and vision tasks; yet, finding an efficient and effective way to construct k-NN graphs remains a challenge, especially for large-scale high-dimensional data. In this paper, we propose a new approach to construct approximate k-NN graphs with emphasis in: efficiency and accuracy. We hierar...

full text

Secure K-NN Algorithm for Distributed Databases

In this paper we present an algorithm for determining k-nearest neighbor tuples for a given tuple in a set of geographically distributed databases. These databases form a vertical partitioning of some implicit global database. The computation is performed by exchanging minimum number of higher level summaries so that even if they are captured by an intruder to actual data tuples can ever be rev...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 46  issue 1

pages  143- 151

publication date 2016-04-20

By following a journal you will be notified via email when a new issue of this journal is published.

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023