نام پژوهشگر: نسیم ارغا
نسیم ارغا علی سلیمانی ایوری
عصر امروزه، عصر ارتباطات می¬باشد و اطلاعات از اهمیت بسیار زیادی برخوردار است در نتیجه پاسخ به نیاز اطلاعاتی کاربر بسیار مشکل شده است. یکی از مهم¬ترین گام¬ها در این عرصه، بررسی روش¬های بازیابی اطلاعات برای ارائه پاسخ مناسب به نیاز کاربر است. هدف این پایان¬نامه این است تا مشکلات و موانع موجود بر سر راه طراحی و پیاده¬سازی موتورهای جستجوی هوشمند شناسایی شوند و راه¬حل بهینه¬ای ارائه شود. در این پایان¬نامه تمرکز بیشتر در ارائه¬ی موتور جستجوی ژورنال¬یاب می¬باشد که خصوصیات ژورنال¬های مناسب مطابق با کلمات کلیدی ارائه شده¬ی کاربر را معرفی کند. در این پژوهش از الگوریتم پس¬پرش برای بررسی لینک های قابل دستیابی که در نظر داریم کلمات کلیدی کاربر را در آن جستجو کنیم، می¬توان استفاده کرد. یکی از پرکاربردترین متدها در حوزه بازیابی اطلاعات روشtf-idf می¬باشد که از حاصل ضرب فراوانی کلمه در فراوانی معکوس می¬باشد. این روش یک روش مبتنی بر سند می¬باشد، که در آن منظور از فراوانی کلمه، فقط تعداد تکرار کلمه در یک سند خاص است. همچنین منظور از فراوانی معکوس سند، تعداد سندهایی است که کلمه خاص در آن سندها تکرار شده است. از این روش به دلیل مقبولیت و محاسبات و نتایج قابل قبول، در این پژوهش به کار رفته است البته برای سهولت کار و به حداقل رساندن زمان پردازش، کلمات بی-تاثیر و یا کلماتی که تکرار آن¬ها در متن بیش از حد می¬باشند و مواردی از این قبیل، از مستندات مستخرج حذف می¬شوند. از الگوریتم jaro winkler نیز برای مقایسه فازی رشته¬ها استفاده شده است. نتیجه نهایی این پژوهش موتور¬ ژورنال¬یابی می¬باشد که با استفاده از روش¬های فازی و آماری نتایج دقیق¬ و مرتبط با کلمه¬ی کلیدی کاربر را ارائه می¬دهد و لینک¬های نامرتبط (که در رابطه با ژورنال نمی¬باشد) بررسی نمی¬شوند و نمایش داده نمی¬شوند.