نام پژوهشگر: سهیلا دهقانزاده

رتبه بندی مجموعه داده ها در موتورهای جستجوی معنایی برای تشخیص هرز داده
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  سهیلا دهقانزاده   محسن کاهانی

با ظهور وب معنایی و همه گیر شدن آن، ضرورت درک اطلاعات وب توسط ماشین بر هیچ کس پوشیده نیست. انتظار انسان از چگونگی نتایج یک موتور جستجو با انتظار عامل نرم افزاری از چگونگی نتایج فرق می کند. آنچه مسلم است، وب کنونی (وب اَسناد) برای ماشین قابل فهم نبوده و صفحات وب فقط توسط انسان ها قابل پردازش بوده است. پروژه عظیم داده های پیوندی، حجم زیادی از داده های rdf ،که توسط ماشین و انسان قابل فهم است، را روی وب در دسترس قرار داده است. برای استفاده از این حجم انبوه داده ها باید بتوان آن ها را جستجو کرد. بنابراین، نسل دوم برنامه های وب معنایی(وب داده ها)، به نقاط دسترسی کارا به وب معنایی نیاز دارند که ماهیت معنایی این دانش را نیز لحاظ کند. به بیان دیگر از آنجا که موتورهای جستجو دروازه ورود به وب هستند و انسان و ماشین هم باید بتوانند روی این مدل داده جدید (rdf) جستجو انجام دهند، ضرورت یک موتور جستجوی معنایی برای انسان و یک موتور پرسش معنایی برای ماشین کاملاً احساس می شود. با ظهور موفقیت آمیز "وب داده ها"، سوء استفاده های شخصی برای کسب سود و منفعت بیشتر در قالب هرز داده، در وب داده ها رو به افزایش است. از آنجا که الگوریتم رتبه بندی یک موتور جستجو، تا حد زیادی وظیفه مقابله با این نوع تهدیدها را بر عهده دارد، این پایان نامه با بررسی الگوریتم های رتبه بندی "وب اسناد" و تطبیق آن برای وب داده ها، بدنبال پیشگیری از ظهور هرز داده در نتایج موتورهای جستجوی معنایی است . ابتدا با ایجاد انواع مختلف هرز داده و مشاهده نتایج رتبه بندی الگوریتم مشهور ding که در موتور جستجوی معنایی sindice بکار رفته است و الگوریتم رتبه بندی بر اساس ماتریس صلاحیت نام گذاری که در موتور جستجوی معنایی swse بکار رفته است، نقاط ضعف این الگوریتم ها در مقابل ارتباطات گروهی نشان داده شده است. الگوریتم پیشنهادی برای رتبه بندی مجموعه داده ها، با کشف ارتباطات گروهی و جریمه این نوع هرز داده، با یک روش جدید ارتباطات را وزن دار می کند و با اعمال رتبه بندی وزن دار، اعضای ارتباط گروهی را در قعر نتایج رتبه بندی قرار می دهد. از آنجا که برای بکارگیری تمام مفاهیم پنهان یک چهارگانه برای رتبه بندی دامنه ها، باید هر دو روش بکار رفته در صلاحیت نام گذاری و ding توأما بکار گرفته شوند، روش ارائه شده در این پایان نامه ترکیبی از دو روش موجود، همراه با تکنیک های کشف ارتباط های گروهی است. نوآوری اصلی این پایان نامه، ارائه یک روش رتبه بندی جدید است که توسط ارتباطات گروهی گمراه نشود و تمام مفاهیم ضمنی چهارگانه را به کار گیرد. برای ارزیابی روش پیشنهادی مجموعه داده داروها از ابر داده های پیوندی جمع آوری شده است. چهار نوع هرز داده ایجاد شده در چهار تست به مجموعه داده تزریق شده اند و نتایج هر مرحله نشان دهنده اینست که روش پیشنهادی در کشف انواع هرز داده موفقیت آمیز بوده است.