نام پژوهشگر: ساره آقایی

شناسایی موجودیت های همانند در وب داده
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان 1390
  ساره آقایی   محمدعلی نعمت بخش

وب داده به منظور ایجاد وب قابل فهم برای ماشین ها معرفی شده است که اتصالات معنادار بین موجودیت ها از ویژگی های اصلی آن است. یکی از مهم ترین اتصالات معنادار در وب داده، اتصالات همانندی است که بین موجودیت های همانند ایجاد می شود. شناسایی و اتصال موجودیت هایی که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند، موجب می شود عامل ها و پویشگرها بتوانند با پیمایش وب اطلاعات بیشتری در مورد موجودیت ها استخراج نمایند. مسأله پژوهشی در این تحقیق شناسایی و اتصال موجودیت های همانند در وب داده است. هدف از این تحقیق، ارائه یک مدل به منظور شناسایی و اتصال موجودیت های همانند در وب داده است به گونه ای که این مدل بتواند با شناسایی صحیح موجودیت ها و اتصال آن ها به یکدیگر، جستجو و استخراج دانش از کل منابع موجود در وب را بهبود بخشد. مدل پیشنهادی شامل چهار ماژول اصلی است: ماژول همتراز سازی آنتولوژی ها، ماژول فیلتر گذاری، ماژول محاسبه درجه تشابه و ماژول کلاس بندی. مدل پیشنهادی قابل به کارگیری روی مجموعه داده های مختلف با آنتولوژی ها و فرهنگ لغات متفاوت و همچنین مستقل از دامنه ی مجموعه داده ها است. انتشار تشابه مقادیر ویژگی های متناظر موجودیت ها روی یکدیگر در گراف و استفاده از الگوریتم k نزدیک ترین همسایه از ویژگی های اصلی در مدل پیشنهادی است. مدل پیشنهادی پیاده سازی شده است و با استفاده از دو مجموعه داده linkedmdb و dbpedia به منظور شناسایی فیلم های همانند و دو مجموعه داده sider و drugbank به منظور شناسایی داروهای همانند ارزیابی شده است. پس از مقایسه نتایج به دست آمده با نتایج ابزار silk، مشخص شد دقت شناسایی مدل پیشنهادی در مقایسه با ابزار silk بهبود قابل ملاحظه ای دارد.