نام پژوهشگر: انسیه داوودی جم

خوشه بندی موجودیت ها در داده های پیوندی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده برق و کامپیوتر 1391
  انسیه داوودی جم   محمد علی نعمت بخش

وب معنایی شامل قرار دادن داده ها روی وب و ساختن ارتباطات به گونه ای است که انسان و ماشین بتوانند محتوای وب داده را کاوش نمایند. هدف وب معنایی افزایش توانایی ماشین ها در دسترسی به منابع موجود در وب، پردازش و بکارگیری آن ها می باشد. با توجه به رشد گسترده ی داده های پیوندی و افزایش مجموعه داده ها در چند سال اخیر، نیاز به ابزاری برای کشف پیوند در مقیاس وسیع احساس می شود. ابزارهای کنونی برای کشف پیوند مجبور به مقایسه ی تمامی موجودیت ها در مجموعه داده ها هستند. با خوشه بندی موجودیت ها، می توان قبل از ایجاد پیوند و بر اساس نوع پیوند تعداد مقایسه ها بین موجودیت ها را کاهش داد. یکی از مهم ترین اتصالات معنادار در وب داده، شناسایی و اتصال موجودیت هایی است که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند. در این تحقیق یک مدل به منظور شناسایی وایجاد خوشه هایی با موجودیت های همانند در وب داده ارائه شده است. مدل ارائه شده قابل بکارگیری روی مجموعه داده ها با دامنه های متفاوت است. این روش می تواند به عنوان یک مولفه در ابزارهای کشف پیوند مانند ابزار silk استفاده شده و سبب بهبود پبچیدگی زمانی وافزایش دقت کشف پیوند شود. مدل پیشنهادی دارای دو ماژول اصلی است: 1. ماژول خوشه بندی ابتدایی 2. ماژول شکستن ماژول خوشه بندی ابتدایی دارای سه فاز اصلی پیش پردازش، توابع شباهت و انتخاب مراکز است. مدل پیشنهادی با تعریف توابع شباهت متفاوت، ویژگی ها با انواع مختلف را در نظر می گیرد. در ماژول شکستن؛ بدترین خوشه شناسایی شده و به عنوان کاندید برای شکسته شدن در نظر گرفته می شود. مراحل کشف بدترین خوشه و شکسته شدن تا رسیدن به تعداد خوشه ی بهینه ادامه پیدا می کند. مدل پیشنهادی با استفاده از زبان برنامه نویس جاوا پیاده سازی شد و با استفاده از دو مجموعه داده linkedmdb و dbpedia به منظور خوشه بندی فیلم های همانند و دو مجموعه داده linkedmdb و linkedgeodata به منظور خوشه بندی شهرهای همانند مورد ارزیابی قرار گرفت. پس از مقایسه نتایج بدست آمده با کارهای قبلی مشابه، مشخص شد مدل پیشنهادی دارای پیچیدگی زمان کمتر، بدون از دست دادن پیوندها و دقت بالاست.