نام پژوهشگر: مژگان عسکریزاده

رفع اختلاف مقادیر داده ای میان موجودیت های همانند در وب داده ها
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده فنی 1391
  مژگان عسکریزاده   محمد علی نعمت بخش

وب داده های پیوندی به سرعت در حال گسترش می باشد و در حال حاضر شامل داده هایی از صدها مجموعه داده ی متفاوت می باشد. کیفیت داده های این مجموعه داده ها بسیار متغیر است، به طوریکه ممکن است این داده ها قدیمی، ناقص و یا نادرست باشند. از طرف دیگر امکان دارد مجموعه داده ها اطلاعات متناقضی درمورد یک موجودیت واحد در جهان واقعی ارائه کنند. به منظور استفاده ی برنامه های کاربردی داده های پیوندی از این فضای سراسری داده ها، چالش هایی بوجود آمده است. یکی از این چالش ها رفع اختلاف مقادیر داده ای است، در شرایطی که مجموعه داده های مختلف مقادیر متفاوتی برای یک موجودیت یکسان در جهان واقعی در نظر گرفته اند. در این تحقیق الگوریتمی ارائه شده است تا صحیح ترین مقدار از بین مقادیر موجود انتخاب شود تا بدین صورت اختلاف بین مقادیر برطرف شود. الگوریتم ارائه شده از چهار بخش اصلی تشکیل شده است که شامل مراحل فیلترگذاری، تشخیص تکراری ها، بررسی آنتولوژی و بررسی اندازه می باشد. داده ها از یک دامنه دانش و از مجموعه داده های مختلف استخراج می شوند و به عنوان ورودی به الگوریتم داده می شود و در نهایت بهترین مقادیر برای خصوصیات یک موجودیت انتخاب می شود الگوریتم پیشنهادی با استفاده از زبان برنامه نویسی جاوا پیاده سازی و سپس روی مجموعه داده های متعلق به دامنه ی فیلم و مناطق جغرافیایی تست و ارزیابی گردیده است. نتایج بدست آمده در این دو دامنه دانش متفاوت می باشد و به کیفیت داده های منتشر شده وابسته است.