نام پژوهشگر: بهشید بهکمال

ارائه رویکردی مبتنی بر سنجه برای ارزیابی کیفیت مجموعه داده های پیوندی پیش از انتشار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  بهشید بهکمال   محسن کاهانی

هدف اصلی داده¬های پیوندی، تحقق وب معنایی و استخراج دانش از طریق پیوند دادن داده¬های موجود روی وب می¬باشد. یکی از موانع دستیابی به این هدف، وجود مشکلات و خطاها در داده¬های منتشر شده است که باعث ایجاد پیوندهای نادرست و درنتیجه استنتاج¬های نامعتبر می¬گردد. مطالعه کارهای انجام شده در این حوزه نشان می¬دهد که بیشتر محققان بر ارزیابی کیفیت داده پس از انتشار تمرکز داشته¬ و ارزیابی داده¬ها پیش از انتشار را برعهده مالک یا منتشرکننده داده گذاشته¬اند. با توجه به اینکه کیفیت داده¬ها تأثیر مستقیم بر موفقیت پروژه داده¬های پیوندی و تحقق وب معنایی دارد، بهتر است تا کیفیت هریک از مجموعه¬های داده در مراحل اولیه انتشار و قبل از اضافه شدن به ابر داده¬های پیوندی ارزیابی شود. در این رساله، یک رویکرد مبتنی بر سنجه برای ارزیابی پیش از انتشار مجموعه داده¬های پیوندی ارائه می¬شود. برای این منظور، با مطالعه مدل¬ها و چارچوب¬های کیفیت داده، مدل iso-25012 به¬عنوان مدل مبنا انتخاب و با نگاشت ابعاد کیفیت مدل مبنا به ابعاد کیفیت داده¬های پیوندی، شش بُعد کیفی کامل¬بودن، دقت معنایی، دقت نحوی، سازگاری، یکتایی و پیوندپذیری به¬عنوان ابعاد کیفیت ذاتی داده¬های پیوندی شناسایی شده¬اند. سپس، با استفاده از رویکرد هدف، پرسش، سنجه برای هریک از ابعاد کیفی شش¬گانه، سنجه¬های مناسب تعریف و به¬صورت رسمی بیان شده است. استراتژی ارزیابی مدل پیشنهادی، شامل سه مرحله اعتبارسنجی تئوری، ارزیابی تجربی به روش آزمایشات و نظرسنجی از خبرگان بوده که فرایند اجرای هریک، به تفصیل در رساله مورد بررسی قرار گرفته است. در پایان، با بهره¬گیری از روش¬های یادگیری، یک مدل پیش¬بینی کیفیت برمبنای سنجه¬های پیشنهادی ارائه ¬شده است. نتایج ارزیابی¬ها نشان داد که سنجه¬های پیشنهادی معتبر، کاربردی و مقیاس¬پذیر هستند و همچنین قابلیت ارزیابی کیفیت ذاتی هر مجموعه داده را به¬صورت کاملاً خودکار دارند. بنابراین، منتشرکنندگان داده¬ها قادرند تا با استفاده از مدل پیشنهادی، کیفیت ذاتی مجموعه داده خود را قبل از انتشار ارزیابی کنند.