نام پژوهشگر: محمدرضا پورخانی
محمدرضا پورخانی بیتا شادگار
وب مخزن عظیم و رو به گسترش داده هاست و اغلب منابع اطلاعاتی آن توسط پایگاه داده های رابطه ای ذخیره و مدیریت می شود. امروزه ماشین فهم کردن و دسترسی معنایی به این حجم عظیم از داده ها، یک ضرورت است. در این میان فناوری وب معنایی با هدف ایجاد قابلیت پردازش روی داده های وب پیشنهاد شده است. ساخت آنتولوژی نقش محوری را در وب معنایی برعهده دارد، اما استخراج آنتولوژی از پایگاه داده های رابطه ای موجود تحت وب به طوری که امکان پرس و جوی معنایی فراهم شود، با مشکلاتی روبروست. این مشکلات ناشی از تفاوت های بین مدل رابطه ای و آنتولوژی و همچنین عدم دسترسی مستقیم به پایگاه داده های رابطه ای تحت وب است. در این پایان نامه شباهت ها و تفاوت های بین مدل رابطه ای و آنتولوژی به طور دقیق بررسی شده است. همچنین از آن جایی که به طور طبیعی دسترسی مستقیم به پایگاه داده های رابطه ای تحت وب برای ایجاد آنتولوژی مُیسر نیست، بنابراین روشی نیمه خودکار برای ایجاد آنتولوژی مبتنی بر پیمایش صفحات html مرتبط با پایگاه داده های رابطه ای در دامنه ای مفروض پیشنهاد شده است. این روش که «استخراج آنتولوژی با پیمایش صفحات html» نام دارد، ابتدا شبه پایگاه داده رابطه ای براساس الگوی موقعیت داده ها در صفحات html به عنوان مدل میانی ایجاد و سپس توسط خزنده تاپل های این شبه پایگاه داده رابطه ای از صفحات html بازیابی می شود و در ادامه آنتولوژی دامنه و نمونه های آن به کمک قوانین سیستم انتقال از این شبه پایگاه داده رابطه ای استخراج می شود. در روش پیسنهادی به دلیل استفاده از صفحات html مبتنی بر سیستم مدیریت محتوا، مشکلات ساخت آنتولوژی از روی صفحات html مانند تغییر دائمی صفحات، داده های نامرتبط و ساختار گوناگون صفحات html تا حد زیادی برطرف شده است. آنتولوژی دامنه اساتید رشته کامپیوتر دانشگاه های ایران توسط این روش استخراج شده است. دقت و صحت آنتولوژی استخراج شده به ترتیب توسط کارشناس دامنه و استدلالگر ++fact ارزیابی شده و درنهایت پرس و جوهای معنایی به زبان sparql روی آن اعمال می شود. دقت و فراخوانی نتایج حاصل از پرس وجوها روی آنتولوژی استخراج شده، جامعیت قوانین سیستم انتقال، درکنار اجرایی بودن روش پیشنهادی، موفقیت روش پیشنهادی را تأیید می کند.