نام پژوهشگر: سودابه غفوریان

پیمانه بندی هستان شناسی مبتنی بر گراف و مشابهت معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  سودابه غفوریان   محمود نقیب زاده

پیمانه­ بندی هستان ­شناسی راهی مناسب برای استفاده از هستان ­شناسی ­های بزرگ است. برای ایجاد پیمانه­ هایی با کیفیت بالا، باید هم جنبه ساختاری و هم معنایی هستان­ شناسی در نظر گرفته شود. برای در نظر گرفتن ویژگی ساختاری هستان ­شناسی کافیست آن ­را به­ صورت گراف نمایش دهیم. برای در نظر گرفتن ویژگی معنایی هستان ­شناسی کافیست به روابط مختلف، وزن­های متفاوتی داده شود. وزن­دهی به یال­ها مستلزم شناسایی روابط مختلف و تشخیص میزان مهم بودن آن­هاست. بنابراین برای انجام راه حل پیشنهادی گام­های ذیل طی می­شود: 1. مشخص کردن نحوه نمایش گراف هستان­ شناسی از روشی برای نمایش گراف هستان ­شناسی استفاده می­شود که فاعل، مفعول و فعل هر کدام جدا به­صورت گره در نظر گرفته می­شوند. البته فقط خصوصیات objectproperty و datatypeproperty را گره در نظر می­گیریم و بقیه روابط (خصوصیات) به­ صورت یال در نظر گرفته می­شوند، به ­علاوه در این نمایش نمونه­ ها نیز به ­عنوان گره نمایش داده می­شوند. 2. شناسایی روابط و وزن­دهی به آن­ها برای وزن­دهی به روابط مختلف هستان­ شناسی از یک تابع وزن استفاده می­شود این تابع به بعضی از روابط موجود، عددی صحیح نسبت می­دهد. وزن دادن یک راه تفاوت قائل شدن بین روابط است. یک راه اولویت دادن به روابط بر اساس پیدایش روابط است و راه دیگر این است که می­توان بر اساس معنا و تعریف روابط اولویت آن­ها را مشخص کرد. 3. یکسان ­سازی وزن یال­ها در صورت لزوم اگر بین گره­ ها بیش از یک رابطه وجود داشت بین وزن روابط حداکثر وزن در نظر گرفته می­شود و سپس بر اساس وزن حداکثر و وزن­ یک گام بالاتر از این وزن در جدول 1، وزن حاصل به وزن یک گام بالاتر تنظیم می­شود. 4. نرمال­سازی برای نرمال سازی، وزن یال خروجی از گره مورد نظر بر مجموع وزن­های یال­های خروجی از گره تقسیم می­شود. بنابراین وزن­ها بین صفر و 1 خواهند بود. خروجی این قسمت ماتریسی است که برای ورود به الگوریتم فاصله گام تصادفی آماده است. 5. تخمین نزدیکی رئوس با استفاده از الگوریتم همسایگی فاصله گام تصادفی از الگوریتم همسایگی فاصله گام تصادفی برای اندازه­ گیری نزدیکی رئوس هستان­ شناسی استفاده می­شود. 6. پیمانه بندی تابع معیار استفاده شده silhouettes coefficient یا s(i) است. میانگین s(i) معیاری است که نشان می­دهد چقدر داده­ ها در یک پیمانه، مناسب گروه­ بندی شده­ اند. s(i) را به ازای هر گره مفهوم با توجه به رابطه زیر به دست می آید. کارایی پیمانه­ بندی بر اساس متوسط امتیاز هر پیمانه به ­دست می­آید. امتیاز هر پیمانه نیز بر اساس متوسط امتیازهای گره­ های داخل پیمانه یعنی s(i) ها محاسبه می­شود. برای پیمانه بندی دو الگوریتم به شرح زیر پیشنهاد شده است: الگوریتم پیمانه­ بندی تجمعی ورودی الگوریتم تجمعی ماتریس همسایگی فاصله گام تصادفی است. این الگوریتم پیمانه را به­ صورت تکراری براساس داشتن شباهت زیاد با هم ادغام می­کند. یک الگوریتم پایین به بالاست که در ابتدا هر راس را به عنوان یک پیمانه مجزا در نظر می­گیرد و در آخر با یک گراف به عنوان یک پیمانه منحصربه ­فرد­ پایان می­گیرد. در اینجا در هر مرحله به ازای هر دو پیمانه ci و cj، پیمانه ­ها باهم ادغام می­شوند و امتیاز بدست می­آید، ترکیبی که بیشترین امتیاز را دارد، لحاظ می­شود و در آخر این ترکیب انتخاب شده و به مرحله بعد که یکی از تعداد پیمانه­ ها کم می­شود، می­رود و دوباره همین مراحل تکرار می­شود تا در نهایت یک پیمانه باقی بماند. الگوریتم پیمانه­ بندی اکتشافی الگوریتم اکتشافی به منظور پیشتیبانی از هستان شناسی­ های بزرگ و کاهش زمان اجرا پیشنهاد شده است. ورودی این الگوریتم برای پیمانه­ بندی ماتریس وقوعی است که از روی ماتریس مجاورت ساخته شده است. هر سطر از ماتریس وقوع یک یال را معرفی می­کند که شامل گره اول، گره دوم و وزن بین آن دو می­شود. این ماتریس بر اساس ستون وزن به ­صورت صعودی مرتب می­شود. الگوریتم بدین صورت است که اگر گره اول و دوم در یک پیمانه نباشند، باهم ادغام می­شوند. سپس دو شرط چک می­شود: اول، اگر اندازه پیمانه جدید کمتر از یک سوم کل تعداد گره­ ها باشد، ادغام صورت می­گیرد و شرط دوم چک کردن امتیاز پیمانه­ بندی است که اگر امتیاز بالاتر باشد الگوریتم ادامه می­ یابد، در غیر این­صورت الگوریتم خاتمه می ­یابد. راهکار پیشنهادی هر دو جنبه ساختاری و معنایی هستان شناسی را در نظر می گیرد حال آن که در اکثر کارهای گذشته به هردو جنبه توجه نمیشود. معنا با توجه به اختصاص دادن وزن به روابط متفاوت در نظر گرفته شده است به علاوه نسبت به سایر رویکردها روابط بیشتری در نظر گرفته می شود. در نظر گرفتن روابط بیشتر باعث می شود که یالهای بیشتری در نمایش گراف هستان شناسی وجود داشته باشد که میتوان در پیدا کردن شباهت دو گره تصمیم بهتری گرفت. استفاده از ماتریس همسایگی فاصله گام تصادفی برای ترکیب جنبه ساختاری و معنایی هستان شناسی انجام می گیرد. هر درایه از این ماتریس با توجه به وزن تقریباً همه درایه های ماتریس احتمال انتقال محاسبه می شود بنابراین وزن ها در روش پیشنهادی دقیقتر از سایر روشهایی هستند که فقط از ماتریس وزن استفاده می کنند. به علاوه در روش پیشنهادی یک تابع امتیازدهی جدید معرفی شده است. هدف این تابع بیشینه کردن شباهت داخل پیمانه ها و کم کردن شباهت بین پیمانه هاست. تابع امتیازدهی با توجه به هدفش نشان میدهد که گره ها چقدر در داخل پیمانه مورد نظر مناسب گروه بندی شده اند. و در آخر به عنوان نتیجه میتوان گفت، پیمانه های ایجاد شده در روش ما دارای بار معنایی هستند زیرا در این پژوهش روابط بیشتری نسبت به روشهای مشابه در نظر گرفته میشود و این روابط طوری پردازش میشوند که وزن هر یال یا رابطه روی انتخاب هر پیمانه تاثیر میگذارد.