نام پژوهشگر: سودابه غفوریان
سودابه غفوریان محمود نقیب زاده
پیمانه بندی هستان شناسی راهی مناسب برای استفاده از هستان شناسی های بزرگ است. برای ایجاد پیمانه هایی با کیفیت بالا، باید هم جنبه ساختاری و هم معنایی هستان شناسی در نظر گرفته شود. برای در نظر گرفتن ویژگی ساختاری هستان شناسی کافیست آن را به صورت گراف نمایش دهیم. برای در نظر گرفتن ویژگی معنایی هستان شناسی کافیست به روابط مختلف، وزنهای متفاوتی داده شود. وزندهی به یالها مستلزم شناسایی روابط مختلف و تشخیص میزان مهم بودن آنهاست. بنابراین برای انجام راه حل پیشنهادی گامهای ذیل طی میشود: 1. مشخص کردن نحوه نمایش گراف هستان شناسی از روشی برای نمایش گراف هستان شناسی استفاده میشود که فاعل، مفعول و فعل هر کدام جدا بهصورت گره در نظر گرفته میشوند. البته فقط خصوصیات objectproperty و datatypeproperty را گره در نظر میگیریم و بقیه روابط (خصوصیات) به صورت یال در نظر گرفته میشوند، به علاوه در این نمایش نمونه ها نیز به عنوان گره نمایش داده میشوند. 2. شناسایی روابط و وزندهی به آنها برای وزندهی به روابط مختلف هستان شناسی از یک تابع وزن استفاده میشود این تابع به بعضی از روابط موجود، عددی صحیح نسبت میدهد. وزن دادن یک راه تفاوت قائل شدن بین روابط است. یک راه اولویت دادن به روابط بر اساس پیدایش روابط است و راه دیگر این است که میتوان بر اساس معنا و تعریف روابط اولویت آنها را مشخص کرد. 3. یکسان سازی وزن یالها در صورت لزوم اگر بین گره ها بیش از یک رابطه وجود داشت بین وزن روابط حداکثر وزن در نظر گرفته میشود و سپس بر اساس وزن حداکثر و وزن یک گام بالاتر از این وزن در جدول 1، وزن حاصل به وزن یک گام بالاتر تنظیم میشود. 4. نرمالسازی برای نرمال سازی، وزن یال خروجی از گره مورد نظر بر مجموع وزنهای یالهای خروجی از گره تقسیم میشود. بنابراین وزنها بین صفر و 1 خواهند بود. خروجی این قسمت ماتریسی است که برای ورود به الگوریتم فاصله گام تصادفی آماده است. 5. تخمین نزدیکی رئوس با استفاده از الگوریتم همسایگی فاصله گام تصادفی از الگوریتم همسایگی فاصله گام تصادفی برای اندازه گیری نزدیکی رئوس هستان شناسی استفاده میشود. 6. پیمانه بندی تابع معیار استفاده شده silhouettes coefficient یا s(i) است. میانگین s(i) معیاری است که نشان میدهد چقدر داده ها در یک پیمانه، مناسب گروه بندی شده اند. s(i) را به ازای هر گره مفهوم با توجه به رابطه زیر به دست می آید. کارایی پیمانه بندی بر اساس متوسط امتیاز هر پیمانه به دست میآید. امتیاز هر پیمانه نیز بر اساس متوسط امتیازهای گره های داخل پیمانه یعنی s(i) ها محاسبه میشود. برای پیمانه بندی دو الگوریتم به شرح زیر پیشنهاد شده است: الگوریتم پیمانه بندی تجمعی ورودی الگوریتم تجمعی ماتریس همسایگی فاصله گام تصادفی است. این الگوریتم پیمانه را به صورت تکراری براساس داشتن شباهت زیاد با هم ادغام میکند. یک الگوریتم پایین به بالاست که در ابتدا هر راس را به عنوان یک پیمانه مجزا در نظر میگیرد و در آخر با یک گراف به عنوان یک پیمانه منحصربه فرد پایان میگیرد. در اینجا در هر مرحله به ازای هر دو پیمانه ci و cj، پیمانه ها باهم ادغام میشوند و امتیاز بدست میآید، ترکیبی که بیشترین امتیاز را دارد، لحاظ میشود و در آخر این ترکیب انتخاب شده و به مرحله بعد که یکی از تعداد پیمانه ها کم میشود، میرود و دوباره همین مراحل تکرار میشود تا در نهایت یک پیمانه باقی بماند. الگوریتم پیمانه بندی اکتشافی الگوریتم اکتشافی به منظور پیشتیبانی از هستان شناسی های بزرگ و کاهش زمان اجرا پیشنهاد شده است. ورودی این الگوریتم برای پیمانه بندی ماتریس وقوعی است که از روی ماتریس مجاورت ساخته شده است. هر سطر از ماتریس وقوع یک یال را معرفی میکند که شامل گره اول، گره دوم و وزن بین آن دو میشود. این ماتریس بر اساس ستون وزن به صورت صعودی مرتب میشود. الگوریتم بدین صورت است که اگر گره اول و دوم در یک پیمانه نباشند، باهم ادغام میشوند. سپس دو شرط چک میشود: اول، اگر اندازه پیمانه جدید کمتر از یک سوم کل تعداد گره ها باشد، ادغام صورت میگیرد و شرط دوم چک کردن امتیاز پیمانه بندی است که اگر امتیاز بالاتر باشد الگوریتم ادامه می یابد، در غیر اینصورت الگوریتم خاتمه می یابد. راهکار پیشنهادی هر دو جنبه ساختاری و معنایی هستان شناسی را در نظر می گیرد حال آن که در اکثر کارهای گذشته به هردو جنبه توجه نمیشود. معنا با توجه به اختصاص دادن وزن به روابط متفاوت در نظر گرفته شده است به علاوه نسبت به سایر رویکردها روابط بیشتری در نظر گرفته می شود. در نظر گرفتن روابط بیشتر باعث می شود که یالهای بیشتری در نمایش گراف هستان شناسی وجود داشته باشد که میتوان در پیدا کردن شباهت دو گره تصمیم بهتری گرفت. استفاده از ماتریس همسایگی فاصله گام تصادفی برای ترکیب جنبه ساختاری و معنایی هستان شناسی انجام می گیرد. هر درایه از این ماتریس با توجه به وزن تقریباً همه درایه های ماتریس احتمال انتقال محاسبه می شود بنابراین وزن ها در روش پیشنهادی دقیقتر از سایر روشهایی هستند که فقط از ماتریس وزن استفاده می کنند. به علاوه در روش پیشنهادی یک تابع امتیازدهی جدید معرفی شده است. هدف این تابع بیشینه کردن شباهت داخل پیمانه ها و کم کردن شباهت بین پیمانه هاست. تابع امتیازدهی با توجه به هدفش نشان میدهد که گره ها چقدر در داخل پیمانه مورد نظر مناسب گروه بندی شده اند. و در آخر به عنوان نتیجه میتوان گفت، پیمانه های ایجاد شده در روش ما دارای بار معنایی هستند زیرا در این پژوهش روابط بیشتری نسبت به روشهای مشابه در نظر گرفته میشود و این روابط طوری پردازش میشوند که وزن هر یال یا رابطه روی انتخاب هر پیمانه تاثیر میگذارد.