نام پژوهشگر: بلال رستمی

ارائه ی یک راه کار جدید مبتنی بر خوشه بندی و رتبه بندی صفحات وب جهت وب کاوی و با استفاده از یک الگوریتم تکاملی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده ریاضی 1391
  بلال رستمی   شهریار لطفی

وب کاوی به عملیات کاوش و جستجو در دنیای عظیم وب به منظور یافتن اطلاعات و داده های خاص اطلاق می گردد. وب کاوی شاخه ای از داده کاوی بوده و به داده کاوی در اصطلاح دانش کشف پایگاهداده گفته میشود. عملیات وب کاوی برای جستجوی دادههای مورد نظر باید به صورتی انجام گیرد که بهترین نتایج در کمترین زمان ممکن به کاربر ارائه گردد. با افزایش سریع اطلاعات در دنیای وب، نیاز به بهبود روش های سریع و مطمئن جهت انجام عملیات وب کاوی بیشتر احساس می شود. به دلیل کثرت اطلاعات موجود در دنیای وب کاربران همواره انتظار دارند که بهترین جواب هایی که مد نظر آن ها می باشد را در ابتدای نتایج یافت شده مشاهده نمایند. در بسیاری از موارد، صفحات وب یافت شده مغایر با خواسته ی کاربران می باشد به همین علت، ارائه ی روشی که نتایج ارائه شده به کاربر را بهبود دهد، انگیزه اصلی است که در این رساله مورد تحقیق قرار گرفته است.از مهمترین روش ها در این زمینه روش های خوشه بندی و رتبه بندی صفحات می باشد. الگوریتم های خوشه بندی، صفحات وب را طوری خوشه بندی می نمایند که صفحات مشابه از لحاظ محتوا و ساختار در خوشه های یکسانی قرار بگیرند سپس جستجو برای یافتن اطلاعات خاص در خوشه هایی صورت می گیرد که به خواسته ی کاربر نزدیک تر می باشد. الگوریتم های رتبه بندی نیز براساس میزان نزدیکی ساختار و یا محتوای صفحات وب، برای هر صفحه یک معیار عددی قابل اندازه گیری در نظر می گیرند و صفحات به ترتیب رتبه ی محاسبه شده به کاربر ارائه خواهند شد. از طرفی به دلیل این که محیط گسترده ی وب به وسیله ی ساختمان داده ی گراف نمایش داده می شود و عملا هنگام وب کاوی یک عمل جستجو در این نوع گراف ها صورت می پذیرد و به دلیل این که این نوع از گراف ها یعنی گراف های وب، گراف های بسیار بزرگی هستند، لذا عملیات وب کاوی دارای پیچیدگی زمانی بالایی خواهد بود تا جایی که عملیات کاوش اطلاعات در این نوع گراف ها به یک مساله ی چند جمله ای غیر قطعی-سخت تبدیل می گردد. تا کنون روش های مختلفی جهت خوشه بندی و رتبه بندی صفحات وب پیشنهاد شده است. همچنین روش هایی که از ترکیب این دو روش جهت وب کاوی استفاده می کنند نیز مورد بررسی قرار گرفته است که بیشتر مبتنی بر محتوا هستند. در روش پیشنهادی تمرکز اصلی بر روی ساختار بوده و علت آن، این است که ارتباطات موجود مابین صفحات وب حاوی اطاعات ارزشمندی هستنند که می توان از آن ها جهت بهبود عملیات وب کاوی بهره برد. در روش پیشنهادی ابتدا گراف وب بر اساس شباهت های ساختاری و طی دو مرحله خوشه بندی شده و سپس هر کدام از خوشه ها بر اساس میزان ارزشمندی امتیازدهی می گردد و سپس عمل رتبه بندی به تمامی صفحات موجود در خوشه ها اعمال شده و در نهایت امتیاز و یا رتبه ی نهایی یک صفحه ی وب حاصل ضرب این دو مقدار خواهد بود. در نهایت صفحات وب بر اساس میزان رتبه ی نهایی به کاربر ارائه خواهد شد. نتایج حاصل از مقایسه ی الگوریتم پیشنهادی (gcrm) با سایر روش ها، بیان گر عملکرد خوب این الگوریتم در یافتن صفحات با کیفیت و همچنین بهبود عملیات وب کاوی و رتبه بندی می باشد. ازآن جایی که میزان کیفیت، پارامتر و دغدغه اصلی در زمینه ی وب کاوی می باشد، لذا در الگوریتم gcrm تلاش اصلی بر روی افزایش کیفیت صفحات یافت شده می باشد که با توجه به نتایج به -دست آمده، روش پیشنهادی در این زمینه موفق عمل کرده و دلیل اصلی آن استفاده از اطلاعات مفید پیوند ها، هم در مرحله ی خوشه بندی و هم در مرحله ی رتبه بندی می باشد، چرا که صفحات وب به میزان کیفیت شان از الگوهای ساختاری مشابهی بهره می گیرند و هر صفحه ی وبی که اطلاعات مفیدی در یک زمینه داشته باشد، به طور معمول با سایر صفحات با کیفیت در ارتباط خواهد بود.