ارائه ی یک راه کار جدید مبتنی بر خوشه بندی و رتبه بندی صفحات وب جهت وب کاوی و با استفاده از یک الگوریتم تکاملی

پایان نامه
چکیده

وب کاوی به عملیات کاوش و جستجو در دنیای عظیم وب به منظور یافتن اطلاعات و داده های خاص اطلاق می گردد. وب کاوی شاخه ای از داده کاوی بوده و به داده کاوی در اصطلاح دانش کشف پایگاهداده گفته میشود. عملیات وب کاوی برای جستجوی دادههای مورد نظر باید به صورتی انجام گیرد که بهترین نتایج در کمترین زمان ممکن به کاربر ارائه گردد. با افزایش سریع اطلاعات در دنیای وب، نیاز به بهبود روش های سریع و مطمئن جهت انجام عملیات وب کاوی بیشتر احساس می شود. به دلیل کثرت اطلاعات موجود در دنیای وب کاربران همواره انتظار دارند که بهترین جواب هایی که مد نظر آن ها می باشد را در ابتدای نتایج یافت شده مشاهده نمایند. در بسیاری از موارد، صفحات وب یافت شده مغایر با خواسته ی کاربران می باشد به همین علت، ارائه ی روشی که نتایج ارائه شده به کاربر را بهبود دهد، انگیزه اصلی است که در این رساله مورد تحقیق قرار گرفته است.از مهمترین روش ها در این زمینه روش های خوشه بندی و رتبه بندی صفحات می باشد. الگوریتم های خوشه بندی، صفحات وب را طوری خوشه بندی می نمایند که صفحات مشابه از لحاظ محتوا و ساختار در خوشه های یکسانی قرار بگیرند سپس جستجو برای یافتن اطلاعات خاص در خوشه هایی صورت می گیرد که به خواسته ی کاربر نزدیک تر می باشد. الگوریتم های رتبه بندی نیز براساس میزان نزدیکی ساختار و یا محتوای صفحات وب، برای هر صفحه یک معیار عددی قابل اندازه گیری در نظر می گیرند و صفحات به ترتیب رتبه ی محاسبه شده به کاربر ارائه خواهند شد. از طرفی به دلیل این که محیط گسترده ی وب به وسیله ی ساختمان داده ی گراف نمایش داده می شود و عملا هنگام وب کاوی یک عمل جستجو در این نوع گراف ها صورت می پذیرد و به دلیل این که این نوع از گراف ها یعنی گراف های وب، گراف های بسیار بزرگی هستند، لذا عملیات وب کاوی دارای پیچیدگی زمانی بالایی خواهد بود تا جایی که عملیات کاوش اطلاعات در این نوع گراف ها به یک مساله ی چند جمله ای غیر قطعی-سخت تبدیل می گردد. تا کنون روش های مختلفی جهت خوشه بندی و رتبه بندی صفحات وب پیشنهاد شده است. همچنین روش هایی که از ترکیب این دو روش جهت وب کاوی استفاده می کنند نیز مورد بررسی قرار گرفته است که بیشتر مبتنی بر محتوا هستند. در روش پیشنهادی تمرکز اصلی بر روی ساختار بوده و علت آن، این است که ارتباطات موجود مابین صفحات وب حاوی اطاعات ارزشمندی هستنند که می توان از آن ها جهت بهبود عملیات وب کاوی بهره برد. در روش پیشنهادی ابتدا گراف وب بر اساس شباهت های ساختاری و طی دو مرحله خوشه بندی شده و سپس هر کدام از خوشه ها بر اساس میزان ارزشمندی امتیازدهی می گردد و سپس عمل رتبه بندی به تمامی صفحات موجود در خوشه ها اعمال شده و در نهایت امتیاز و یا رتبه ی نهایی یک صفحه ی وب حاصل ضرب این دو مقدار خواهد بود. در نهایت صفحات وب بر اساس میزان رتبه ی نهایی به کاربر ارائه خواهد شد. نتایج حاصل از مقایسه ی الگوریتم پیشنهادی (gcrm) با سایر روش ها، بیان گر عملکرد خوب این الگوریتم در یافتن صفحات با کیفیت و همچنین بهبود عملیات وب کاوی و رتبه بندی می باشد. ازآن جایی که میزان کیفیت، پارامتر و دغدغه اصلی در زمینه ی وب کاوی می باشد، لذا در الگوریتم gcrm تلاش اصلی بر روی افزایش کیفیت صفحات یافت شده می باشد که با توجه به نتایج به -دست آمده، روش پیشنهادی در این زمینه موفق عمل کرده و دلیل اصلی آن استفاده از اطلاعات مفید پیوند ها، هم در مرحله ی خوشه بندی و هم در مرحله ی رتبه بندی می باشد، چرا که صفحات وب به میزان کیفیت شان از الگوهای ساختاری مشابهی بهره می گیرند و هر صفحه ی وبی که اطلاعات مفیدی در یک زمینه داشته باشد، به طور معمول با سایر صفحات با کیفیت در ارتباط خواهد بود.

منابع مشابه

یک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر

  The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...

متن کامل

ارائه یک الگوریتم بهبود یافته وب کاوی برای وب معنایی

این مقاله در حوزه داده کاوی و وب معنایی بوده و در آن روشی برای شخصی سازی صفحات وب براساس اصول داده کاوی و وب معنایی ارائه شده است. روش پیشنهادی، از لاگ مشاهده صفحات توسط کاربران به عنوان خوراک بخش داده کاوی، و از محتوای صفحات به عنوان ورودی واحد پردازش معنا استفاده می کند. نتایج حاصل از این دو فرآیند، با یکدیگر ترکیب شده و به عنوان صفحات پیشنهادی مدنظر کاربر، به او ارائه می شود. ایده استفاده از...

متن کامل

ارائه ی یک روش خوشه بندی سری های زمانی بر مبنای الگوریتم تکاملی دیفرانسیلی و تبدیل کسینوسی گسسته

با پیشرفت روز افزون تکنولوژی­های جمع آوری اطلاعات و امکان دسترسی به حجم عظیمی از داده همواره نیازمند روش­هایی برای تجزیه و تحلیل این حجم داده خام و استخراج اطلاعات مفید از آن می­باشیم.  امروزه خوشه­بندی داده به عنوان یکی از روش­های آنالیز و ساده سازی مجموعه داده­های بزرگ، مورد توجه بسیاری از محققین قرار گرفته است. در این میان خوشه­بندی سری­های زمانی با دقت مورد قبول، حائز اهمیت بسیاری می­باشد....

متن کامل

یک مدل خوشه بندی مبتنی بر folding جهت خوشه بندی تصاویر وب

با رشد بی سابقه تولید تصاویر دیجیتال و استفاده از منابع چندرسانه ای مانند صوت، عکس و فیلم، نیاز به جستجوی تصاویر و مطالب افزایش یافته است. پردازش نظام مند این اطلاعات پیش نیازی اساسی برای تحلیل، سازمان دهی و مدیریت موثر آن محسوب می شود. از طرفی با توجه به پیشرفت سریع در سخت افزار و نرم افزار، وب جهان گستر به عنوان یک مکانیزم انتشار برخط، به یک منبع چندرسانه ای در حال رشد تبدیل شده است و مجموعه ...

15 صفحه اول

یک الگوریتم خوشه بندی مشارکتی گرانشی جدید برای خوشه بندی مستندات وب

خوشه بندی داده، روشی برای تحلیل داده هاست که حجم بزرگی از داده ها را در گروه های معناداری از موضوعات به نام خوشه خلاصه می کند به نحوی که داده های موجود در هر خوشه، دارای حداکثر میزان شباهت به یکدیگر بر اساس یک معیار شباهت هستند و داده های موجود در خوشه های مختلف دارای حداکثر میزان اختلاف از یکدیگرند. خوشه بندی در بسیاری از کاربردها از جمله بیوانفورماتیک، بازشناسی الگو، پردازش تصویر، داده کاوی و...

ارائه یک شاخص اعتبار خوشه بندی جدید با استفاده از معیار فاصله جاکارد

تخمین تعداد بهینه خوشهها در دسته بندی بدون نظارت دادهها، از زمینههای چالش برانگیز برایمحققان در سالهای اخیر بوده که منجر به ارائه شاخص های اعتبار خوشه بندی متعدد شده است. اینشاخصها اغلب از دو معیار فشردگی و جدایش برای ارزیابی خوشه بندی انجام شده استفادهکه توسط ECAS می کنند. در این مقاله، یک معیار جدایش جدید برای شاخص اعتبار خوشهبندیفاضل و همکاران ] 1[ ارائه شده است، معرفی می گردد، که در آن از م...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده ریاضی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023