نام پژوهشگر: کامران بدیع

تشخیص هرز صفحات وب با استفاده از هم افزایی کلاس بندهای بیزی
پایان نامه دانشگاه تربیت معلم - تهران - دانشکده فنی 1391
  رقیه عظیم نژاد   میر محسن پدرام

روش‏های هرزه‏نگاری وب قصد دارند برخی صفحات را بالاتر از آنچه آن?ها سزاور هستند، رتبه?بندی نمایند و در نتیجه به رتبه‏ای نالایق در نتایج جستجو دست یابند. حضور صفحات هرز در نتایج بالای پرس‏و‏جو‏ها نه تنها کیفیت بازیابی موتور‏های جستجو را تنزل می‏دهد بلکه به صفحات وب دیگری که می‏بایست بالاتر رتبه‏بندی شوند آسیب می‏رساند. بنابراین صفحاتی که چنین راهکار‏هایی را به کار می‏برند باید تشخیص داده شوند. با این حال، این امر کار آسانی نیست زیرا روش‏های هرزه‏نگاری نیز همراه با روش‏های ضد‏هرزه‏نگاری بهبود یافته است و هیچ روشی که به‏طور کامل بتواند تمام انواع صفحات هرز را تشخیص دهد وجود ندارد. در این پژوهش از طبقه‏بندی هم‏افزایی برای تشخیص هرز صفحات وب استفاده شده است. سیستم‏های تشخیص هرز صفحات قوی مبتنی بر یادگیری ماشین به نمونه‏های برچسب‏دار آموزشی زیادی نیاز دارند؛ حال آنکه تهیه نمونه‏های برچسب‏دار کاری پرهزینه و زمان‏بر ولی جمع‏آوری نمونه‏های بدون برچسب نسبتا آسان است. به همین منظور در این پژوهش سعی شده است از نمونه‏های بدون‏برچسب طی فرایند آموزش استفاده شود. پیش از آموزش یک مرحله پیش‏پردازش انجام شده است. چون دادگان مورد استفاده نامتوازن است، در مرحله پیش‏پردازش تلاش شده داده‏های نویزی حذف شوند تا توازن بین داده‏های کلاس‏ها و در نتیجه کارایی تشخیص صفحات هرز بهبود داده شود. در مرحله آموزش از سه طبقه‏بند بیز ساده به عنوان طبقه‏بند پایه استفاده شده است و هر یک از این طبقه‏بند‏ها در طول آموزش از طریق داده‏های بدون‏برچسبی که توافق تصمیم‏گیری و بیشترین تنوع را در برآورد احتمال کلاس دو طبقه‏بند دیگر دارا می‏باشند بهبود داده می‏شود. در روش پیشنهادی سعی شده است زمینه‏های مشترک را درحالی‏که تفاوت‏های بین الگوریتم‏های آموزشی را حفظ می‏نماید جستجو نماید.????????????????????????????????????????????????????