نام پژوهشگر: کامران بدیع
رقیه عظیم نژاد میر محسن پدرام
روشهای هرزهنگاری وب قصد دارند برخی صفحات را بالاتر از آنچه آن?ها سزاور هستند، رتبه?بندی نمایند و در نتیجه به رتبهای نالایق در نتایج جستجو دست یابند. حضور صفحات هرز در نتایج بالای پرسوجوها نه تنها کیفیت بازیابی موتورهای جستجو را تنزل میدهد بلکه به صفحات وب دیگری که میبایست بالاتر رتبهبندی شوند آسیب میرساند. بنابراین صفحاتی که چنین راهکارهایی را به کار میبرند باید تشخیص داده شوند. با این حال، این امر کار آسانی نیست زیرا روشهای هرزهنگاری نیز همراه با روشهای ضدهرزهنگاری بهبود یافته است و هیچ روشی که بهطور کامل بتواند تمام انواع صفحات هرز را تشخیص دهد وجود ندارد. در این پژوهش از طبقهبندی همافزایی برای تشخیص هرز صفحات وب استفاده شده است. سیستمهای تشخیص هرز صفحات قوی مبتنی بر یادگیری ماشین به نمونههای برچسبدار آموزشی زیادی نیاز دارند؛ حال آنکه تهیه نمونههای برچسبدار کاری پرهزینه و زمانبر ولی جمعآوری نمونههای بدون برچسب نسبتا آسان است. به همین منظور در این پژوهش سعی شده است از نمونههای بدونبرچسب طی فرایند آموزش استفاده شود. پیش از آموزش یک مرحله پیشپردازش انجام شده است. چون دادگان مورد استفاده نامتوازن است، در مرحله پیشپردازش تلاش شده دادههای نویزی حذف شوند تا توازن بین دادههای کلاسها و در نتیجه کارایی تشخیص صفحات هرز بهبود داده شود. در مرحله آموزش از سه طبقهبند بیز ساده به عنوان طبقهبند پایه استفاده شده است و هر یک از این طبقهبندها در طول آموزش از طریق دادههای بدونبرچسبی که توافق تصمیمگیری و بیشترین تنوع را در برآورد احتمال کلاس دو طبقهبند دیگر دارا میباشند بهبود داده میشود. در روش پیشنهادی سعی شده است زمینههای مشترک را درحالیکه تفاوتهای بین الگوریتمهای آموزشی را حفظ مینماید جستجو نماید.????????????????????????????????????????????????????