نام پژوهشگر: علی اصغر نوروزی مقدمی طیول
علی اصغر نوروزی مقدمی طیول سمیه علیزاده
هرزنویسی وب، فعالیت های افراد برای گمراه کردن موتور های جست و جو در رتبه بندی صفحات، بیشتر از آن چه که استحقاق دارند، می باشد. هرزنویسان از تکنیک های مختلفی برای بالا بردن رتبه صفحه خود بهره می برند. روش های مختلفی برای تشخیص هرزنویسی پیشنهاد شده است. پیش نیاز اکثر این روش ها این است که تعداد زیادی صفحه وب دارای برچسب هرزنوشته یا غیر هرزنوشته موجود باشد. استخراج داده از وب کار سختی نیست ولی بررسی و برچسب زنی این داده ها کاری بسیار زمان بر و خطادار است. در این پژوهش سعی می شود با پیشنهاد روش جدیدی این مشکل حل شود. پیشنهاد این پژوهش، استفاده از یادگیری نیمه نظارتی به جای برچسب زنی می باشد. در این روش، از تعداد بسیار کمی از داده های دارای برچسب و تعداد زیادی داده بدون برچسب برای برچسب زنی استفاده می شود. الگوریتم مورد استفاده در این روش، الگوریتم em با دسته بندی بیزین ساده می باشد. ارزیابی روی داده های webspam-uk2007 انجام می شود. آزمایشات نشان می دهند که این روش، نه تنها مشکل زمانی برچسب زنی را حل می کند، بلکه کارایی و دقت بالایی در تعیین برچسب داده ها دارد.