نام پژوهشگر: علی نبیان خوزانی
علی نبیان خوزانی علی رضا عصاره
امروزه صفحات گسترده وب به بزرگ ترین منبع اطلاعات برای انسان تبدیل شده است. با افزایش تعداد کاربران وب و همچنین وب سایت ها، نیاز به دسته بندی صفحات وب روز به روز بیش تر احساس می شود. در این پایان نامه، ابتدا مجموعه داده مناسبی از چهار گروه از صفحات وب استخراج شده است. در ادامه از اطلاعات موجود در متن، ساختارو آدرس صفحات وب استفاده شده است. پس از پیش پردازش اطلاعات ورودی و حذف کلمات غیر مرتبط موجود در صفحات، فرآیند انتخاب ویژگی و حذف نویز انجام شده است. در ادامه با بهره گیری از روش های استخراج ویژگی، ابعاد مجموعه ی داده کاهش داده شده است.با توجه به اینکه مجموعه داده ورودی یک مجموعه داده ترکیبی است و اطلاعات و ویژگی های این مجموعه داده از منابع مختلفی نظیر آدرس، متن و ساختار صفحات وب استخراج شده اند، از مفهوم ترکیب دسته بندی کننده ها برای ایجاد یک سیستم دسته بندی کننده صفحات وب کارا استفاده شده است. در سیستم ترکیبی پیشنهادی ابتدا دسته بندی کننده مناسب هر مجموعه داده شناسایی شده و در مرحله تصمیم گیری، اطلاعات مرتبط با هر دسته بند به آن دسته بند ارسال می شود. در نهایت، با رای گیری بین این دسته بندی کننده های پایه تصمیم نهایی اتخاذ می شود. نتایج ارزیابی های صورت گرفته نشان دهنده کارایی مناسب و قابل قبول سیستم ترکیبی پیشنهادی است. این سیستم با مقدار میانگین معیارfبرابر با 0.93 کاراتر از سیستم های مشابه عملیات دسته بندی خودکار صفحات وب را انجام داده است.