نام پژوهشگر: سارا مطیعی
سارا مطیعی محمدرضا میبدی
در سال های اخیر، برای بهره برداری از حجم وسیع داده های وب روش های وب کاوی معرفی شده اند. وب کاوی، به کارگیری روش های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می باشد. یکی از انواع داده کاوی، داده کاوی ساختار وب است که با استفاده از پیوندها اطلاعات جدیدی راجع به صفحات به دست می آورد، اما پیوندها اطلاعات کافی راجع به ارتباط بین صفحات به دست نمی دهند. یک راهکار مناسب برای بهبود نتایج روش های داده کاوی ساختار وب، به کارگیری داده های استفاده از وب و نحوه پیمایش کاربران علاوه بر پیوندها در این روش ها می باشد. در این پروژه دو روش برای داده کاوی ساختار وب ارایه می شود که با استفاده از ترکیب پیوندها و داده های استفاده از وب اطلاعات جدید راجع به صفحات و ارتباطشان به دست می آورند. روش اول مبتنی بر اتوماتای یادگیر توزیع شده و روش دوم مبتنی بر اتوماتای یادگیر سلولی است. هر دو روش پیشنهادی از دو مرحله کلی تشکیل شده است. در مرحله اول، با استفاده از اتوماتای یادگیر (توزیع شده یا سلولی)، پیوندهای بین صفحات و رفتار کاربران در مشاهده صفحات وب، ساختار ارتباطی صفحات وب به دست می آید. به آن معنی که صفحات مرتبط با یکدیگر و میزان ارتباط آنها تعیین می شود. در مرحله دوم، ساختار ارتباطی به دست آمده از مرحله قبل، در دو نوع از کاربردهای داده کاوی ساختار وب استفاده خواهد شد. کاربرد اول پیمایش موضوعی صفحات وب و کاربرد دوم تشخیص اجتماعات وب است. همچنین کارایی ساختار به دست آمده، پیمایشگر طراحی شده و اجتماعات وبی که با استفاده از روش های پیشنهادی تشخیص داده می شوند، با روش های مشابه مقایسه شده و رفتار آنها در شرایط گوناگون مورد بررسی قرار می گیرد.