نام پژوهشگر: احسان ضمیری
احسان ضمیری محسن کاهانی
امروزه پست الکترونیکی یا ایمیل یکی از سریع ترین و اقتصادی ترین راهها برای ارتباط می باشد. با این حال، افزایش کاربران پست الکترونیکی باعث افزایش بی سابقهای در تعداد هرزنامه ها در چندین سال اخیر شده است. در چند ساله ی اخیر تلاش های زیادی برای فیلترکردن هرزنامه صورت گرفته است که اغلب آنها از روش های آماری و یادگیری ماشینی استفاده کرده اند که اغلب نیازمند انبوه داده برای عملیات یادگیری می باشند. هم چنین در این روشها برای فیلترکردن هرزنامه ، از معنای محتوای ایمیل و نیز نحوه ی تعاملات بین فرستندگان هرزنامه و فرستندگان معتبر، استفاده نشده است.در این پایان نامه دو روش برای فیلترکردن هرزنامه ارائه شده است. در روش اول یک آنتولوژی از مفاهیم متداول هرزنامه ساخته می شود. مشابهت معنایی گراف موضوعی متن و نیز سرآیند ایمیل با این آنتولوژی به همراه مشابهت معنایی بین سرآیند و بدنه ی ایمیل، سه مولفه برای فیلترکردن معنایی ایمیل می باشند. محاسبه ی مشابهت معنایی با استفاده از آنتولوژی زمینه ی wordnet صورت می گیرد. در روش دوم از گزارشات تراکنش ایمیل بین فرستندگان ایمیل به منظور ساخت یک شبکه ی اجتماعی ایمیل استفاده می شود. سپس یکسری از ویژگی های متمایز کننده ی فرستندگان هرزنامه و فرستندگان معتبر ارائه می شود. سرانجام از این ویژگی ها به منظور دسته بندی ایمیل های هرزنامه و ایمیل های معتبر استفاده می شود. از آنجائی که هر یک از این دو فیلتر بر روی ویژگی های متمایزی تمرکز دارند، ترکیب این دو فیلتر به صورت سری منجر به نتایج کامل تری می شود.فیلتر مبتنی بر شبکه ی اجتماعی در فیلترکردن هرزنامه دقت بیش از 93 درصد از خود نشان داده است. این نتیجه قابل مقایسه با فیلترهای مبتنی بر یادگیری می باشد. همین طور فیلتر مبتنی بر مشابهت معنایی به صورت مکملی برای فیلتر مبتنی بر شبکه ی اجتماعی می باشد، به طوری که دقت بالای 96 درصد نتیجه ی ترکیب این دو فیلتراست.