نام پژوهشگر: زینب فرهمندپور
زینب فرهمندپور هومان نیک مهر
تشخیص هویت نویسنده، یک مساله ی سبک شناسی است که سعی می کند یک متن را که نویسنده ی آن ناشناس است، به نویسنده ی واقعی آن متن نسبت دهد. این موضوع در زبان های مختلفی پیاده سازی شده و مورد بحث قرار گرفته ولی در زبان فارسی این چنین به آن پرداخته نشده بود. آنچه در این پایان نامه مورد بررسی قرار می گیرد طراحی و پیاده سازی یک سیستم تشخیص نویسنده بر اساس سبک نوشتاری فارسی است. در این پایان نامه علاوه بر طراحی و پیاده سازی سیستم تشخیص نویسنده متن ناشناخته، مطالعه ای روی مقایسه ی روش های یادگیری ماشین برای تشخیص هویت نویسنده انجام شده است. در این تحقیق 7 روش دسته بندی delta، k-nearest neighbors (knn)، linear discriminant analysis (lda)، درخت تصمیم گیری، شبکه های عصبی، ترکیب الگوریتم ژنتیک و knn، ترکیب الگوریتم رقابت استعماری و knn روی 2 پایگاه داده جمع آوری شده با هم مقایسه شدند. 4 دسته ویژگی که شامل ویژگی های واژگانی، نحوی، معنایی و وابسته به کاربرد می باشند از متن های پایگاه داده استخراج شدند. الگوریتم رقابت کشورهای استعماری نیز جزو ایده ها و روش های جدید می باشد که به علت سرعت همگرایی بالا، این پایان نامه به آن پرداخته است نتایج حاصل از مطالعات انجام شده در این پایان نامه نشان داد که ویژگی های نحوی، کارایی بیشتری را در بین سایر ویژگی ها دارد. در بین ویژگی های نحوی استفاده شده در این پایان نامه، توزیع عبارات اسمی، قیدی و صفت که توسط ما طراحی شده بود و توزیع کاراکترهای نقطه گذاری بیشترین تاثیر را در دسته بندی داشتند. در بین ویژگی های واژگانی، میانگین طول کاراکترهای جملات و تعداد تکرار bi-gram مورد نظر در متن بهتر از ویژگی های دیگر واژگانی عمل کردند. توزیع افزوده ها (حروف ربط) از ویژگی های معنایی، نیز جزو تاثیرگذارترین ویژگی ها در دسته بندی بودند نتایج حاصله نشان داد که روش دسته بندی lda بهترین دقت را داشت.