بنفشه محمدیان

نام پژوهشگر: بنفشه محمدیان

شناسایی سرقت علمی در اسناد فارسی بر اساس مدل سازی موضوعی

پایان نامه دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر 1393
بنفشه محمدیان میر محسن پدرام

در سالیان اخیر به دلیل پیشرفت فناوری اطلاعات به خصوص اینترنت در دسترس بودن اطلاعات افزایش یافته است. داده های متنی حجم وسیعی از این اطلاعات را در بر می گیرند. کپی کردن داده های متنی به راحتی صورت می پذیرد. در نتیجه سوء استفاده از این اطلاعات به راحتی امکان پذیر می باشد. هدف ما یافتن افراد متقلب و برخورد با آن هاست نه مخفی کردن و یا حفاظت از اطلاعات. متدهای زیادی برای تشخیص تقلب در متن بیان شده اند. متدهای فضای برداری جهت تشخیص شباهت اسناد موجود در یک پیکره مورد استفاده قرار می گیرند. اما این روش ها از حل دو مشکل اساسی ناشی از پردازش زبان های طبیعی، یعنی کلمات هم معنی و کلمات چندمعنی عاجزند. با استفاده از روش های آنالیز معانی مخفی مانند تجزیه بردارهای ویژه تشخیص شباهت به کمک کشف معانی مخفی موجود در اسناد صورت می پذیرد. با این حال تجزیه بردارهای ویژه حجم محاسباتی بسیار بالایی دارد و در داده های نسبتا زیاد زمان اجرایی بسیار بالایی دارد. در این پژوهش با دو رویکرد پردازش زبان های طبیعی مانند حذف ایست-واژه و نرمال سازی متن و بازیابی اطلاعات مانند خوشه بندی سعی در رفع این مشکلات کردیم. در دادگان فارسی جهت پردازش زبان های طبیعی به مشکلاتی برخوردیم و پیشنهاداتی در زمینه رفع آن ها ارائه و اجرا شد. در بخش خوشه بندی از مدل سازی موضوعی جهت مدل کردن دادگان استفاده شده است. اسناد با موضوعات یکسان در یک خوشه قرار گرفته و هر خوشه به صورت جداگانه مورد بررسی برای یافتن موارد تقلب قرار می گیرد. سیستم پیشنهادی را بر روی دو زبان فارسی و انگلیسی اعمال کردیم. ابتدا دادگان را بر اساس روش های پیشنهادی نرمال کرده، سپس اسناد براساس موضوع خوشه بندی شده و در نهایت در هز خوشه تشخیص سرقت علمی صورت می گیرد. در زبان انگلیسی به میزان f_1 93 درصد و در زبان فارسی به 90 درصد دست یافتیم.