نام پژوهشگر: بنفشه محمدیان
بنفشه محمدیان میر محسن پدرام
در سالیان اخیر به دلیل پیشرفت فناوری اطلاعات به خصوص اینترنت در دسترس بودن اطلاعات افزایش یافته است. داده های متنی حجم وسیعی از این اطلاعات را در بر می گیرند. کپی کردن داده های متنی به راحتی صورت می پذیرد. در نتیجه سوء استفاده از این اطلاعات به راحتی امکان پذیر می باشد. هدف ما یافتن افراد متقلب و برخورد با آن هاست نه مخفی کردن و یا حفاظت از اطلاعات. متدهای زیادی برای تشخیص تقلب در متن بیان شده اند. متدهای فضای برداری جهت تشخیص شباهت اسناد موجود در یک پیکره مورد استفاده قرار می گیرند. اما این روش ها از حل دو مشکل اساسی ناشی از پردازش زبان های طبیعی، یعنی کلمات هم معنی و کلمات چندمعنی عاجزند. با استفاده از روش های آنالیز معانی مخفی مانند تجزیه بردارهای ویژه تشخیص شباهت به کمک کشف معانی مخفی موجود در اسناد صورت می پذیرد. با این حال تجزیه بردارهای ویژه حجم محاسباتی بسیار بالایی دارد و در داده های نسبتا زیاد زمان اجرایی بسیار بالایی دارد. در این پژوهش با دو رویکرد پردازش زبان های طبیعی مانند حذف ایست-واژه و نرمال سازی متن و بازیابی اطلاعات مانند خوشه بندی سعی در رفع این مشکلات کردیم. در دادگان فارسی جهت پردازش زبان های طبیعی به مشکلاتی برخوردیم و پیشنهاداتی در زمینه رفع آن ها ارائه و اجرا شد. در بخش خوشه بندی از مدل سازی موضوعی جهت مدل کردن دادگان استفاده شده است. اسناد با موضوعات یکسان در یک خوشه قرار گرفته و هر خوشه به صورت جداگانه مورد بررسی برای یافتن موارد تقلب قرار می گیرد. سیستم پیشنهادی را بر روی دو زبان فارسی و انگلیسی اعمال کردیم. ابتدا دادگان را بر اساس روش های پیشنهادی نرمال کرده، سپس اسناد براساس موضوع خوشه بندی شده و در نهایت در هز خوشه تشخیص سرقت علمی صورت می گیرد. در زبان انگلیسی به میزان f_1 93 درصد و در زبان فارسی به 90 درصد دست یافتیم.