نرگس کتیرایی

نام پژوهشگر: نرگس کتیرایی

کشف سرقت ادبی در متن

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1392
نرگس کتیرایی محمدعلی منتظری

با ظهور کامپیوتر و گسترش روز افزون اینترنت، دسترسی به ایده ها، مقالات، مستندات و دست نوشته های دیگران آسان تر گردیده است. این امر موجب تبادل سریع اطلاعات و در مقابل، سبب آسان تر شدن سرقت ادبی یا plagiarism شده است. از آنجا که در دانشگاه ها و سایر مراکز آموزشی، منابع علمی با سهولت بیشتری در دسترس کاربران قرار می گیرند، موضوع سرقت ادبی در این مراکز پررنگ تر و بالطبع از حساسیت بیشتری نیز برخوردار است. با توجه به این موضوع و نیز اهمیت رعایت حقوق افراد، از جمله نویسندگان و محققان، در سال های اخیر، پژوهشگران تحقیقاتی را جهت ارائه ی روش هایی برای کشف سرقت ادبی یا plagiarism detection، در متونی مانند پایان نامه ها، مقالات و سایر گزارشات علمی، آغاز و در ادامه تلاش خود را به سمت افزایش دقت روش ها معطوف داشته اند. دو مسئله در مراحل کشف سرقت ادبی مهم و مورد بحث است. اولین مسئله تعداد متونی است که مورد مقایسه قرار می گیرند. این متون گاهی بسیار زیاد و به چند هزار می رسد. بنابراین اولین گام، یافتن متون اصلی ایی است که احتمال تقلب متن مشکوک از آن ها بیشتر است. یکی از راه کارهای مطرح در کاهش تعداد مقایسه ها، طبقه بندی متون است. زیرا به طور طبیعی افراد از متون هم موضوع با کار خود استفاده می نمایند. مسئله ی دوم در کشف سرقت ادبی، مکان یابی دقیق عبارت های سرقت شده می باشد. در همین راستا در این پایان نامه، یک روش دو فازی، که هر کدام شامل چند مرحله می باشد، جهت تشخیص سرقت ادبی پیشنهاد گردیده است. در فاز اول، یک طبقه بند شبکه ی عصبی برای طبقه بندی متون تک برچسبه ارائه شده است. این طبقه بند از قاعده ی رقابتی و تصحیح خطا و یک دنباله ی هندسی برای تصحیح اوزان بین کلمات و موضوعات استفاده می کند. با این طبقه بند، از آنجا که هر متن مشکوک تنها با متون هم طبقه خود مقایسه می شود، تعداد مقایسه های متن مشکوک و متون اصلی کاهش می یابد. در فاز دوم، پس از پیش پردازش متون، در ابتدا به دلیل زیاد بودن احتمالی متون اصلی مربوط به طبقه ی متن مشکوک، تعدادی ازآن ها، که به متن مشکوک شبیه تر هستند، یافت می شود. در مرحله ی دوم، با استفاده از جملات و کلمات کلیدی مشابه در هر جفت جمله ی مربوط به متن مشکوک و اصلی، فرمولی برای یافتن درصد شباهت دو جمله، ارائه می شود. در مرحله ی سوم، با استفاده از یک حد آستانه و توالی جملات مشابه، مکان عبارات تقلب شده در دو متن، یافت می شود. در مرحله ی آخر، به دلیل وجود برخی از خطاهای احتمالی و هچنین گسسته یافت شدن برخی از عبارات، یک الگوریتم پس پردازش سه مرحله ای بر روی عبارات کشف شده، اعمال می شود. روش پیشنهادی در این پایان نامه، برای کشف تقلب، در متونی که نوع تقلب آن ها کلمه به کلمه و یا با ابهام کم می باشد، ارائه شده است. مقایسه ی این روش با کارهای انجام شده نیز در دو فاز انجام شده است. طبقه بند ارائه شده، نسبت به روش نزدیکترین همسایه، دقت بسیار بهتری دارد. این طبقه بند، در زمانی که تعداد موضوعات زیاد است، نتایج بهتری را نسبت به روش بیز ساده نشان می دهد، اما نسبت به ماشین بردار پشتیبان ضعیف عمل می کند. مقایسه ی فاز دوم، با چهار نفر برتر مسابقه ی کشف سرقت ادبی pan10، نشان می دهد که این الگوریتم در مورد تشخیص تقلب های کلمه به کلمه خوب عمل می کند و بعد از نفر اول نسبت به دیگران نتیجه بهتری دارد. در تقلب با ابهام کم، درصد فراخوانی این الگوریتم، نسبت به هر چهار نفر بهتر بوده، اما نیاز به کار بیشتر برای شناسایی یکسره ی عبارات و بهبود دقت دارد.

First 15 pages