نام پژوهشگر: الهام اسمعیلی
الهام اسمعیلی جمشید باقرزاده
آسانی به اشتراک گذاری اطلاعات از طریق اینترنت سبب شده که افراد در رابطه با موضوع مورد نظر خود جستوجو کنند و این کار اغلب اوقات منجر به استفاده مجدد از افکار و کارهای دیگران علی الخصوص در محیط های دانشگاهی گشته است. در حالی که ارائه راهکار های پیش گیرانه و اجرای آنها بسیار اهمیت دارد، تشخیص سرقت ادبی نیز به همان اندازه مهم و تاثیرگذار است. در این تحقیق سعی بر آن داشته ایم که با ارائه یک الگوریتم تشخیص مشابهت متنی، یک سیستم تشخیص سرقت ادبی را برای زبان فارسی تولید کنیم. برای این منظور ابتدا یک مجموعه داده متنی مناسب برای تحقیق در حوزه تشخیص سرقت ادبی، مطابق با آخرین راهکار های ارائه شده در این زمینه تهیه نمودیم. سپس، به توسعه سیستم با استفاده از معیار های مختلف تشخیص مشابهت متنی پرداختیم. نتایج بدست آمده حاکی از این است که معیار مشابهت کسینوسی تفاوت قابل توجهی با دو معیار دیگر دارد و معیار های مشابهت جاکارد و دایس به مراتب نتایج بهتری در تشخیص سرقت ادبی ارائه می دهند. همچنین با مقایسه نتایج حاصل از مقایسه عملکرد طول شینگل های مختلف مشخص شد، حداقل طول شینگل مناسب برای تشخیص سرقت ادبی ? است. این گزارش تمامی مراحل کار، از جمله مرور ادبیات تحقیق، روند تولید مجموعه داده، روش های مورد استفاده و همچنین نتیجه گیری و ارزیابی سیستم توسعه را شامل می شود.