الهام اسمعیلی

نام پژوهشگر: الهام اسمعیلی

طراحی و پیاده سازی روشی برای تعیین میزان مشابهت متنی در متون فارسی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده کامپیوتر و فناوری اطلاعات 1393
الهام اسمعیلی جمشید باقرزاده

آسانی به اشتراک گذاری اطلاعات از طریق اینترنت سبب شده که افراد در رابطه با موضوع مورد نظر خود جستوجو کنند و این کار اغلب اوقات منجر به استفاده مجدد از افکار و کارهای دیگران علی الخصوص در محیط های دانشگاهی گشته است. در حالی که ارائه راهکار های پیش گیرانه و اجرای آنها بسیار اهمیت دارد، تشخیص سرقت ادبی نیز به همان اندازه مهم و تاثیرگذار است. در این تحقیق سعی بر آن داشته ایم که با ارائه یک الگوریتم تشخیص مشابهت متنی، یک سیستم تشخیص سرقت ادبی را برای زبان فارسی تولید کنیم. برای این منظور ابتدا یک مجموعه داده متنی مناسب برای تحقیق در حوزه تشخیص سرقت ادبی، مطابق با آخرین راهکار های ارائه شده در این زمینه تهیه نمودیم. سپس، به توسعه سیستم با استفاده از معیار های مختلف تشخیص مشابهت متنی پرداختیم. نتایج بدست آمده حاکی از این است که معیار مشابهت کسینوسی تفاوت قابل توجهی با دو معیار دیگر دارد و معیار های مشابهت جاکارد و دایس به مراتب نتایج بهتری در تشخیص سرقت ادبی ارائه می دهند. همچنین با مقایسه نتایج حاصل از مقایسه عملکرد طول شینگل های مختلف مشخص شد، حداقل طول شینگل مناسب برای تشخیص سرقت ادبی ? است. این گزارش تمامی مراحل کار، از جمله مرور ادبیات تحقیق، روند تولید مجموعه داده، روش های مورد استفاده و همچنین نتیجه گیری و ارزیابی سیستم توسعه را شامل می شود.