طراحی و پیاده سازی روشی برای تعیین میزان مشابهت متنی در متون فارسی

پایان نامه
چکیده

آسانی به اشتراک گذاری اطلاعات از طریق اینترنت سبب شده که افراد در رابطه با موضوع مورد نظر خود جستوجو کنند و این کار اغلب اوقات منجر به استفاده مجدد از افکار و کارهای دیگران علی الخصوص در محیط های دانشگاهی گشته است. در حالی که ارائه راهکار های پیش گیرانه و اجرای آنها بسیار اهمیت دارد، تشخیص سرقت ادبی نیز به همان اندازه مهم و تاثیرگذار است. در این تحقیق سعی بر آن داشته ایم که با ارائه یک الگوریتم تشخیص مشابهت متنی، یک سیستم تشخیص سرقت ادبی را برای زبان فارسی تولید کنیم. برای این منظور ابتدا یک مجموعه داده متنی مناسب برای تحقیق در حوزه تشخیص سرقت ادبی، مطابق با آخرین راهکار های ارائه شده در این زمینه تهیه نمودیم. سپس، به توسعه سیستم با استفاده از معیار های مختلف تشخیص مشابهت متنی پرداختیم. نتایج بدست آمده حاکی از این است که معیار مشابهت کسینوسی تفاوت قابل توجهی با دو معیار دیگر دارد و معیار های مشابهت جاکارد و دایس به مراتب نتایج بهتری در تشخیص سرقت ادبی ارائه می دهند. همچنین با مقایسه نتایج حاصل از مقایسه عملکرد طول شینگل های مختلف مشخص شد، حداقل طول شینگل مناسب برای تشخیص سرقت ادبی ? است. این گزارش تمامی مراحل کار، از جمله مرور ادبیات تحقیق، روند تولید مجموعه داده، روش های مورد استفاده و همچنین نتیجه گیری و ارزیابی سیستم توسعه را شامل می شود.

منابع مشابه

طراحی و پیاده سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه‌ای

دادگان‌های گفتاری نقش مهمی را در تحقیقات و پیاده‌سازی‌های مربوط با زبان‌شناسی رایانه‌ای ایفا می‌کنند. در این مقاله، پس از مطالعه واحدهای آوایی مختلف قابل استفاده برای این منظور، مراحل تهیه یک دادگان دایفون ویژه زبان فارسی ارایه می‌شود. برای این منظور، در ابتدا پایگاه واژگانی که دایفون‌های زبان را شامل شوند، تهیه گردید. سپس نرم‌افزاری طراحی و پیاده‌سازی شد که با گرفتن صورت‌های واجی واژه‌ها، دایف...

متن کامل

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

طراحی و پیاده سازی سیستم مکان مبنا برای تبلیغات هدفمند

امروزه، تبلیغات تلفن همراه رشد زیادی داشته است. این تبلیغات ابزار کارایی برای ترویج محصولات و خدمات شرکت‌های ملی یا محلی شده است. یکی از خصوصیات تلفن‌های همراه دسترسی به این ابزار در شرایط و زمان‌های مختلف است. شرکت‌ها با صرف هزینه‌های زیاد و با تهیه اطلاعات متنی یا تصویری مهیج به تبلیغ محصولات خود می‌پردازند. در این تحقیق سیستمی برای تعامل کارآمدتر و مؤثرتر بین شرکت‌ها و مشتریان طراحی و پیاده‌...

متن کامل

طراحی و پیاده سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه ای

دادگان های گفتاری نقش مهمی را در تحقیقات و پیاده سازی های مربوط با زبان شناسی رایانه ای ایفا می کنند. در این مقاله، پس از مطالعه واحدهای آوایی مختلف قابل استفاده برای این منظور، مراحل تهیه یک دادگان دایفون ویژه زبان فارسی ارایه می شود. برای این منظور، در ابتدا پایگاه واژگانی که دایفون های زبان را شامل شوند، تهیه گردید. سپس نرم افزاری طراحی و پیاده سازی شد که با گرفتن صورت های واجی واژه ها، دایف...

متن کامل

طراحی و پیاده سازی دستگاه تعیین دانه بندی مواد معدنی در کارخانه های فرآوری مواد معدنی

  آگاهی از میزان دانه‌بندی مواد معدنی در کارخانه‌های فرآوری مواد معدنی یکی از پارامترهای مهم در سنجش عملکرد سیستم‌های خردایش است. امروزه این امر در کارخانه‌های فرآوری با روش دستی و با سرند کردن انجام می‌شود که به طور قطع دارای خطای نمونه برداری و آنالیز همراه بوده و مستلزم صرف هزینه و زمان نیز خواهد بود. در این مقاله ، سیستمی طراحی شده است که قادر خواهد بود میزان دانه‌بندی مواد معدنی در کارخانه...

متن کامل

تعیین مرز و نوع عبارات نحوی در متون فارسی

Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammat...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده کامپیوتر و فناوری اطلاعات

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023