طراحی و پیاده سازی روشی برای تعیین میزان مشابهت متنی در متون فارسی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده کامپیوتر و فناوری اطلاعات
- نویسنده الهام اسمعیلی
- استاد راهنما جمشید باقرزاده وحید سلوک
- سال انتشار 1393
چکیده
آسانی به اشتراک گذاری اطلاعات از طریق اینترنت سبب شده که افراد در رابطه با موضوع مورد نظر خود جستوجو کنند و این کار اغلب اوقات منجر به استفاده مجدد از افکار و کارهای دیگران علی الخصوص در محیط های دانشگاهی گشته است. در حالی که ارائه راهکار های پیش گیرانه و اجرای آنها بسیار اهمیت دارد، تشخیص سرقت ادبی نیز به همان اندازه مهم و تاثیرگذار است. در این تحقیق سعی بر آن داشته ایم که با ارائه یک الگوریتم تشخیص مشابهت متنی، یک سیستم تشخیص سرقت ادبی را برای زبان فارسی تولید کنیم. برای این منظور ابتدا یک مجموعه داده متنی مناسب برای تحقیق در حوزه تشخیص سرقت ادبی، مطابق با آخرین راهکار های ارائه شده در این زمینه تهیه نمودیم. سپس، به توسعه سیستم با استفاده از معیار های مختلف تشخیص مشابهت متنی پرداختیم. نتایج بدست آمده حاکی از این است که معیار مشابهت کسینوسی تفاوت قابل توجهی با دو معیار دیگر دارد و معیار های مشابهت جاکارد و دایس به مراتب نتایج بهتری در تشخیص سرقت ادبی ارائه می دهند. همچنین با مقایسه نتایج حاصل از مقایسه عملکرد طول شینگل های مختلف مشخص شد، حداقل طول شینگل مناسب برای تشخیص سرقت ادبی ? است. این گزارش تمامی مراحل کار، از جمله مرور ادبیات تحقیق، روند تولید مجموعه داده، روش های مورد استفاده و همچنین نتیجه گیری و ارزیابی سیستم توسعه را شامل می شود.
منابع مشابه
طراحی و پیاده سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانهای
دادگانهای گفتاری نقش مهمی را در تحقیقات و پیادهسازیهای مربوط با زبانشناسی رایانهای ایفا میکنند. در این مقاله، پس از مطالعه واحدهای آوایی مختلف قابل استفاده برای این منظور، مراحل تهیه یک دادگان دایفون ویژه زبان فارسی ارایه میشود. برای این منظور، در ابتدا پایگاه واژگانی که دایفونهای زبان را شامل شوند، تهیه گردید. سپس نرمافزاری طراحی و پیادهسازی شد که با گرفتن صورتهای واجی واژهها، دایف...
متن کاملارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...
متن کاملطراحی و پیاده سازی سیستم مکان مبنا برای تبلیغات هدفمند
امروزه، تبلیغات تلفن همراه رشد زیادی داشته است. این تبلیغات ابزار کارایی برای ترویج محصولات و خدمات شرکتهای ملی یا محلی شده است. یکی از خصوصیات تلفنهای همراه دسترسی به این ابزار در شرایط و زمانهای مختلف است. شرکتها با صرف هزینههای زیاد و با تهیه اطلاعات متنی یا تصویری مهیج به تبلیغ محصولات خود میپردازند. در این تحقیق سیستمی برای تعامل کارآمدتر و مؤثرتر بین شرکتها و مشتریان طراحی و پیاده...
متن کاملطراحی و پیاده سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه ای
دادگان های گفتاری نقش مهمی را در تحقیقات و پیاده سازی های مربوط با زبان شناسی رایانه ای ایفا می کنند. در این مقاله، پس از مطالعه واحدهای آوایی مختلف قابل استفاده برای این منظور، مراحل تهیه یک دادگان دایفون ویژه زبان فارسی ارایه می شود. برای این منظور، در ابتدا پایگاه واژگانی که دایفون های زبان را شامل شوند، تهیه گردید. سپس نرم افزاری طراحی و پیاده سازی شد که با گرفتن صورت های واجی واژه ها، دایف...
متن کاملطراحی و پیاده سازی دستگاه تعیین دانه بندی مواد معدنی در کارخانه های فرآوری مواد معدنی
آگاهی از میزان دانهبندی مواد معدنی در کارخانههای فرآوری مواد معدنی یکی از پارامترهای مهم در سنجش عملکرد سیستمهای خردایش است. امروزه این امر در کارخانههای فرآوری با روش دستی و با سرند کردن انجام میشود که به طور قطع دارای خطای نمونه برداری و آنالیز همراه بوده و مستلزم صرف هزینه و زمان نیز خواهد بود. در این مقاله ، سیستمی طراحی شده است که قادر خواهد بود میزان دانهبندی مواد معدنی در کارخانه...
متن کاملتعیین مرز و نوع عبارات نحوی در متون فارسی
Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammat...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده کامپیوتر و فناوری اطلاعات
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023