چارچوبی جدید برای بازیابی اطلاعات به منظور استفاده در بازیابی صدای گفتاری فارسی

پایان نامه
چکیده

موضوع این پایان‏نامه بررسی مسأله بازیابی اطلاعات در متن حاصل از بازشناسی گفتار می‏باشد. یک ورودی مسأله، تعدادی سند متنی که از بازشناسی گفتار به دست آمده‏اند می‏باشد. ورودی دوم نیز یک کوئری است. هدف این است که کوئری را در اسناد جستجو نموده و اسناد مرتبط را پیدا کنیم. مشکلی که در اینجا وجود دارد این است که متن حاصل از بازشناسی گفتار، همواره دارای درصد خطایی در بازشناسی است که موجب می‏شود کلمات دچار خطا شده، معادل با کوئری در نظر گرفته نشوند و در نتیجه سند، مرتبط تشخیص داده نشود. در این پایان‏نامه یک روش بازیابی اطلاعات مقاوم نسبت به خطای بازشناسی گفتار ارائه شده است. ایده کلی این است که برای هر کلمه مهم موجود در سند، تعدادی کلمه مشابه در نظر بگیریم. به این ترتیب به ازای هر سند، تعدادی سند جایگزین به دست میآید. با توجه به تعداد زیاد اسناد جایگزین، در مرحله بعد، موثرترین اسناد جایگزین انتخاب می‏گردند. این اسناد جایگزین به اسناد فعلی اضافه گردیده و در نهایت الگوریتم بازیابی روی مجموعه جدید اسناد اعمال می‏گردند. برای هر یک از مراحل یافتن کلمات مهم، یافتن کلمات مشابه و به دست آوردن موثرترین اسناد، الگوریتم‏های کارایی پیشنهاد شده است. نتایج پیاده‏سازی، نشان‏دهنده کارایی مناسب‏تر‏ روش ارائه شده نسبت به روش‏های بازیابی اطلاعات معمولی است. به طور خلاصه می‏توان گفت در این پایان‏نامه، پیش‏پردازشی ارائه شده است که انجام آن قبل از اعمال الگوریتم بازیابی اطلاعات، موجب کارایی مناسب‏تر آن در حوزه بازیابی متون حاصل از بازشناسی گفتار می‏شود.

منابع مشابه

چارچوبی جدید برای بازشناسی گفتار به منظور استفاده در بازیابی صدای گفتاری

موضوع این پایان نامه بازیابی متون حاصل از بازشناسی گفتار می باشد. در این راستا روشی برای اصلاح خطاهای بازشناسی گفتار ارائه شده است. در این روش بر مبنای مفاهیم موجود در بازشناسی گفتار مانند مدل زبانی، سعی شده است کلماتی که در فرآیند بازشناسی گفتار دچار خطا شده اند، شناسایی گردیده و با کلمات مناسب دیگر جایگزین گردند. برای یافتن کلمات مناسب، الگوریتم کارایی ارائه شده است که نتایج پیاده سازی نشان د...

15 صفحه اول

وب معنایی- مکانی، چارچوبی برای ذخیره و بازیابی اطلاعات affordance نقاط مورد توجه

به میزانی که حجم داده‌های تحت وبِ دارای محتوای مکانی افزایش می‌یابد نیاز به رویکردهایی که دارای توانایی مدیریت این حجم داده‌ها در شبکه وب باشند افزایش می‌یابد. گفتمان وب معنایی با تعریفی جدید و متفاوت از پایگاه‌های داده به منظور ذخیره و بازیابی داده‌ها، راه حلی برای مواجهه با چالش‌های ناهمگنی و گستردگی توزیع منابع اطلاعاتی است. از طرفی می‌توان گفت که افراد در فعالیت‌های روزمره خود با مفهوم و م...

متن کامل

بررسی تأثیرات ریشه‌یابی در بازیابی اطلاعات در زبان فارسی

Using the language-specific behavior in information retrieval systems can improve the quality of the retrieved results significantly. Part of the word that remains after removing its affixes is called stem. Stemming process can be used for improving the relevancy of the results in information retrieval system. Different morphological variants of words (plural, past tense…) will be mapped into t...

متن کامل

به کارگیری داده کاوی برای پیشنهاد پرسش درنظام‌های بازیابی اطلاعات

داده‌کاوی به مفهوم آشکارسازی الگوهای موجود در حجم انبوه داده‌هاست که در بسیاری از رشته‌ها به کار گرفته شده است. در رشته علم اطلاعات و دانش‌شناسی به ویژه در بازیابی اطلاعات نیز می‌توان از آن بهره برد. در بازیابی اطلاعات ابتدا پارادایم نظام‌گرا و سپس پاردایم کاربرگرا مطرح شده است که در پارادایم دوم به نیاز اطلاعاتی توجه شده است. در پارادایم دوم، ورود پرسش‌های نامناسب از سوی کاربران، دلیل اصلی عدم...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده مهندسی کامپیوتر

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023