سید سعید صرفجو

نام پژوهشگر: سید سعید صرفجو

چارچوبی جدید برای بازیابی اطلاعات به منظور استفاده در بازیابی صدای گفتاری فارسی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده مهندسی کامپیوتر 1390
سید سعید صرفجو روح الله دیانت

موضوع این پایان‏نامه بررسی مسأله بازیابی اطلاعات در متن حاصل از بازشناسی گفتار می‏باشد. یک ورودی مسأله، تعدادی سند متنی که از بازشناسی گفتار به دست آمده‏اند می‏باشد. ورودی دوم نیز یک کوئری است. هدف این است که کوئری را در اسناد جستجو نموده و اسناد مرتبط را پیدا کنیم. مشکلی که در اینجا وجود دارد این است که متن حاصل از بازشناسی گفتار، همواره دارای درصد خطایی در بازشناسی است که موجب می‏شود کلمات دچار خطا شده، معادل با کوئری در نظر گرفته نشوند و در نتیجه سند، مرتبط تشخیص داده نشود. در این پایان‏نامه یک روش بازیابی اطلاعات مقاوم نسبت به خطای بازشناسی گفتار ارائه شده است. ایده کلی این است که برای هر کلمه مهم موجود در سند، تعدادی کلمه مشابه در نظر بگیریم. به این ترتیب به ازای هر سند، تعدادی سند جایگزین به دست میآید. با توجه به تعداد زیاد اسناد جایگزین، در مرحله بعد، موثرترین اسناد جایگزین انتخاب می‏گردند. این اسناد جایگزین به اسناد فعلی اضافه گردیده و در نهایت الگوریتم بازیابی روی مجموعه جدید اسناد اعمال می‏گردند. برای هر یک از مراحل یافتن کلمات مهم، یافتن کلمات مشابه و به دست آوردن موثرترین اسناد، الگوریتم‏های کارایی پیشنهاد شده است. نتایج پیاده‏سازی، نشان‏دهنده کارایی مناسب‏تر‏ روش ارائه شده نسبت به روش‏های بازیابی اطلاعات معمولی است. به طور خلاصه می‏توان گفت در این پایان‏نامه، پیش‏پردازشی ارائه شده است که انجام آن قبل از اعمال الگوریتم بازیابی اطلاعات، موجب کارایی مناسب‏تر آن در حوزه بازیابی متون حاصل از بازشناسی گفتار می‏شود.