نام پژوهشگر: حمیدرضا ارومیه
حمیدرضا ارومیه بابک ناصر شریف
در بازشناسی گفتار ویژگیهای مختلفی مورد استفاده قرار گرفته اند که موفقترین آنها ضرایب مل کپستروم هستند. این ویژگیها در شرایط نویزی معمولا عملکرد مطلوبی ندارند و تمایز کافی را نیز میان واحدهای بازشناسی گفتاری فراهم نمی کنند. از این رو تحقیقات متعددی درباره افزایش کارآیی ویژگیها در شرایط نویزی و همینطور تمیز صورت گرفته است. یکی از این روشها استفاده از ویژگیهای پی در پی است. در این روش به صورت کلاسیک ابتدا ویژگیهای متداول گفتاری برای آموزش یک شبکه عصبی پرسپترون چند لایه بکار می روند که سبب افزایش متمایز سازی ویژگیها می شود و سپس خروجیهای شبکه عصبی که از جنس احتمال پسین هستند به عنوان ویژگی در اختیار یک سیستم بازشناسی گفتار مبتنی بر مدل مخفی مارکف قرار می گیرد. در پایان نامه حاضر، دو روش برای اصلاح روند استخراج ویژگی پی در پی پیشنهاد شده است. در روش اول، با توجه به اینکه شبکه عصبی احتمالاتی و شبکه عصبی تابع شعاعی پایه را می توان به عنوان یک تبدیل متمایز ساز غیر خطی در نظر گرفت، پیشنهاد شده است که به جای شبکه عصبی کلاسیک پرسپترون در روند استخراج ویژگی پی در پی، از دو شبکه عصبی مذکور استفاده شود. در روش دوم، با هدف غلبه بر ضعف الگوریتم انتشار به عقب در یادگیری پرسپترون چندلایه و همچنین یادگیری بهتر روابط میان ویژگیها و تخمین بهتر احتمالات، از شبکه باور عمیق به جای شبکه عصبی پرسپترون چندلایه برای استخراج ویژگیهای پی در پی استفاده شده است. نتایج بازشناسی بر روی دادگان گفتاریaurora2 و نیز یک دادگان مشتمل بر کلمات مجزای فارسی نشان می دهد که بکار گیری شبکه های عصبی تابع شعاعی پایه و نیز شبکه عصبی احتمالاتی در استخراج ویژگیهای پی در پی بهتر از پرسپترون چند لایه عمل می کنند. به علاوه، نتایج حاکی از آن هستند که بکارگیری شبکه باور عمیق در استخراج ویژگیهای پی در پی نسبت به شبکه های عصبی مذکور سبب بهبود قابل توجه نرخ بازشناسی گفتار می شود.