نام پژوهشگر: ایمان صراف رضایی
ایمان صراف رضایی فرشاد الماس گنج
بهبود نتایج بازشناسی سیستم های بازشناس خودکار گفتار، یکی از عرصه های مهم پیش روی محققان حوزه پردازش و بازشناخت گفتار است. علی رغم فعالیت های انجام یافته، نتایج به دست آمده از این سیستمهای ماشینی هنوز به نتایج بازشناسی سیستم شنوایی انسان نرسیده است. بناباین از آنجا که عملکرد سیستم بازشناسی گفتار در مقایسه با بازشناس های معمولی ماشینی محسوب می گردد، می توان امید داشت که با الهام گرفتن از عملکرد سیستمی و فیزیولوژیکی سیستم شنوایی انسان، نتایج بازشناسی این ماشین ها بهبود یابند. یکی از روش هایی که می توان به وسیله آن دقت بازشناسی واج سیستم را در شرایط تمیز و نویزی بهبود بخشید، استفاده از واحدهای زیر کلمه ای بزرگتر از واج می باشد، بازشناسی خوکار واج ها در گفتار پیوسته بسیار مشکل می باشد، زیرا تشخیص یک واحد توسط حس شنیداری فقط مربوط به آن واج نیست، بلکه قطعات مجاور آن نیز روی درک آن اثر می گذارند. تحقیقات محققان نشان می دهند که راه طبیعی درک یک زبان توسط مغز انسان بوسیله نگه داری و درک هجا می باشد و نه واج. همچنین سیستم شنوایی انسان قادر است تقریبا 200 میلی ثانیه از سیگنال گفتار را بدون اینکه اطلاعات مهم آن از بین برود، درک کند، که این مقدار، همبستگی مناسبی با طول یک هجا دارد. علاوه بر اینها طول زمانی هجا، کمتر از طول زمانی واج، به تغییرات نرخ صحبت گوینده وابسته می باشد. واحدهای زیر کلمه ای بزرگتر از واج به دلیل اینکه شامل فریم های زمانی بیشتری نسبت به آواها هستند، بهتر می توانند تغییرات تلفظی موجود در گفتار را مدل کنند. بسیاری از ویژگی های پروزودیک گفتار نیز با استفاده از هجاها، آسانتر و بهتر مدل می شوند. همچنین بهبود دقت و مقاومت بازشناسی با افزودن اطلاعات مرزهای واحدهای زیر کلمه ای با سامانه بازشناسی گفتار نیز تایید شده است . هدف از وارد کردن اطلاعات مرز، افزایش کارایی بازشناسی و کاهش زمان بازشناسی و همچنین مقاوم کردن سیستم در مقابل نویز می باشد. ما در این پایان نامه از واحدهای زیر کلمه ای بزرگتر از واج، در سیستم بازشناسی گفتار پیوسته زبان فارسی استفاده نمودیم. به این منظور واحدهای مختلفی مانند نیم هجا، هجا و واحدهای cv را به شکل های مختلف مورد آزمایش قرار دادیم. نتایج آزمایشات نشان می دهند که استفاده از واحدهای cv نسبت به بقیه واحدها، دقت و صحت سیستم را بیشتر افزایش می دهد. استفاده از این واحد، دقت سیستم بازشناسی واج گفتار تمیز و گفتار آلوده به نویز سفید 10db را به ترتیب حدود 5/5 درصد و 5/4 درصد، افزایش بخشید. کار دیگری که در این پایان نامه انجام شد، استفاده از اطلاعات مرز در سیستم بازشناسی گفتار بود. برای این کار ما اطلاعات مرز را به صورت یک بردار ویژگی، به ویژگی های معمول بازشناسی اضافه کردیم. این اطلاعات مرز را به صورت های مختلفی تعریف و تست نمودیم. با توجه به آزمایش های انجام شده به این نتیجه رسیدیم، که هنگامی که محل وقوع واج را به صورت یک ویژگی اضافی به سیستم بدهیم، این امر باعث افزایش مقاومت سیستم در برابر نویز می گردد. برای مثال دقت بازشناسی با استفادهاز این ویژگی و برای گفتار آلوده به نویز سفید، حدود 4%بهبود پیدا می نماید. برای بازشناس مرز واج از یک شبکه عصبی tmlp استفاده نمودیم.