نام پژوهشگر: حمید اقبال زاده
حمید اقبال زاده فریبرز سبحان منش
یکی از موثرترین راه های افزایش دقت سیستم های بازشناسی گفتار کلمات مجزا، به کارگیری اطلاعات آوایی (به صورت آماری ) می باشد. بازشناسی گفتار در سامانه های تلفنی در حالت کلی به دلیل دامنه فرکانسی پایین تر، نویز بیشتر و افزایش پیچیدگی و انواع نویز های موجود، پیچیدگی و چالش های بیشتری دارد . برای کاربردهای بازشناسی گفتار روش های مختلفی بر اساس مدل های آوایی متنوع پیشنهاد شده اند که هر یک سعی می کنند بخشی از سطوح اطلاعات آوایی را پوشش دهند . هرچند مدل های آوایی تا حدود زیادی قادرند ساختارهای موجود در آوا را مدل سازی کنند ولی هرکدام از آن ها فقط پدیده های خاصی را پوشش می دهند . هیچ کدام از این مدل های آوایی به تنه ایی قادر نیستند همه پدیده های آوایی را به طور هم زمان در چارچوب یک مدل احتمالاتی بگنجانند . یکی از مهمترین فاکتورهای یک مدل آوایی، دادگان آموزشی آن می باشد که بر اساس دامنه، مدل آوایی، بوسیله آنها آموزش می بیند . در این پژوهش برآنیم تا ترکیبی از مدل های آوای ی مختلفی را با روش های مطرح که کاربرد فراوانی در بازشناسی گفتار دارد، آموزش داده و بر اساس تفاوت در دادگان آموزشی، به عنوان یک فاکتور مهم مورد تحقیق قرار دهیم . هدف از این کار، قرار دادن اطلاعات و پیچیدگی های خطوط انتقالی مخابراتی و نویز های مربوطه در داخل مدل و یاد دادن این پیچیدگی ها به مدل آوایی، و سپس بررسی افزایش دقت مورد نظر می باشد . بدین ترتیب که بر فرض صحیح بودن روش بازشناسی در این دامنه و ثابت ماندن آن، تغییرات دادگان آموزشی چه تغییری می تواند ایجاد کند. در ادامه، به ارائه ایده ای خواهیم پرداخت که ا ز طریق آن، از روی تشخیص روشن -خاموش بودن حالت مدل بهینه مربوط به آنرا بارگزاری می نمائیم.