نام پژوهشگر: حجت اله یگانه
حجت اله یگانه محمد احدی
در این پروژه مقاوم سازی بازشناسی گفتار در محیط های نویزی بر مبنای پردازش زیرباندی بررسی شده است. مقاوم سازی بازشناسی گفتار یکی از مسائل مهم در این حوزه می باشد که کار بر روی ان همچنان ادامه دارد. از روش های گوناگونی به منظور تحقق یافتن این مهم استفاده می شود و ایده های متنوعی نیز در مقالات و تحقیقات ارائه می گردند. عیب عمده اکثر روشهای پیشهاد شده پیچیدگی زیاد و سرعت کم الگوریتم های آن است. ما در این رساله تلاش نموده ایم به ارائه روش هایی بپردازیم که عیوب مذکور را در حد بسیار کمتری داشته باشند و در عین حال هدف ما را که همان افزایش دقت بازشناسی گفتار در محیط های نویزی است محقق سازند. از این رو در ابتدا با بررسی روند استخراج ویژگی های مطرح mfcc سعی نمودیم عیب این بردار ویژگی را برطرف نماییم. دلیل این امر آن است که بردار ویژگی mfcc دارای الگوریتم بسیار ساده و سریعی است و در محیط های عاری از نویز یا به اصطلاح تمیز از دقت بازشناسی خیلی خوبی برخوردار است.بنابراین اگر بتون الگوریتمی پیشنهاد نمود که ساختاری شبیه mfcc داشته باشد و در عین حال بردار ویژگی حاصل نسبت به نویز محیط مقاوم تر نشان دهد، این روش از امتیاز بالایی برخوردار می گردد. با دنبال کردن روند استخراج ویژگی mfcc به این مسئله پی می بریم که برای به دست آمدن هر کدام از مولفه های این بردار، تمام طیف یک فریم در محاسبه تاثیر دارد. این بدان معنی است که آلوده بودن نواحی خاصی از طیف به تمام بردار mfcc سرایت می کند و کارایی این بردار ویژگی را به شدت پایین می آورد. روند کلی ایده های پیشنهادی ما حول دو گام اصلی قابل بیان است. در ابتدا سعی بر آن داریم تا با فیلتر کردن سیگنال گفتار در حوزه زیرباندی میزان تاثیر نویز را کم کنیم. در ادامه و در گام دوم با اعمال وزن بر خروجی زیرباندهای حوزه مل میزان مشارکت زیرباندهای با کیفیت تر را در به دست آوردن ویژگی های پیشنهادی خود بیشتر نموده و از تاثیر زیرباندهای با کیفیت کمتر می کاهیم. نتایج آزمایش های ما نشان دادند که تا حد خیلی خوبی به اهداف اصلی خود رسیده ایم. الگوریتم های پیشنهادی ما در عین حالی که ساده هستند در محیط های نویزی بسیار مقاوم می باشند. مقایسه روشهای پیشنهادی با روش های مطرح دیگر بر این مطلب صحه می گذارد. روش های ارائه شده منجر به بهبود 32 درصد روش پایه شده است.