نام پژوهشگر: صادق مسجودی
صادق مسجودی منصور ولی
بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مبتنی بر خوشه یابی استفاده شده است. در روش های معمول بازسازی مبتنی بر خوشه یابی، بردارهای بازنمایی لگاریتم انرژی فیلتر بانک های ورودی مربوط به دادگان تمیز تعلیمی خوشه بندی می شوند. سپس برای بازسازی بردارهای بازنمایی نویزی دو مرحله پردازش روی آنها صورت می پذیرد. در مرحله نخست مولفه های هر بردار بازنمایی نویزی ورودی به دو بخش قابل اطمینان و غیر قابل اطمینان تفکیک می شوند. در مرحله دوم مولفه هایی که برچسب غیرقابل اطمینان(ماسک ها) خورده اند بر اساس آمارگان نزدیکترین خوشه به آن بردار که بر مبنای مولفه های قابل اطمینان بردار شناسایی شده است، با استفاده از یکی از روش های ماکزیمم احتمال پسین بازیابی می شوند. در این پایان نامه ایده ای جدید مبنی بر استفاده مفیدتر از اطلاعات واقع در مولفه های غیر قابل اطمینان مطرح شده است. در این روش با استفاده از یک تابع عضویت فازی با فازی نمودن نسبت سیگنال به نویز(snr) تخمینی مولفه های مختلف بردارهای بازنمایی ضریبی تحت عنوان ضریب تصحیح به بردار بازسازی شده و متمم فازی آن به بردار بازنمایی نویزی تخصیص داده شده و بردار حاصل جمع این دو بردار به عنوان بردار بازسازی شده نهایی تلقی می شود. با فرض اینکه گام اول بازسازی مبتنی بر خوشه یابی یعنی تفکیک مولفه های هر بردار به دو کلاس قابل اطمینان و غیرقابل اطمینان به نحو مناسبی انجام شده باشد، ایده مطرح شده نویدبخش بهبود در نتایج بازشناسی بود. به منظور بازشناسی بردارهای بازسازی شده، ابتدا از آنها تبدیل گسسته کسینوسی گرفته و ویژگی های mfcc را از آنها استخراج نمودیم. جهت ارزیابی و مقایسه روش ها از ویژگی های mfcc روی دو مدل بازشناسی، یکی شبکه عصبی و دیگری مدل مخفی مارکف استفاده گردید. مطابق انتظار ارزیابی ها نشان دادند بازسازی ها هنگامی موثر واقع می شوند که گام نخست یعنی شناسایی مولفه های مفقود به نحو مناسبی صورت پذیرفته باشد. اگر مولفه های مفقود به طریق مناسب معین شده باشند، ایده فازی مطرح شده دقت بازشناسی شبکه عصبی را در نسبت های پایین سیگنال به نویز تا 5% و دقت بازشناسی حاصل از مدل مخفی مارکف را بین یک تا دو درصد نسبت به روش غیر فازی بهبود می بخشد. در ادامه پیاده سازی ها از روش سری تیلور برداری برای تخمین میانگین نویز استفاده شد و به کمک آن مقادیری را به عنوان نسبت سیگنال به نویز(snr) به مولفه های مختلف بردارهای بازنمایی تخصیص دادیم. سپس با قرار دادن آستانه ای به عنوان حد آستانه قابل اطمینان بودن روی مقادیر به دست آمده، مولفه ها را به دو کلاس قابل اطمینان و غیرقابل اطمینان تفکیک نمودیم. با تکرار مراحل قبل جهت بازسازی و بازشناسی بردارها بهبودی در نتایج حاصل نشد. این امر دلالت بر عدم کارایی روش به کارگرفته شده جهت تعیین ماسک ها دارد.