نام پژوهشگر: رضا احمدنیا
رضا احمدنیا مسعود گراوانچی زاده
این پایان نامه به دنبال ارائه روش هایی برای بهبودی سیگنال گفتار آلوده به نویز با رویکرد ارتقاء قابلیت فهم گفتار است. ماسک دودویی ایده ال (ibm) که هدف اصلی بحث آنالیز محاسباتی ترکیب شنیداری معرفی شده است، به عنوان ابزاری برای افزایش قابلیت فهم سیگنال گفتار مورد توجه قرار گرفته است. این ماسک در کنار توانایی که در افزایش قابلیت فهم دارد، مشکلاتی نیز همراه با آن وجود دارد. با توجه به تعریف ibm، که مبتنی بر نسبت انرژی سیگنال تمیز به انرژی سیگنال نوبز در واحد های زمان- فرکانس است، در این پایان نامه استفاده از ماسک نرم تری موسوم به ماسک چند گانه ایده ال (imm) پیشنهاد شده است که مشکلات مربوط به ibm را تا حد زیادی برطرف می کند. استفاده از قابلیت ibm و imm در حالت تک گوشی نیازمند تخمین چنین ماسکی از سیگنال آلوده می باشد. در این پایان نامه، همچنین، روش هایی برای استخراج imm پیشنهادی ارائه می شوند که مبتنی بر آموزش و طبقه بندی و با هدف مقاوم بودن به انواع نویز ها و سطوح مختلف snr می باشند. در روش اول، از ویژگی طیف مدولاسیون دامنه و شبکه عصبی، در روش دوم، از کمترین مجموع مربعات خطا و در روش سوم استفاده از ویژگی gfcc ونوعی codebook برای تخمین snr واحد ها و نهایتاً، برای تخمین imm پیشنهادی، استفاده شده است. سیگنال های پردازش شده با ماسک های ایده ال و تخمینی دودویی و چندگانه از منظر کیفیت، با میزان افزایش snr سیگنال خروجی، و از منظر قابلیت فهم، با معیارهای pesq و تست شنوایی مورد ارزیابی قرار می گیرند. نتایج ارزیابی عملکرد بهتر imm پیشنهادی را نسبت به ibm نشان می دهد. نتایج روش های تخمین imm با نتایج الگوریتم اخیر در تخمین ibm مقایسه می شوند که هر یک از روش های فوق نتایج خوبی را نشان می دهند.