نام پژوهشگر: سید فرید موسوی پور
سید فرید موسوی پور سیدسعید سیدطبایی
بازیابی سیگنال گفتاری مطلوب از گفتار نویزی، از جمله قدیمی ترین اهداف محققان پردازش سیگنال و سیستم های ارتباطی می باشد که تا به امروز ادامه داشته است. هدف اصلی بهبودگفتار کاهش دادن اثرات نویز، بالابردن کیفیت و قابل فهم نمودن سیگنال گفتاری می باشد. این در کاربردهای مختلفی از قبیل استفاده در محیط های پر سر و صدا (برای مثال در دفاتر کار، خیابان ها ، اتومبیل ها، کارخانه ها و غیره) و سیستم های بازشناسی گفتار، وسایل کمک شنیداری و غیره از اهمیت بالایی برخوردار می باشد. در طول این سال ها، محققان و مهندسان چندین روش برای برطرف کردن این مشکل پیشنهاد کرده اند ولی تاکنون به خاطر پیچیدگی سیگنال گفتاری، این ناحیه از تحقیقات با مشکلاتی همراه بوده است. به طور معمول کاهش نویز بدون ایجاد اعوجاج در سیگنال گفتار به سختی امکان پذیر است و بنابراین عملکرد سیستم های بهبود گفتار به ارتباط میان اعوجاج گفتار و کاهش نویز محدود می شوند. با توجه به ] [، ] [ ، ] [، ] [، سیستم های بهبودگفتار می توانند بر مبنای تعداد کانال های ورودی(یک/دو/چند)، حوزه پردازشی (زمانی/فرکانسی)، نوع الگوریتم (وفقی/غیروفقی) تقسیم بندی شوند. به عنوان مثال در بیشتر متون بهبودگفتاری، استراتژی های مختلف پردازش گفتاری را به دو گروه وسیع تکنیک های تک کاناله و چند کاناله تقسیم بندی کرده اند. به طور معمول در بیشتر موقعیت ها نویز و گفتار در یک کانال حضور دارند (سیستم های تک کاناله) و این یکی از مشکل ترین موقعیت ها برای بهبودگفتار می باشد. پیچیدگی و سادگی در به کارگیری هر یک از این طرح ها فاکتور مهم دیگری است. چرا که اکثر الگوریتم های بهبودگفتار و کاهش نویز در کاربردهای بلادرنگ و قابل حمل از جمله تلفن های سلولی، وسایل کمک شنیداری، کیت های هندفری، گوشی های حذف نویز و ... به کار گرفته می شوند. همچنین هزینه کم برای به کارگیری این روش ها از جمله عوامل انتخاب آنها برای کاربردهای مورد نظر می باشد. فیلتر کالمن و ذره ای، از شناخته شده ترین تکنیک های تک کاناله برای کاهش نویز می باشند ] [، ] [، ] [،] [، ] [ و] [. این فیلترها، مدل گفتار تمیز را از مدل گفتار نویزی، تخمین می زنند. این روش ها پیچیدگی زیادی ندارد و به کارگیری آن نسبتاً ساده می باشد. این روش ها توجه بسیار زیادی را در طی سال های گذشته به خود اختصاص داده است. تخمین مدل نویز یکی از چالش برانگیزترین وظایف الگوریتم های بهبودگفتار تک کاناله می باشد زیرا ما تنها به سیگنال گفتار نویزی دسترسی داریم و هیچ سیگنال مرجعی برای نویز در دسترس نمی باشد و گفتار تمیز نمی تواند قبل از اینکه با نویز آمیخته شود، پیش پردازش شود. برای تخمین نویزهای ایستا، اغلب میانگینگیری از طیف سیگنال نویزی در طی اولین پریود سکوت (غیرگفتاری) کافی می باشد. برای تخمین نویزهای غیرایستا، نیاز است که طیف نویز به طور پیوسته تخمین زده شود و به هنگام شود. این کار بسیار سخت است چراکه ما هیچ اطلاعات پیشین از نویز در اختیار نداریم. برای این کار نیاز به یک آشکارساز فعال گفتار/ سکوت (vad) می باشد تا وقفه های گفتاری را پیدا کرده و تخمین نویز را به هنگام کند[ ]. از آنجایی که برای محیط های نویزی بشدت غیرایستا و یا محیط هایی با snr پایین، تشخیص مطمئن بخش های غیرگفتاری خیلی مشکل می باشد. تکنیک های موثر دیگری که نیاز به یک الگوریتم جداسازی گفتار/ سکوت واضح ندارند و حتی در بخش های گفتاری قادر به به هنگام تخمین نویز هستند، پیشنهاد شده اند.[ ]