سارا پورمحمدی

نام پژوهشگر: سارا پورمحمدی

بازسازی سیگنال گفتار باند وسیع از روی سیگنال گفتار باند محدود با استفاده از شبکه عصبی مصنوعی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی 1390
سارا پورمحمدی منصور ولی

تحقیق حاضر به بررسی مجموعه تکینیک های گسترش مصنوعی پهنای باند (bwe ) سیگنال گفتارمی پردازد. امروزه با وجود پیشرفت چشمگیر در فن آوری ارتباطات، محدودیت های موجود در پهنای باند انتقال شبکه های تلفنی موجب کاهش کیفیت و ادراک پذیری سیگنال گفتار می گردد.گسترش مصنوعی پهنای باند، مولفه های نیمه بالایی طیف را به گفتار باند محدود تلفنی اضافه می کند و در اثر بازسازی سیگنال باند گسترده، قابلیت ادراک گفتار افزایش قابل قبولی خواهد یافت. در تحقیق حاضر فرض اساسی بر این است که همبستگی خوبی بین مولفه های طیفی باند پائین با بخشهای بالایی طیف گفتار وجود دارد. براساس مدل تولید گفتار انسان، مجموعه روش های مورد استفاده برای گسترش پهنای باند شامل دو مرحله مجزای گسترش سیگنال تحریک و تخمین پوش طیف فرکانس بالای گفتار هستند. مرحله بازسازی پوش دارای اهمیت بیشتری بوده و کلید اصلی دستیابی به کیفیت بالا در گسترش مصنوعی پهنای باند به شمار می رود. در این پایان نامه دو روش مدل ترکیب گوسی ( gmm ) و شبکه عصبی – که استفاده از آن در حوزه bwe چندان متداول نبوده است - برای تخمین پوش طیف فرکانس بالا پیاده سازی شده و برای گسترش سیگنال تحریک روش تاکردن طیف به کار رفته است. پارامترهای بازنمایی مورد استفاده برای بازتولید ضرایب فیلتر لوله صوتی و سنتز گفتار باند گسترده، ضرایب کپسترال فرکانسی مقیاس مل (mfcc ) و لگاریتم انرژی فیلتر بانک مل (lfbe ) هستند. مجموعه دادگان مورد استفاده timit می باشد. نتایج ارزیابی های عینی به دست آمده از پیاده سازی ها، بیانگر عملکرد بهتر شبکه عصبی نسبت به تکنیک gmm است. به گونه ای که مقدار بهبود ناشی از جایگزین کردن تکنیک gmm با شبکه عصبی برای تخمین پوش طیف، برای دو معیار اندازه گیری lsd و itakura-saito، به ترتیب برابر 9/2 دسی بل و 3/0 دسی بل برای بردار بازنمایی lfbe محاسبه می گردد. همچنین نشان داده شده است که بردارهای بازنمایی lfbe نسبت به mfcc به ازای هر دو تکنیک gmm و شبکه عصبی راندمان بالاتری دارند.