نام پژوهشگر: شقایق رضا
شقایق رضا علی سید صالحی
تبدیل گفتار از جمله شاخه های جدید تحقیقات گفتاری است. هدف سامانه های تبدیل گفتار تغییر سیگنال گفتار گوینده ی مرجع است به نحوی که خروجی آن همانند گفتار فرد هدف به نظر برسد. روش-های مختلفی از جمله نگاشت کدبوک ها، روش های آماری و ... در این زمینه ارایه شده است، اما کیفیت صوت تولیدی از این سامانه ها هنوز کاملا مطلوب نیست. در این پروژه برای تبدیل گفتار، سیگنال گفتار یک گوینده (گوینده ی مرجع) به دو دسته اطلاعات "پیام گفتار" و "هویت گوینده" تجزیه شده و سپس با تغییر هویت گوینده ی مرجع به هویت فردی دیگر (گوینده ی هدف) و ترکیب آن با اطلاعات پیام گفتار، صوت فرد هدف بازسازی می شود. به این منظور روش جدیدی بر پایه ی شبکه های عصبی برای جداسازی اطلاعات غیر خطی هویت گوینده از سیگنال گفتار پیشنهاد شده است. فرض مطرح در این روش مستقل بودن هویت گوینده از پیام گفتار و تلاش برای جداسازی این دو دسته اطلاعات است. مقادیر لگاریتم مجذور بانک فیلترها در مقیاس بارک (lhcb) از سیگنال گفتار گویندگان به عنوان بردار ویژگی استخراج شده و برای تعلیم شبکه ها مورد استفاده قرار می گیرد. وزن های شبکه به نحوی تعلیم می بیند که فضای ویژگی گوینده ی مرجع را به فضای ویژگی گوینده ی هدف نگاشت کند. ویژگی های دو گوینده مرجع و هدف برای تعلیم به این شبکه باید از آواهای متناظر دو گوینده و به بیان دیگر از سیگنال گفتارهای همزمان شده ی دو گوینده باشند. از این رو در این پروژه از روشی بر پایه ی الگوریتم ژنتیک برای همزمان سازی فریم های سیگنال گفتار گویندگان استفاده شده است. ارزیابی شنیداری نشان می دهد که گفتار خروجی شبکه تا حدودی به گفتار گوینده ی هدف شبیه شده است. کارآیی سامانه حاصله همچنین توسط روش های عددی و مقایسه ی دو فضای ویژگی ارزیابی شده است.