نام پژوهشگر: حمید شیخ زاده

توسعه روش های مبتنی بر ویژگی برای جداسازی گفتار دو گوینده همزمان
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1391
  آذر محمودزاده   حمید سلطانیان زاده

در یک مهمانی، ما می توانیم به یک صدای خاص توجه ویژه داشته باشیم و دیگر صداهای تداخلی موجود در محیط اطراف خود را فیلتر نماییم. این قابلیت ادراکی، باعث ایجاد انگیزه ای برای پدید آوردن یک زمینه مطالعاتی جدید گردید. هدف این زمینه مطالعاتی، طراحی سیستم های جداسازی گفتار بر اساس اصول سیستم شنوایی انسان است. در بسیاری از کاربردها نظیر بازشناسی گفتار اتوماتیک و مخابرات راه دور به یک سیستم موثر که توانایی جداسازی سیگنال گفتار هدف از سیگنال تداخلی را در شرایط تک میکروفونه داشته باشد، نیاز می باشد. بر این اساس در این رساله، سیستمی برای جداسازی سیگنال گفتار از تداخل در شرایط تک میکروفونه ارائه می نماییم. سیستم جداسازی گفتار تک میکروفونه پیشنهادی بر اساس ویژگی فرکانس گام در حوزه فرکانس مدولاسیون طراحی گردیده است. جداسازی بر اساس فیلتر نمودن سیگنال نویزی با استفاده از ماسک تخمین زده شده در حوزه طیف مدولاسیون با به کارگیری محدوده فرکانس گام تخمین زده شده، انجام می گیرد. برای بهبود عملکرد سیستم جداسازی پیشنهادی، یک سیستم جداسازی تک میکروفونه ترکیبی نیز پیشنهاد می گردد. در این سیستم، از فیلتر نمودن مدولاسیون همدوس وفقی برای جداسازی زیرباندهای با فرکانس پایین و از سیستم جداسازی تک میکروفونه ناهمدوس بازگشتی برای جداسازی زیرباندهای با فرکانس بالا استفاده می گردد. در فیلتر نمودن مدولاسیون همدوس وفقی، برای حذف سیگنال تداخلی از فیلتر وفقی affine projection استفاده می گردد که این فیلتر بر روی سیگنال مدولاتور بدست آمده از تبدیل مدولاسیون همدوس، اعمال می گردد. همچنین با به کارگیری یک میکروفون اضافه یک سیستم جداسازی دو میکروفونه بر اساس ویژگی های اختلاف زمانی برای زیرباندهای با فرکانس پایین و اختلاف چگالی برای زیرباندهای با فرکانس بالا، به منظور افزایش کیفیت سیگنال جدا شده پیشنهاد می نماییم. در سیستم دو میکروفونه پیشنهادی، جداسازی سیگنال هدف از تداخل بر مبنای ماسک باینری زمان- فرکانس تخمین زده شده بر اساس دو ویژگی مکانی اختلاف زمانی و اختلاف چگالی انجام می گیرد. نتایج ارزیابی نشان می دهد که سیستم های پیشنهادی تک میکروفونه در مقابل تداخل مقاوم است و در شرایطی که انرژی سیگنال تداخلی زیاد باشد نیز قادر به جداسازی گفتار هدف با کیفیت خوب می باشد. همچنین نتایج بدست آمده از سیستم جداسازی دومیکروفونه نشان دهنده جداسازی قسمت های واکدار و بی واک سیگنال گفتار هدف از سیگنال تداخلی با کیفیتی مورد قبول است.

افزایش کیفیت و بهبود عملکرد سیستم های تبدیل گفتار فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1385
  مهدی اسلامی   ابوالقاسم صیادیان

در این رساله به مطالعه و پیاده سازی سیستم تبدیل گفتار با کیفیت بالا پرداخته شده و روش های افزایش کیفیت و بهبود عملکرد آنها در زبان فارسی مورد بررسی قرار گرفته است. در سیستم های تبدیل گفتار، گوینده a (مبدا) عباراتی را بیان می کند و هدف از آن عبارت است از تغییر متکلم جملات بیان شده از گوینده aبه گوینده b(مقصد). کاربرد سیستم های تبدیل گفتار در ساخت پایگاه دادگان گفتاری جهت کاربرد در سیستم های تبدیل متن به گفتار و بازشناسی گفتار است. همچنین این سیستم قابل استفاده در صداگذاری فیلم ها و ... می باشد. در این قبیل کاربردها، صدای هر گوینده در محیط استودیو ضبط شده است و نیازی به پردازش بلادرنگ ندارد. روش آماری مبتنی بر gmm بهترین کارایی را در مقایسه با روش های دیگر دارد. این روش بعلت دخالت دادن تمامی خوشه ها در تولید یک بردار برای گوینده جدید، دارای حالت بلـورشدگی(کاهـش وضوح) در صدای بازسازی شده می باشد به گونه ای که بازسازی صدا (با تغییر گوینده) توسط روشهای مذکور نسبت به حالت کاملاً طبیعی، فاصله زیادی دارد. در روش gmm(2) از مدل های متعدد gmm برای مدلسازی هر واج استفاده نموده ایم. همچنین در مرحله متناظرکردن خوشه های هر حالت، قبل از اعمال الگوریتم dtw از یک تبدیل lmr برای انطباق بیشتر پارامترهای دو حالت متناظر از دو گوینده استفاده می شود. در روش gmm(3) به منظور ارایه تخمـین دقیـق تر سیگـنال گفـتاری و کیفـیت بالاتـر سیگنال تـبدیل شده، از مـدل ghm استفـاده می شودکه از کارکردی بهتر نسبت به روش قبل برخوردار است. در الگوریتمgmm(4) ویژگی های گفتار بطـور پیوسته با استفاده از همبستـگی میان ویژگی های گفتـار گوینده مبدا و مقصد، تغییر می نمایند. به منظور غلبه بر هموار شدگی طیفی ناشی از متوسط گیری آماری، از واحدهای آوایی نیمه هجا، به عنوان کوچکترین واحدهای آوایی شامل اطلاعات عروضی گفتار استفاده می شود. همچنین با توجه به مزایای ghm، از آن به عنوان آنالیز و سنتز کننده استفاده می شود. در این رساله به ارایه روشی می پردازیم که علاوه بر ویژگی های درون قابی، از ویژگی های برون قابی (دینامیکی) برای یافتن بردار تبدیل یافته از گفتار گوینده a به گفتار گوینده b استفاده می کند. این روش مبتنی بر vq بوده و در آن از یک ساختار شبکه برای یافتن یکی از بهترین مسیرها جهت نگاشت دنباله ای از قاب های گفتاری مربوط به کتاب کد گوینده a به کتاب کد گوینده b استفاده می شود. معیار بهینگی در یافتن مسیر عبارت است از: حفظ ویژگی های دینامیکی گفتار گوینده بعلاوه پیوستگی طیفی در گفتار تبدیل یافته.نوآوری دیگر ارایه شده، استفاده از نیمه هجا به عنوان کوچکترین واحد گفتاری در برگیرنده اطلاعات عروضی از گفتار گوینده است که متناسب با ساختار زبان فارسی می باشد. در نهایت به کمک اصلاحات مناسب دیگری که در روش یادگیری و طراحی تبدیلهای خطی مورد نیاز انجام شده است، به عملکرد بسیار مناسبی در تبدیل گفتار در مقایسه با روشهای رایج نایل شده ایم.