نام پژوهشگر: اولدوز حضرتی یادکوری

استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1386
  اولدوز حضرتی یادکوری   محمد احدی

بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاده قرار بگیرد. در این پروژه، روشی مبتنی بر کرنل تنها در فاز خوشه بندی مورد استفاده قرار می گیرد. پیاده سازی این روش ساده و حجم محاسباتی مطلوبی دارد. ما این روش خوشه بندی بر مبنای توابع کرنل را که الهام گرفته از روش متداول k-means و بر مبنای ماشین های بردار پشتیبان تک کلاسی (ocsvm) است به عنوان مرحله پیش تطبیق قبل از تکنیک های رایج تطبیق نظیر map و mllr در تطبیق گوینده با نظارت سریع مورد استفاده قرار می دهیم. در بخشی از کار الگوریتم های خوشه بندی مختلفی نظیر خوشه بندی های جنسیت، خوشه بندی k-means،soft k-means و روشی بر مبنای بردار های پشتیبان تک کلاسی جهت تطبیق مورد استفاده قرار گرفته اند و با روش پیشنهادی به دقتی در حدود %3 بهتر از مدل مبنا با دقت %37/90 (دقت مدل si) دست یافتیم. در بخش دیگری از این پروژه استفاده از روش های خوشه بندی ذکر شده به عنوان یک مرحله پیشین در تطبیق به روش های map و mllr مورد استفاده قرار گرفته است. در این حالت نیز به %5/6 بهبودی نسبت به مدل مبنا رسیدیم. در ادامه به جهت بررسی کارایی این روش در امر تطبیق، از چندین روش مختلف برای انتخاب hmm ها استفاده شده است. در بخش دیگری از کار به منظور مقایسه کارایی hmm و gmm در روش استفاده شده جهت امر خوشه بندی در این پروژه، به جای hmm های بکار رفته در مرحله پیش از خوشه بندی، از gmm استفاده شده است و نتایج بدست آمده مورد بررسی قرار گرفته است. تمامی آزمایش های انجام شده در این پروژه بر روی دادگان tidigits صورت گرفته و هیچگونه همپوشانی ای بین گوینده های آموزش و تست وجود ندارد. در انتها نتایج حاصل از تطبیق گوینده به روش eigenvoice و eigenvoice مقاوم آورده شده است که متأسفانه نسبت به مدل مبنا عملکرد ضعیفتری دارند.