نام پژوهشگر: باقر باباعلی
محمد احمدی باقر باباعلی
این پژوهش، کوششی است برای ارائه یک ساختار وابسته به بافت برای بازشناسی گفتار پیوسته. مدل سازی مستقل از بافت، اثر واج های پیرامون را بر تلفظ هر واج، نادیده می گیرد و به همین دلیل، برای مدل سازی هر واج، همه نمونه های آموزشی مربوط به آن واج را در نظر می گیرد. در نظر گرفتن اثر بافت در مدل سازی، می تواند خطای بازشناسی را تا حد زیادی کاهش دهد. این پایان نامه با در نظر گرفتن واحد آوایی سه واجی، واج های پیشین و پسین هر واج را نیز در مدل سازی دخالت می دهد. به این صورت که سه واجی های مشابه با هم را از طریق الگوریتم خوشه بندی k-means تشخیص داده، یعنی سه واجی های مشابه را با هم در یک خوشه قرار می دهد. این کار موجب می شود که تنها نمونه هایی از یک واج، با هم آموزش داده شوند که بافت مشابهی داشته باشند. مهم ترین مشکلی که برای خوشه بندی وجود دارد، ناهمسانی ابعاد داده ها (ویژگی های مربوط به هر واج) است. برای همسان سازی ابعاد داده ها، از سه روش dtw ، تبدیل فوریه و pca استفاده شد. مشاهده شد که روش های تبدیل فوریه و نیز pca هم از نظر سرعت و هم از نظر دقت، بهتر از dtw عمل می کنند. همچنین در مقایسه دو روش تبدیل فوریه و pca، روش تبدیل فوریه موفق تر عمل کرد. پس از خوشه بندی، خوشه هایی که داده های آموزشی کمی داشتند، با یکدیگر ادغام گردیدند و نیز واج هایی که داده های آموزشی زیادی داشتند، به عنوان سه واجی های ویژه، در یک خوشه مستقل قرار گرفتند. در نهایت، مدل نهایی وابسته به بافت ارائه شده، که از روش تبدیل فوریه برای همسان سازی ابعاد استفاده می کند و از روش k-means، هر واج را ابتدا به سه خوشه تقسیم می کند و نیز پس از إعمال پس پردازش های یادشده، نرخ خطای واجی را از 34.7 (که مربوط به حالت مستقل از بافت بود) به 30.55 کاهش داد. بستر انجام آزمایش ها، محیط kaldi بوده است. نرخ خطای واجی روش پیش فرض kaldi در مرحله سه واجی، 30.98 است که نسبت به روش پیشنهادی، 0.43 درصد بیشتر است.
علی حیدری روح الله دیانت
در این پایان نامه روشی برای تطبیق مدل زبانی ارائه شده است. این روش، برمبنای ترکیب الگوریتم کاهش بعد locally linear embedding و مدل زبانی n-gram عمل میکند. الگوریتم locally linear embedding در کاهش ابعاد ساختار داده اصلی را حفظ مینماید. لذا انتظار داریم ساختار کلی ماتریس سند-کلمه در این کاهش بعد دچار خدشه زیاد نگردد. الگوریتم ارائه شده، با استفاده از زبان c++ و بهره گیری از توابع موجود در ابزارهای mlpack، armadillo و irstlm پیادهسازی گردید. نتایج پیادهسازی بهبود حدود 40 درصدی نسبت به n-gram متعارف را نشان میدهد.
مرتضی علی احمدی روح الله دیانت
در این پایاننامه دو روش استخراج ویژگی جدید که برای بازشناسی گفتار مفید است، ارائه شده است. ایده اصلی این پایاننامه، ارائه یک ساختار منعطف برای بانک فیلتر میباشد که به دادههای آموزشی وابسته است. درحالیکه سایر روشهای استخراج ویژگی نظیر mfcc، ساختار بانک فیلتر ثابت و غیرمنعطفی را ارائه میدهند. برای پیادهسازی هر دو ایده، ابتدا، تعدادی فیلتر یکسان در نظر گرفته میشود. سپس، در روش اول، برمبنای حل یک معادله دیوفانتی و در روش دوم، برمبنای چند معیار مهم مانند نرخ ادغام (mr) و اصلاح فیلتر مبتنیبر فرمنت (fbfm)، تعدادی از فیلترها با یکدیگر ادغام شده تا ساختار بانک فیلتر نهایی را بهوجود آورند. هر دو روش پیشنهادی با استفاده از ابزار kaldi پیادهسازی شدند و کارایی آنها روی پایگاهداده معروف timit مورد ارزیابی قرار گرفت. نتایج بهدست آمده نشان میدهد که روش اول حدود %9/0 و روش دوم، حداقل 1% در مقایسه با الگوریتم استخراج ویژگی mfcc، بهبود کارایی دارد.