ارائه یک ساختار جدید وابسته به بافت برای بازشناسی گفتار پیوسته

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی
نویسنده محمد احمدی
استاد راهنما باقر باباعلی روح الله دیانت
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1393

چکیده

این پژوهش، کوششی است برای ارائه یک ساختار وابسته به بافت برای بازشناسی گفتار پیوسته. مدل سازی مستقل از بافت، اثر واج های پیرامون را بر تلفظ هر واج، نادیده می گیرد و به همین دلیل، برای مدل سازی هر واج، همه نمونه های آموزشی مربوط به آن واج را در نظر می گیرد. در نظر گرفتن اثر بافت در مدل سازی، می تواند خطای بازشناسی را تا حد زیادی کاهش دهد. این پایان نامه با در نظر گرفتن واحد آوایی سه واجی، واج های پیشین و پسین هر واج را نیز در مدل سازی دخالت می دهد. به این صورت که سه واجی های مشابه با هم را از طریق الگوریتم خوشه بندی k-means تشخیص داده، یعنی سه واجی های مشابه را با هم در یک خوشه قرار می دهد. این کار موجب می شود که تنها نمونه هایی از یک واج، با هم آموزش داده شوند که بافت مشابهی داشته باشند. مهم ترین مشکلی که برای خوشه بندی وجود دارد، ناهمسانی ابعاد داده ها (ویژگی های مربوط به هر واج) است. برای همسان سازی ابعاد داده ها، از سه روش dtw ، تبدیل فوریه و pca استفاده شد. مشاهده شد که روش های تبدیل فوریه و نیز pca هم از نظر سرعت و هم از نظر دقت، بهتر از dtw عمل می کنند. همچنین در مقایسه دو روش تبدیل فوریه و pca، روش تبدیل فوریه موفق تر عمل کرد. پس از خوشه بندی، خوشه هایی که داده های آموزشی کمی داشتند، با یکدیگر ادغام گردیدند و نیز واج هایی که داده های آموزشی زیادی داشتند، به عنوان سه واجی های ویژه، در یک خوشه مستقل قرار گرفتند. در نهایت، مدل نهایی وابسته به بافت ارائه شده، که از روش تبدیل فوریه برای همسان سازی ابعاد استفاده می کند و از روش k-means، هر واج را ابتدا به سه خوشه تقسیم می کند و نیز پس از إعمال پس پردازش های یادشده، نرخ خطای واجی را از 34.7 (که مربوط به حالت مستقل از بافت بود) به 30.55 کاهش داد. بستر انجام آزمایش ها، محیط kaldi بوده است. نرخ خطای واجی روش پیش فرض kaldi در مرحله سه واجی، 30.98 است که نسبت به روش پیشنهادی، 0.43 درصد بیشتر است.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs, to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously ass...

متن کامل

مدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی

مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...

متن کامل

ارائه یک ساختار جدید چند طبقه‌ای برای اینورترهای منبع امپدانسی

In this paper, a multi-stage Z-source inverter with high boost factor is proposed. The proposed topology by using the combination of a power supply and Z-source networks are increased the voltage. Regarding voltage increase capability over the wide range, good resistance against electromagnetic noise and immunities against shoot through (ST), this inverter can be used widely in the photovoltaic...

متن کامل

ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

در این پایان نامه، یک پیش پردازش برای روشهای بازیابی اطلاعات، ارائه می شود، که برای بازیابی اطلاعات حاصل از متون بازشناسی شده ی گفتاری، مناسب است. ورودیهای مسئله اسناد متنی بدست آمده از بازشناسی گفتار و پرس و جو است. هدف یافتن اسناد مرتبط می باشد. مشکل این است که متن حاصل از بازشناسی گفتار، همواره دارای درصدی خطا در بازشناسی است که موجب می شود، بازیابی به خوبی عمل نکرده و اسناد مرتبط تشخیص داده...

15 صفحه اول

ارائه یک الگوریتم جدید برای پارک موازی خودرو مبتنی بر طراحی مسیر با انحنای پیوسته کلوتوئید

یکی از دستاورد‌های صنعت خودرو در سال‌های اخیر اضافه نمودن سیستم انجام پارک خودوند خودرو می‌باشد که این سیستم میتواند بدون دخالت یا با راهنمایی انسان خودرو را در محل مورد نظر پارک نماید. در این مقاله با ارایه یک الگوریتم جدید سعی شده تا با استفاده از خواص منحنی کلوتوئید، مسیر قابل پیمایشی برای حرکت خودرو به سمت جایگاه پارک طراحی شود. حرکت خودرو در این مسیرِ هموار به صورت پیوسته، با سرعت ثابت و ای...

متن کامل

معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی

In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی

کلمات کلیدی

بازشناسی گفتار تجزیه و تحلیل گفتار ساخت واجی رمزگذاری گفتار سیگنال پردازی صوتی ساختار بافت

میزبانی شده توسط پلتفرم ابری doprax.com