The first FOSD-tacotron-2-based text-to-speech application for Vietnamese

نویسندگان

چکیده

Recently, with the development and deployment of voicebots which help to minimize personnels at call centers, text-to-speech (TTS) systems supporting English Chinese have attracted attentions researchers corporates worldwide. However, there is very limited published works in TTS developed for Vietnamese. Thus, this paper presents detail first Tacotron-2-based application Vietnamese that utilizes publicly available FPT open speech dataset (FOSD) containing approximately 30 hours labeled audio files together their transcripts. The was made by Corporation an access license. A new cleaner language rather than provided default Mozilla source code. After 225,000 training steps, generated speeches mean opinion score (MOS) well above average value 2.50 center around 3.00 both clearness naturalness a crowd-source survey.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Tacotron: Towards End-to-End Speech Synthesis

A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module. Building these components often requires extensive domain expertise and may contain brittle design choices. In this paper, we present Tacotron, an end-to-end generative text-to-speech model that synthesizes speech directly from characters. G...

متن کامل

application of upfc based on svpwm for power quality improvement

در سالهای اخیر،اختلالات کیفیت توان مهمترین موضوع می باشد که محققان زیادی را برای پیدا کردن راه حلی برای حل آن علاقه مند ساخته است.امروزه کیفیت توان در سیستم قدرت برای مراکز صنعتی،تجاری وکاربردهای بیمارستانی مسئله مهمی می باشد.مشکل ولتاژمثل شرایط افت ولتاژواضافه جریان ناشی از اتصال کوتاه مدار یا وقوع خطا در سیستم بیشتر مورد توجه می باشد. برای مطالعه افت ولتاژ واضافه جریان،محققان زیادی کار کرده ...

15 صفحه اول

developing a pattern based on speech acts and language functions for developing materials for the course “ the study of islamic texts translation”

هدف پژوهش حاضر ارائه ی الگویی بر اساس کنش گفتار و کارکرد زبان برای تدوین مطالب درس "بررسی آثار ترجمه شده ی اسلامی" می باشد. در الگوی جدید، جهت تدوین مطالب بهتر و جذاب تر، بر خلاف کتاب-های موجود، از مدل های سطوح گفتارِ آستین (1962)، گروه بندی عملکردهای گفتارِ سرل (1976) و کارکرد زبانیِ هالیدی (1978) بهره جسته شده است. برای این منظور، 57 آیه ی شریفه، به صورت تصادفی از بخش-های مختلف قرآن انتخاب گردید...

15 صفحه اول

a new type-ii fuzzy logic based controller for non-linear dynamical systems with application to 3-psp parallel robot

abstract type-ii fuzzy logic has shown its superiority over traditional fuzzy logic when dealing with uncertainty. type-ii fuzzy logic controllers are however newer and more promising approaches that have been recently applied to various fields due to their significant contribution especially when the noise (as an important instance of uncertainty) emerges. during the design of type- i fuz...

15 صفحه اول

A Study of Text Normalization in Vietnamese for Text-to-speech System

Text Normalization plays an important role in a Text-To-Speech (TTS) system. There are many researches on the topic in recent years. But we still have had many problems to deal with. In Vietnam, developing TTS system has had many positive results but researching Text Normalization hasn’t got necessary attention. Many TTS system in Vietnamese can only process the input text in pronounceable form...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Bulletin of Electrical Engineering and Informatics

سال: 2021

ISSN: ['2302-9285']

DOI: https://doi.org/10.11591/eei.v10i2.2539