توانایی گفتار 言語体系

基於半監督式學習之廣播節目語音逐字稿自動轉寫系統 (Automatic Transcription of Broadcast Radio Speech Based on Quality Estimation-Guided Semi-Supervised Training) [In Chinese]

2017

Sing-Yue Wang Wu-Hua Hsu Yuan-Fu Liao

廣播節目製作時通常只有收錄語音訊號,沒有保留相對應的節目內容詮釋資料 (metadata),導致節目播出後,很難檢索節目內容,或是加以組織再利用。針對此問題, 常用的方法是以語音辨認器,自動轉寫廣播節目內容,產生語音逐字稿,但是目前缺乏已標記好的廣播語音語料庫,因此無法訓練出適合轉寫廣播節目的語音辨識器。所以在本論文中,我們探討如何同時使用語音訊號特徵參數、辨認器辨認結果與語言模型參數, 訓練一語音品質估算(Quality Estimation,QE)器,取代傳統只依賴語音辨認器的信心值估算(Confidence Measure),從源源不絕,但未標記的大量廣播語料中,挑選適合訓練語音辨認器的語料,進行半監督式聲學模型訓練,以提升轉寫廣播語料逐字稿的效能。實驗中以一不佳錄音品質 NER-set1 與一優良 NER-set2 之廣播節目測試語料集,測試種子語音辨認器與經半監...

متن کامل

Sequence of spectrum slices Sequence of cepstrum vectors Sequence of distributions Structuralization by interrelating temporally-distant events

2007

1 はじめに一つの言語には数十種類の音素がある。しかし音素の音的実体は前後の音素環境などによって変形し,異音と呼ばれる。音素と比較して種類数も多く,より具体的な音的現象に対応している。しかし奇̇妙̇な̇こ̇と̇に̇,これら音的事象を記号を用いて記す場合,性別,年齢,収録・伝送機器特性などの非言語的要因による音の変形は一切無視される。その音響的変形が幾ら大きくても,である。音声認識の音響モデリングは,凡そ,異音に相当する音事象をモデル化しているが,「非言語的変形の無視」を実装するために,数千~数十万人の話者から,様々な環境で収録した音サンプル群を統計的に分布としてモデル化している。本稿では,「非言語的変形の無視」の実装は,集めることではなく,音事象間の差異を捉えることで可能となることを数学的に示し,極めて少数の話者の音声で,不特定話者音声認識が可能であることを示す。提案する枠組み...

متن کامل

主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]

2009

Kuan-Yu Chen Berlin Chen

本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者詞虛擬文件與詞之間的關係...

متن کامل

Tablet-based English Listening practice with longer listening materials

2015

Yasushi Tsubota Yasushi TSUBOTA Masatake DANTSUJI

When teachers introduce listening and speaking activities in school education, they are no choice but use relatively short materials due to short class-time length. But the ordinary length of lectures or talk shows is more than 20 to 30 minutes.It implies that in real world, people are required to have the ablitiy to listen to longer English materials. In this paper, we examine the speech items...

متن کامل

Alignment by Bilingual Generation and Monolingual Derivation

2012

Toshiaki Nakazawa Sadao Kurohashi

One of the main issues in a word alignment task is the difficulty of handling function words that do not have direct translations which we call unique function words. They are often aligned to some words in the other language incorrectly. This is prominent in language pairs with very different sentence structures. In this paper, we propose a novel approach for handling unique function words. Th...

متن کامل

強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]

2009

Sheng-Yuan Huang Wen-Hsiang Tu Jeih-Weih Hung

雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可以分別正規化不同頻段的統計特性,進而提升語音特...

متن کامل

Evaluation of a System for Noun Concepts Acquisition from Utterances about Images (sinca)

2008

Yuzu Uchida Kenji Araki

In case of a robot working in an open environment, the task-oriented language ability will not be sufficient. To adapt to the environment, it is necessary to acquire language dynamically. We developed a System for Noun Concepts Acquisition from utterances about Images, called SINCA in short. It is a language acquisition system without knowledge of grammar and vocabulary, which learns noun conce...

متن کامل

運用概念模型化技術於中文大詞彙連續語音辨識之語言模型調適 (Leveraging Concept Modeling Techniques for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]

2014

Po-Han Hao Ssu-Cheng Chen Berlin Chen

在實作上,概念模型會使用(搜尋)與初步語音辨識結果相關的同領域文件(或調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先,在實作上,概念模型會使用(搜尋)與初步語音辨識結果近似同領域文件(或調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先, 我們發展所謂的詞概念語言模型(Word-based Concept Language Model),並應用於語言模型調適。在建構詞概念語言模型時,我們期望能夠針對每一語句不同的語意內容(第一階段語音辨識結果,以詞圖[3]表示),在調適語料的若干相關的文件中挑選一組具有代表性的概念...

متن کامل

Cognitive competence required for spoken language performance and computational competence realized by spoken language engineering

2008

Nobuaki MINEMATSU

あらまし波形素片やスペクトル素片をテンプレートとして保有し,音響照合・音声生成を行なう方法論から,HMM や GMMに代表される数理統計的な音響モデリング技術の台頭によって,音声認識・合成技術の性能・柔軟性は著しく向上した。しかし音声言語工学が構築して来た計算論的能力と,音声言語運用に関する人間の認知的能力には大きな差異があることは否めない。音声認識では,多様な話者性に対処するために数千・万の話者を使って音響モデルを構築するが(かつ,適応技術を用いたモデル補正が必要となる),幼児の音声言語獲得過程を考えると,聴取する声の多くは母親,父親,自身の声であり,非常に限られた話者性の音声である。音声合成に目を向ければ,合成器が生成するのは学習話者の声である。しかし父親の太い声を模倣する幼児はいない。親の声の物真似を通して音声言語を獲得した事例は存在しない。音声言語工学は音声言語...

متن کامل

Speech Shift: Speech Input Interface Using Intentional Control of Voice Pitch

2005

Yukihiro OMOTO Masataka GOTO Katunobu ITOU Tetsunori KOBAYASHI

あらまし本論文では,非言語情報の一つである音高を利用した,「音声シフト」という新たな音声入力インタフェース機能を提案する.従来の音声認識システムが主に言語情報だけを利用してきたのに対し,我々は非言語情報を積極的に活用することによって,音声のもつ潜在能力を引き出した使いやすいインタフェースを構築することを目指している.音声シフトでは,普通に発声した発話と故意に高く発声した発話を異なる入力モードに割り当てることで,音声のみでモード指定と情報入力とを同時に行うことを可能にする.例えば,音声ディクテーションにおいて,「改行」と普通に発声するとその文字が入力され(文字入力モード),それを高く発声すると行末が改行される(コマンドモード)機能が実現できる.こうした機能を実現するために,本研究では,故意に高い発声を識別する際に必要となる話者ごとの音高の基準を,有声休止区間の音高を用い...

متن کامل