基於半監督式學習之廣播節目語音逐字稿自動轉寫系統 (Automatic Transcription of Broadcast Radio Speech Based on Quality Estimation-Guided Semi-Supervised Training) [In Chinese]
نویسندگان
چکیده
廣播節目製作時通常只有收錄語音訊號,沒有保留相對應的節目內容詮釋資料 (metadata),導致節目播出後,很難檢索節目內容,或是加以組織再利用。針對此問題, 常用的方法是以語音辨認器,自動轉寫廣播節目內容,產生語音逐字稿,但是目前缺乏 已標記好的廣播語音語料庫,因此無法訓練出適合轉寫廣播節目的語音辨識器。所以在 本論文中,我們探討如何同時使用語音訊號特徵參數、辨認器辨認結果與語言模型參數, 訓練一語音品質估算(Quality Estimation,QE)器,取代傳統只依賴語音辨認器的信心值 估算(Confidence Measure),從源源不絕,但未標記的大量廣播語料中,挑選適合訓練 語音辨認器的語料,進行半監督式聲學模型訓練,以提升轉寫廣播語料逐字稿的效能。 實驗中以一不佳錄音品質 NER-set1 與一優良 NER-set2 之廣播節目測試語料集,測試種 子語音辨認器與經半監督式訓練後,新的語音辨認器轉寫語音逐字稿的效能。實驗結果 顯示經半監督式訓練後,新的語音辨認器可以把 NER-set1 與 NER-set2 的字元辨認錯誤 率(CER)從原始種子模型的 25%與 14.24%,壓低至 23.61%與 13.24%。此外,若進一 步改用進階語言模型,更可將 CER 再改善至 23.25%與 12.63%。 關鍵詞:半監督式學習、品質估算、信心度評估、語音辨認系統 The 2017 Conference on Computational Linguistics and Speech Processing ROCLING 2017, pp. 197-212 The Association for Computational Linguistics and Chinese Language Processing
منابع مشابه
基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]
廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...
متن کامل非監督式學習於中文電視新聞自動轉寫之初步應用 (Unsupervised Learning for Chinese Broadcast News Transcription) [In Chinese]
متن کامل
國語廣播新聞語料轉述系統之效能評估 (Evaluation of Mandarin Broadcast News Transcription System) [In Chinese]
在 1995 年世界四個做語音辨認研究的著名單位(BBN, CMU, Dragon 及 IBM)開始參與一個在 當年是一項創舉的語音辨認評比之語音資料庫建立工作,該語音資料庫稱做 Hub-4,在此項評比 中希望能做到廣播新聞語料自動轉述(automatic broadcast news transcription)[1]。Hub-4 語料庫中也 已陸續加入許多語料,事實上 Hub-4 語料庫中也已經有國語廣播新聞語料,其內容是由大陸中央 台及洛杉磯中文台的廣播新聞節目錄製而成。由 1999 年 DARPA 所舉辦的語音辨認評比的結果 可以看出世界各大語音辨認研究單位在廣播新聞語料自動轉述已獲得重大的進展;不只在語音辨 認方面,在 segmentation、information extraction、topic detection 等技術都有許多成果。在英文廣播 新聞語料語音辨認方面...
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...
متن کامل