以語言模型判斷學習者文句流暢度(Analyzing Learners 'Writing Fluency Based on Language Model)[In Chinese]

نویسندگان

  • Po-Lin Chen
  • Shih-Hung Wu
چکیده

由於現代科技以及 3C 產品的普及,使得孩子頻繁的接觸電視、網路、手機...等,因此 容易缺乏與人之間互動、溝通以及情感的表達,相對的,學生寫的作文常常是以流水帳 交代經過,有的學校甚至不考作文,但隨著教育政策的變動,國中教育會考加入了作文 評量的項目,使的作文再度受到學生及家長的重視。可是受限於學校教學時數,作文較 弱的學生容易缺少補救的機會。我們認為未來自學作文以及在家練習,可以藉由自動化 的作文教學系統輔助。而本系統開發作文教學系統之句子流暢度偵測,經由系統回饋的 診斷結果可以讓學生對詞句組合的理解力有所提升,幫助學生寫出較流暢的句子,藉此 提高他們的作文分數。系統所依賴的 N-gram 語言模型,它的特性是計算字詞間組合的 機率,機率越高的話字詞組合的正確性越高也就是越流暢,而語言模型效果相當依賴大 型的訓練語料,這是語言模型然能待克服的缺點,例如資料稀疏(Data sparseness)的問題, 可以使用平滑(smoothing)的方法解決;以及跨領域的問題,只要訓練語料的性質越不同 於測試的文章,我們所建立語言模型的效果就越差,因此語料庫也要跟著改變。

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

以語言模型評估學習者文句修改前後之流暢度(Using language model to assess the fluency of learners sentences edited by teachers)[In Chinese]

隨著科技的發展,現在 3C 產品可說是非常的普遍,也因為如此現在非常多的孩子從小就 接觸電腦、手機、平板等 3C 產品,使得現在學生更有可能以電腦作為寫作文的工具。雖 然教育政策將作文納入考試評分項目,使得學生跟家長再度重視寫作能力,但是受限於 教學時數,可以練習寫作的時間實在是不足以將那些寫作能力較弱的學生作有效提升。 因此我們認為未來可以藉由自動化的作文教學系統幫助學生在家自學作文。而我們所開 發作文教學之句子流暢度偵測系統,經由系統回傳的診斷結果,幫助學生提升詞句組合 的理解能力以寫出較順暢的句子,藉此提升他們作文的分數。本系統依賴 N-gram 的語言 模型[1],其特色是計算字詞間組合的機率,機率越高字詞組合的正確性就越高句子也就 越順暢,然而語言模型其效果相當依賴大型的訓練語料,這是語言模型仍待克服的問題, 而且如果訓練語料的性質跟要測試的文章性質越不相關,效果就會越差,...

متن کامل

運用概念模型化技術於中文大詞彙連續語音辨識之語言模型調適 (Leveraging Concept Modeling Techniques for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]

在實作上,概念模型會使用(搜尋)與初步語音辨識結果相關的同領域文件(或 調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此 來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是 「詞彙」面向與「文件群聚」面向。首先,在實作上,概念模型會使用(搜尋)與 初步語音辨識結果近似同領域文件(或調適語料)內表述的若干概念,用以近似語 者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建 立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先, 我們發展所謂的詞概念語言模型(Word-based Concept Language Model),並應用 於語言模型調適。在建構詞概念語言模型時,我們期望能夠針對每一語句不同的 語意內容(第一階段語音辨識結果,以詞圖[3]表示),在調適語料的若干相關的文 件中挑選一組具有代表性的概念...

متن کامل

主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]

本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...

متن کامل

應用錯誤型態分析於英語發音輔助學習 (English pronunciation assisted learning using error type analysis) [In Chinese]

摘要 語言教學方法主要是由以互動理論 (interactionist theories) 為基礎的溝通式教學法 (communicative language teaching) 所主導。因此,如果要針對學生個別的問題進行糾正,需要甚 多的時間,很難採用雙向互動的教學方法。要解決這樣的問題,電腦輔助語言學習系統 (Computer Assisted Language Learning System, CALL) 是個可行的方案。利用語音辨識 (Automatic Speech Recognition, ASR) 技術的電腦輔助發音訓練系統 (Computer Assisted Pronunciation Training, CAPT) 不但可以提供一個沒有壓力的環境,讓學生反覆的練習,同時也能針對學生個別的發音 問題,提供回饋與糾正的功能。本論文應用語音辨識、錯誤型態分析、及三維唇型...

متن کامل

Detecting Word Ordering Errors in Chinese Sentences for Learning Chinese as a Foreign Language

Automatic detection of sentence errors is an important NLP task and is valuable to assist foreign language learners. In this paper, we investigate the problem of word ordering errors in Chinese sentences and propose classifiers to detect this type of errors. Word n-gram features in Google Chinese Web 5-gram corpus and ClueWeb09 corpus, and POS features in the Chinese POStagged ClueWeb09 corpus ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2015