「V到」結構的合分詞及語意區分(Word segmentation and sense representation for V-dao structure in Chinese)[In Chinese]
نویسندگان
چکیده
منابع مشابه
A Study of Words of the “Ge” Type in the Chinese Dialects
「箇」的量詞用法存在於現代漢語各方言區,其指代詞和相當於「的1、的2、的 3」的結構助詞用法,則存在於南方的漢語方言以及相鄰的少數官話方言點中。指代 詞「箇1」的次類複雜,在江淮官話黃孝片是所指不分遠近的定指詞,在贛語、湘 語、徽語區主要演變為近指代詞,在粵語區、閩語中的個別地方主要演變為遠指代 詞,在客家話和相鄰的部分贛語中分化為遠指代詞和近指代詞;在吳語區以演變為 近指代詞為主,其他各類指代詞都有一定的存在面。「箇1」由定指詞向各類指示代 詞的演變,基本上是在長江以南分別成片進行的,表現出「大集中、小分散」的格 局,吳語區則反映出定指詞與中性、近指、遠指代詞並存的局面。在指代詞「箇1」 分佈的各方言區以及平話中,大都存在相當於「的3」的結構助詞「箇3」;在「箇 1」用作定指詞、近指代詞的贛語、湘語、吳語、客家話的部分方言中,則存在相當 於「的1、的2」的結構助詞「箇2」。「箇類詞...
متن کامل漢語動詞辭彙語義分析:表達模式與研究方法 (A Lexical-Semantic Analysis of Mandarin Chinese Verbs: Representation and Methodology)
在這篇文章中我們將簡單扼要地介紹詞庫小組分析動詞語意的作法,包含了理 論部分以及分析的方法和步驟。這套理論架構是從實際分析的過程中逐漸形成 的,但尚未完全成熟。截至目前為止,我們已經分析了四十多組近義動詞和近 十組動詞語意場,並初步架構了一套由語意屬性組成的動詞語意表達模式。這 套理論和分析方法是建立在詞庫小組十幾年的研究基礎上,結合了眾人的力量 逐步完成的。 本文嘗試統合眾人的研究所得,設法銜接理論與語言事實,並詳細介紹我 們的研究方法。關於理論部分,詞庫小組已發表了許多篇論文。早期架構請參 考 Tsai 等人[1998]、Huang 等人[1998],最近的架構請參考 Huang 等人[見本期 刊]。這些論文側重理論架構在學理上的探討,對語言事實涉及較少。本文則 採用較多的語料,設法將理論落實。此外,詞庫小組也發表多篇論文探討了幾 個特定近義詞組或語意場,像是 Chang 等人[...
متن کاملAutomatic labeling of troponymy for Chinese verbs
以同義詞集與詞彙語意關係架構而成的詞彙知識庫,如英語詞網 (Wordnet)、歐語詞 網 (EuroWordnet)等,已有充分的研究,詞網的建構也已相當完善。基於相同的目的,中 研院語言所亦已建立大規模之中文詞彙網路 (Chinese Wordnet,CWN),旨在提供完整的 中文辭彙之詞義區分。然而,在目前之中文詞彙網路系統中,由於目前主要是採用人為判 定來標記同義詞集之間的語意關係,因此這些標記之數量尚未達成可行應用之一定規模。 因此,本篇文章特別針對動詞之間的上下位詞彙語意關係 (Troponymy),提出一種自動標 記的方法。我們希望藉由句法上特定的句型 (lexical syntactic pattern),建立一個能夠自 動抽取出動詞上下位的系統。透過詞義意判定原則的評估,結果顯示,此系統自動抽取出 的動詞上位詞,正確率將近百分之七十。本研究盼能將本方法應用於正在發展中...
متن کاملA Hybrid Approach for Automatic Classification of Chinese Unknown Verbs
本論文合併兩種方法預測未知動詞的詞類。第一種方法為規則法,即從訓練 語料中歸納出未知動詞組成的構詞規律,分成兩個主要的判斷方式:一、依 照未知動詞的組成的關鍵字決定其分類。二、依照未知動詞的構成組合決定 其分類。 關鍵字法首先將動詞依長度分為四組。第一組為二字詞、三字詞、四字詞、 五字以上的詞彙。在對實際語料的觀察下,發現不同詞長的動詞結構相異, 因此將語料依詞長分組。例如:三字詞可訓練出「好」、「出」兩條規則決 定動詞的詞類,其他長度的未知動詞並沒有這兩條規則,另外「化」規則不 適用於二字動詞。 規則法的第二部分為依照構成組合決定其分類。在觀察未知動詞時,發現有 部分未知動詞的組合很具有規律,我們就將訓練語料中未知動詞的組合做個 歸納,得到九種組合。在十次實驗中,規則法可以處理的未知動詞平均約為 23.19%,猜測正確的比例為 91.67%。 二、相似法為利用與未知動詞相似的例子來...
متن کاملSemantic Associative Topic Models for Information Retrieval
主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...
متن کامل