《人民日報》語料庫命名實体分類的研究 (The Chinese Named Entity Categorization Based on the People's Daily Corpus)
نویسندگان
چکیده
Named entity recognition is a very important part of information retrieval and information extraction. Classification is also very important. This paper investigates the sub-classification of named entities from the point of view of information retrieval and information extraction. This paper also presents multi-classification and gives detailed information about each sub-class. We have manually annotated people’s daily corpus (1998) and conducted a serial of experiments using the statistical model of named entity recognition. The ∗ 富士通研究開發中心有限公司,100016 北京市朝陽區霄雲路 26 號鵬潤大廈 B306 室 Internet Application Laboratory, Fujitsu Research & Development Center Co., LTD. Room B306, Eagle Run Plaza No. 26, Xiao Yun Road, Chao Yang District, Beijing, 100016, P. R. China E-mail: {yjxia, yu, nisino}@frdc.fujitsu.com
منابع مشابه
Detecting Word Ordering Errors in Chinese Sentences for Learning Chinese as a Foreign Language
Automatic detection of sentence errors is an important NLP task and is valuable to assist foreign language learners. In this paper, we investigate the problem of word ordering errors in Chinese sentences and propose classifiers to detect this type of errors. Word n-gram features in Google Chinese Web 5-gram corpus and ClueWeb09 corpus, and POS features in the Chinese POStagged ClueWeb09 corpus ...
متن کامل漢語動詞辭彙語義分析:表達模式與研究方法 (A Lexical-Semantic Analysis of Mandarin Chinese Verbs: Representation and Methodology)
在這篇文章中我們將簡單扼要地介紹詞庫小組分析動詞語意的作法,包含了理 論部分以及分析的方法和步驟。這套理論架構是從實際分析的過程中逐漸形成 的,但尚未完全成熟。截至目前為止,我們已經分析了四十多組近義動詞和近 十組動詞語意場,並初步架構了一套由語意屬性組成的動詞語意表達模式。這 套理論和分析方法是建立在詞庫小組十幾年的研究基礎上,結合了眾人的力量 逐步完成的。 本文嘗試統合眾人的研究所得,設法銜接理論與語言事實,並詳細介紹我 們的研究方法。關於理論部分,詞庫小組已發表了許多篇論文。早期架構請參 考 Tsai 等人[1998]、Huang 等人[1998],最近的架構請參考 Huang 等人[見本期 刊]。這些論文側重理論架構在學理上的探討,對語言事實涉及較少。本文則 採用較多的語料,設法將理論落實。此外,詞庫小組也發表多篇論文探討了幾 個特定近義詞組或語意場,像是 Chang 等人[...
متن کامل語料庫導向之方位短句於固定框架的共現概念統計分析 (A Corpus-driven Pattern Analysis in Locative Phrases: A Statistical Comparison of Co-appearing Concepts in Fixed Frames) [In Chinese]
中文的方位詞組主要可以前飾詞(以、之)與後綴詞(邊、面、頭),結合明確的方向指引 (如:前後、上下、左右、裡外等)組合而成。這樣的組成在實際使用上,卻會有避免使 用或不存在的組合邏輯,同時這樣的現象亦發生在方位短語構成上。本研究試使用計算 統計方法,分析在 Sketch Engine 中取得的方位名詞組的概念合成模式。在詞彙概念方 面,我們使用具知識層級架構的中文同義詞詞林[1]進行將詞彙的概念探索,並計算方 位短句裡所包含的知識概念組成模式,最後試從統計方法上尋得詮釋概念與方位詞組組 合模式的實證資訊。在本研究之中,我們使用了資訊度量方法中的互斥資訊(Point-wise Mutual Information, PMI)進行統計分析兩個詞組概念間的相關性,並使用多變數互斥資 訊 (Multivariate Mutual Information, MMI)[2]進行三個概念間的相關分...
متن کاملViewpoint-based Text Categorization and Summarization
科学技術や文化の急速な発展によって,言葉や事柄についてWorld Wide Web上のツールを用い て調べる機会が増えている.検索エンジンは情報の量が多いものの,情報が統制されておらず質が 低い.人手で編集する事典は情報の質が高いものの,情報の量が制限される.両者の長所を統合 するために,筆者らは,Web情報や特許情報から説明テキストを抽出し,体系化する研究を行っ ている.本研究は,ある見出し語について説明した複数のテキストを観点に基づいて分類するこ とで,多面的な要約を生成する手法を提案する.動物名や病名といった見出し語の種類によって 説明に必要な観点が異なるため,人手による手法では大規模化が困難である.そこで,Wikipedia から見出し語の種類ごとに観点の構造に関するテンプレートを抽出する.さらに,Wikipediaの 記事を機械学習のデータとして利用して,与えられた説明テキ...
متن کامل基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]
廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- IJCLCLP
دوره 10 شماره
صفحات -
تاریخ انتشار 2005