北京大學語料庫 - 網路之家

北京大學語料庫 - 網路之家 - 北京大學語料庫


!!!!! > 進入超人氣園地 < !!!!!

北京大學語料庫

北大詞義標注語料庫新鮮面世

                                      

      北京大學計算語言學研究所(ICL/PKU)正在研究開發一個大規模、高質量的現代漢語詞義標注語料庫(Chinese Word Sense Tagging Corpus, STC),力爭成為現代漢語詞義消歧研究訓練和測試的基準語料,成為現代漢語詞彙語義學研究的寶貴資源。詞義標注語料庫的語義知識主要來源於ICL/PKU開發的《現代漢語語義詞典》,再參照《現代漢語詞典》,根據語料的實際使用狀況對詞義描寫作出調整,標注的對象是人民日報經過了詞語切分和詞性標注的基本標注語料庫。
      這項研究是國家973課題「文本內容理解的數據基礎」(課題編號:2004CB318102,課題負責人:俞士汶教授)所屬的一項子任務。該課題屬於國家 973項目「數字內容理解的理論與方法」(首席科學家:譚鐵牛教授)。子任務負責人是吳雲芳博士,先後參加這項研究工作的有:段慧明高級工程師,張仰森教授,曲維光副教授,郭濤,金澎(博士生),溫珍珊(碩士生),幸運(碩士生),裴雨來(博士生),芮芊芊(本科生)。子任務組衷心感謝973項目的資助以及譚鐵牛教授和俞士汶教授的指導。
      詞義標注語料庫建設建立在ICL/PKU雄厚的語言資源技術基礎上。《現代漢語語法信息詞典》(GKB)是整個語言資源大廈的第一塊基石,這是一部面向語言信息處理的大型電子詞典,依照語法功能和意義相結合的準則收錄了8萬詞語,在大致分類的基礎上按類描述了每個詞的各種語法屬性。在GKB的基礎上發展的《現代漢語語義詞典》面向機器翻譯應用,建立了漢語語義分類體系,並據此描述了6萬餘詞語豐富的語義組合信息;「大規模基本標注語料庫」有一個嚴謹的適應漢語特點和應用需要的基本加工規範,詞語切分和詞性標注的準確率都達到了很高的水平。ICL/PKU已有的這些成果,使我們的詞義研究有了一個較高的起點。
       截至目前,已對 106 個動詞、350 個名詞進行了義項區分和描寫,在人民日報 2000 年1、2、3 月和1998 年 1 月 1-10 日 10天的語料中共標注了 54550 個詞語的意義。現將詞義標注語料庫的一個小規模成果公佈於學術界,以期獲得學界的批評與方家的指正。發佈的語料為1998 年 1 月 10 日的文本共計約 35 萬字,已分析標注 217 個多義名詞和 45 個多義動詞,共標注了 4093 個詞語的意義。發佈的內容包括 5 個部分:1)內容簡介;2)詞義標注語料庫;3)現代漢語語義詞典,多義名詞和動詞的分析描寫;4)義項分佈頻率統計表;5)中心詞對齊索引格式(KWIC)的義項文件。 
         詞義標注語料庫建設和《現代漢語語義詞典》是一個互動增長的過程。一方面依據詞典中的意義區分對語料中出現的多義詞語賦予一個確定的義項,另一方面也根據語料中詞語的實際使用狀況對詞義區分作出調整和修改。《現代漢語語義詞典》採用屬性特徵的形式來描述意義,這次發佈的只是詞典中的部分內容。詞義標注語料庫採用意義編碼的方式來表示不同義項,詞性標注後 ! 部分表示義項序號,第一個數字表示同形信息,直接繼承自《現代漢語語法信息詞典》,第二個數字表示義項信息,是在同形的基礎上對意義的進一步區分。


附 詞義標注語料庫研究的起點資料:
中國社科院語言研究所詞典編輯室編. 1996. 2005.《現代漢語詞典》.北京:商務印書館.
俞士汶等.2003.《現代漢語語法信息詞典詳解》.北京:清華大學出版社.
王惠,詹衛東,俞士汶.2003. 現代漢語語義詞典規格說明書.《漢語語言與計算學報》, 13(2),Pp 159-176.
俞士汶,段慧明,朱學鋒,孫斌,常寶寶.2003.北大語料庫加工規範:切分、詞性標注、注音. 《漢語語言與計算學報》, 13(2),Pp 121-158.
吳雲芳,俞士汶.2006.信息處理用詞語義項區分的原則和方法.《語言文字應用》待刊.

【作者: 劉兵】【訪問統計:】【2006年05月1日 星期一 08:50】【 加入博采】【打印

日曆

<< 2007·04 >>

Sun

Mon

Tue

Wen

Thu

Fri

Sat

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

控制面板

最近引用

    Search

    站點統計

    • 文章總數:1388
    • 評論總數:32
    • 引用總數:0
    • 瀏覽總數:Errorvisit
    • 當前樣式:default
    • 當前語言:UTF-8

    鏈接

    圖標彙集


    Powered By Z-Blog 1.6 Final Build 60816

    Copyright 2007 LetsFun.info.