LIVAC共時語料庫

(1)簡介

LIVAC漢語共時語料庫(Linguistic Variation in Chinese Speech Communities)與眾不同,因為它以嚴緊、恆常與「共時」方式,搜索和處理了超常的大量漢語具代表性報章語料,並通過精密的技術,累積了泛華語地區眾多精確的統計數據。本語料庫最大特點是採用「共時性」視窗模式,剖析來自香港,北京,上海,台灣,澳門,星加坡等多地的定量華語媒體語料。直至2016年,LIVAC已處理逾6.0億字,累積並持續提煉出約兩百萬詞條。LIVAC所收集各地語用數據,可供各種比較研究,並方便有關的信息科技發展與應用。此外,語料庫又兼顧了「歷時性」,方便各界以專詞配合語用範圍搜索(KWIC),以便客觀地觀察與研究20年視窗內有代表性的語用發展全面動態。經過協調與配合個別需求,例如針對性以地區、時段或範疇,LIVAC曾為多個公、私營機構提供服務,包括語言工程,資訊服務,詞典編著,媒體分析與教育各方面機構等。LIVAC由香港城市大學語言資訊科學研究中心開發和推展,由城大企業有限公司旗下麒麟(香港)有限公司提供技術支援。2010年至2013年期間,LIVAC曾掛靠於香港教育學院語言資訊科學研究中心。自20137月起,LIVAC由麒麟(香港)有限公司獨家維護和開發。

截至201310月,LIVAC曾處理過各地語料總字數、及所得詞種如下(單位:百萬)

總計

香港

台灣

北京

上海

澳門

新加坡

廣州

總字數

517

122

70

113

66

36

57

43

總詞種

2.1

0.9

0.6

0.8

0.5

0.3

0.4

0.4

(2)語料處理:

1.      來自媒體、自行輸入、登錄

2.      統一為文字版,簡轉繁,儲存Big5Unicode兩版本

3.      電腦自動切詞,電腦自動校對

4.      人工校對、複校,詞類標注

5.      提取詞語,加入各地詞庫

6.      各地詞庫組合為LIVAC大語庫

(3)標注及應用

a. 多種分類,如一般名詞與專用名詞,例如人名;地名;專名(人名、姓氏、半稱謂、地名、機構專名、商用專名、其他專名、時間詞、方位詞、處所詞等);疊詞;外文詞;套裝詞;數詞等。

b. 設人名庫、地名庫、專名庫

c. 提供「專名榜」、「新詞榜」、「名人榜」、「地名榜」,覆合詞及匹配詞

d. 其他標注,如一般名詞;數詞;量詞;多類動詞;多類形容詞;代詞;副詞;介詞;連詞;多類助詞;語氣詞;擬聲詞;嘆詞;不完整詞等。

(4)特點

由於LIVAC語料是多方面平行「共時」、「同步」方式搜集語料,語料來源涵蓋整個泛華語地區,故可協助搜索資料及作分析,是目前有別於其他任何漢語語料庫或同類型研究。這點,特別得到語文界及其他方面專家、學者的認同和重視。同時,由於語料庫歷時十九年,因此「共時性」以外又兼顧了「歷時性」,方便研究人員客觀地探究到視窗內的有代表性的語言發展全面動態。LIVAC所提供的不僅是語言資料,還同時提供共時的社會、文化檔案資料,猶如一個系列性的時間錦囊。

(5)應用

(6)歷史背景

LIVAC由香港城市大學語言資訊科學研究中心開發和推展,由城大企業有限公司旗下麒麟(香港)有限公司提供技術支援。2010年至2013年期間,LIVAC曾掛靠於香港教育學院語言資訊科學研究中心。自20137月起,LIVAC由麒麟(香港)有限公司獨家維護和開發。

LIVAC主要由鄒嘉彥開發並主持研究,期間曾參與研究工作的包括游汝杰、胡百華、鄺藹兒、錢志安、蔡永富、廖國輝、陳加強、周嘉寶等。

(7)網址及查詢

網址: www.livac.org; 電郵: livac.org@hotmail.com



(8)有關著作(含中英文參考書目)

1. 書藉 Books

2. 章節 Book Chapters

3. 期刊文章 Serial Publications