LIVAC共时语料库简介

(1)简介

LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities)与众不同,因为它以严紧、恒常与“共时”方式,搜索和处理了超常的大量汉语具代表性报章语料,并通过精密的技术,累积了泛华语地区众多精确的统计数据。本语料库最大特点是采用“共时性”视窗模式,剖析来自香港,北京,上海,台湾,澳门,星加坡等多地的定量华语媒体语料。直至2016年,LIVAC已处理逾6.0亿字,累积并持续提炼出约两百万词条。LIVAC所收集各地语用数据,可供各种比较研究,并方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各界以专词配合语用范围搜索(KWIC),以便客观地观察与研究20年视窗内有代表性的语用发展全面动态。经过协调与配合个别需求,例如针对性以地区、时段或范畴,LIVAC曾为多个公、私营机构提供服务,包括语言工程,资讯服务,词典编著,媒体分析与教育各方面机构等。LIVAC由香港城市大学语言资讯科学研究中心开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至2013年期间,LIVAC曾挂靠于香港教育学院语言资讯科学研究中心。自20137月起,LIVAC由麒麟(香港)有限公司独家维护和开发。

截至201310月,LIVAC曾处理过各地语料总字数、及所得词种如下(单位:百万)

总计

香港

台湾

北京

上海

澳门

新加坡

广州

总字数

517

122

70

113

66

36

57

43

总词种

2.1

0.9

0.6

0.8

0.5

0.3

0.4

0.4

(2)语料处理:

1.      来自媒体、自行输入、登录

2.      统一为文字版,简转繁,储存Big5Unicode两版本

3.      电脑自动切词,电脑自动校对

4.      人工校对、复校,词类标注

5.      提取词语,加入各地词库

6.      各地词库组合为LIVAC大语库

(3)标注及应用

a. 多种分类,如一般名词与专用名词,例如人名;地名;专名(人名、姓氏、半称谓、地名、机构专名、商用专名、其他专名、时间词、方位词、处所词等);叠词;外文词;套装词;数词等。

b. 设人名库、地名库、专名库

c. 提供“专名榜”、“新词榜”、“名人榜”、“地名榜”,覆合词及匹配词

d. 其他标注,如一般名词;数词;量词;多类动词;多类形容词;代词;副词;介词;连词;多类助词;语气词;拟声词;叹词;不完整词等。

(4)特点

由于LIVAC语料是多方面平行“共时”、“同步”方式搜集语料,语料来源涵盖整个泛华语地区,故可协助搜索资料及作分析,是目前有别于其他任何汉语语料库或同类型研究。这点,特别得到语文界及其他方面专家、学者的认同和重视。同时,由于语料库历时十九年,因此“共时性”以外又兼顾了“历时性”,方便研究人员客观地探究到视窗内的有代表性的语言发展全面动态。LIVAC所提供的不仅是语言资料,还同时提供共时的社会、文化档案资料,犹如一个系列性的时间锦囊。

(5)应用

(6)历史背景

LIVAC由香港城市大学语言资讯科学研究中心开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至2013年期间,LIVAC曾挂靠于香港教育学院语言资讯科学研究中心。自20137月起,LIVAC由麒麟(香港)有限公司独家维护和开发。

LIVAC主要由邹嘉彦开发并主持研究,期间曾参与研究工作的包括游汝杰、胡百华、邝蔼儿、钱志安、蔡永富、廖国辉、陈加强、周嘉宝等。

(7)网址及查询

网址: www.livac.org; 电邮: livac.org@hotmail.com



(8)有关著作(含中英文参考书目)

1. 书藉 Books

2. 章节 Book Chapters

3. 期刊文章 Serial Publications