中华人民共和国教育部主管,北京师范大学主办,ISSN:1002-6541/CN11-1318/G4

(中学篇)2013年第10期:美国当代英语语料库简介(湖北:周韵)

【摘 要】美国杨百翰大学的Mark Davies教授主持创立了一系列英语语料库,语料以各种英语变体为主,包括美国英语、英国英语、加拿大英语、《时代》杂志中的书面英语和美国肥皂剧中的英语口语。其中,美国当代英语语料库是当前针对美国英语的大型历时语料平衡的网络语料库,具有库容大、语料丰富、检索方便灵活等特点。本文介绍了美国当代英语语料库,以语料库及其关系数据库为平台,通过不同检索实例演示了以词汇为中心的应用与操作,以期探讨美国当代英语语料库在词汇教学中的应用。

 
       一、美国当代英语语料库
       美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库,口语、小说、流行杂志、报纸和学术性文体在语料库库容中各占20%。它不仅是一个简单的在线词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁(Davies,2010)。该语料库由美国杨百翰大学的Mark Davies教授主持创立并在2008年正式上线。目前,每月有数以万计的包括语言学家、教师、翻译工作者在内的各种类型的研究者通过互联网免费使用该语料库。
       美国当代英语语料库由包含4.5亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。从1999年至2012年这五个部分以每年增加2亿词的速度进行扩充,以保证语料库内容的时效性。语料库每年更新1~2次。因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。
       除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料。现有的大部分语料库,如BNC等,不仅是有偿使用,而且使用者还需要会运用相关的计算机软件,如Wordsmith、Range、ParaConc等,才能分析语料和提取数据。美国当代英语语料库做到了语料和检索工具的结合,其在线检索系统能帮助使用者观察英语词汇的使用规律,促进词汇自主学习。
       在进入COCA语料库网址(http://corpus.byu.edu/coca/)之后,整个页面被一分为三,左边是语料库检索主界面(见图1);右上方是信息栏,公布杨百翰大学语料库研究的新进展,包括新开发的语料库的链接和发布的著作;而右下方则是使用者的信息注册区域。注册用户使用时,右下方则显示语境共现索引行。COCA语料库的检索主界面分为DISPLAY、SEARCH STRING、SECTIONS、SORTING AND LIMITS以及OPTIONS五个部分。
 
图1 COCA语料库检索主界面
       如图1所示,第一栏DISPLAY是表示检索结果的显示方式,共有四种选择:LIST、 CHART、KWIC和COMPARE。LIST是将检索结果成行显示,而CHART则是将检索结果用更为直观的柱形图来表示。KWIC(Key Word in Context)也叫语境共现(Concordance),以检索词为中心,两端都有该词出现的语境,便于学习者观察该词的使用情况。COMPARE则是用来辨析同义词,选择该项后WORD(S) 部分会出现两个输入框,用来填写待比较的两个单词。
       SEARCH STRING一栏是检索的核心部分。WORD(S) 一栏支持直接检索,可以直接输入想要了解的词;也支持高级检索,使用者可以点击WORD(S) 一栏后的问号获取帮助,以便更好地设定检索项。COLLOCATES一栏能够帮助学习者观察语言规律,找出与某个特定词汇最频繁搭配使用的词,对于深入掌握词汇有重要意义。POS LIST则是用来限定搭配词的词性,以帮助锁定与某个特定单词搭配使用的某一类词。
       SECTIONS一栏对检索结果作出了限制,在SHOW前面的方框内打钩,表示在检索结果中显示不同文体的组成比例。如果在下方的方框内选择IGNORE,则表示忽略文体差异。该方框内的选项设置非常灵活,能最大程度地帮助研究者进行特定领域内的检索。研究者可以按照COCA的五大基本文体来圈定检索范围,也可以以某一个特定时间段为范围显示检索结果,甚至锁定COCA中某一特定话题,如在关于运动的新闻或者涉及教育的学术性文章中进行检索。
       SORTING AND LIMITS一栏则对检索结果进行排序和限制,以更加直观地呈现检索结果。SORTING有三种选择,分别是频率(Frequency)、相关度(Relevance)和字母顺序(Alphabetical)。MINIMUM一栏则通过对频率或者互信息(Mutual Information)作出最小值限定来排除干扰性检索结果。互信息是信息论中的概念,是指一个词的出现为另一个词提供的信息量。单词之间的互信息值被用来衡量其相互联系的紧密程度,联系越强,互信息值就越大,一般认为3以上的数值有显著意义(张晨、祁坤钰,2009)。
       OPTIONS一栏是可选项,通常处于隐藏状态,点击OPTIONS后展开可选择项,可以对出现在检索结果中的最低频率数和每个页面中所提供的语境共现索引行的数量作出限制。此外,也可以选择按照具体单词、词目或者是词性来排列检索结果。
       二、基于COCA语料库的词汇检索技术
    笔者拟以COCA语料库为例揭示利用语料库进行词汇自主学习的方法和技巧。
       1. 简单检索实例
       如果要观察某一个具体单词的用法,采用COCA主界面的基本查询就足够了。查询者可以勾选KWIC一项,然后将所要查询的单词输入WORD(S) 一栏,便可以检索到该词的用法。此外,查询者也可以使用高级检索来进行模糊查询。例如,在检索框内输入“[vvg]”(注:引号内的内容为检索输入项。下同),表示查询所有动词的现在分词形式。检索结果显示,在COCA语料库中,按照使用频率高低排列的前10个动词的现在分词分别为going、trying、looking、making、getting、using、saying、coming、working和talking。或者,学习者试图了解动词draw的各种屈折变化,可将“[draw]”输入检索框中,表示查询以draw为词目的各种不同用法,检索结果按照出现频率高低分别为draw、drawn、drew、drawing、draws和drawed。检索结果的最后一项是drawed,点击该词可得到其相关信息,该词在4.5亿词的语料库中总的出现频率为21次,多用于小说类文体中,并且从2008年以后该词一次也没有出现过。
       2. 搭配检索实例
       记住了一个单词的读音、拼写和意义并不意味着能在口语和写作中灵活运用。教师要有意识地向学生提供单词在英语中最地道的用法。例如,要表达“下雨”这个概念,需要了解与rain一词频繁搭配使用的动词,教师可以进行如下操作:在DISPLAY一栏中选择LIST,然后在WORD(S) 一栏输入“rain.[n*]”,表示检索语料库中所有作为名词使用的rain;接下来在COLLOCATES一栏设定与其搭配词的词性,可点击POS LIST,在出现的选择项中选择“verb.ALL”,COLLOCATES一栏就会自动出现“[v*]”,将后面的数字框分别选择为0和4,表示检索与rain连用的以该词为中心右边4个词跨度内的所有动词。此外,对于检索结果的显示也要进行设置,如果在SORTING AND LIMITS一栏选择按照频率排序,排名靠前的都是些BE动词或者是助动词,无法体现与rain搭配的实义动词的使用情况。因此,在排序时应该选择按照相关度排列查询结果。选择RELEVANCE一项,表示查询结果将按照互信息值排列。此外,为了使检索结果呈现的是与rain连用的搭配词,而不是搭配词的各种屈折变化形式,如现在分词、过去式、过去分词等,还需要在OPTIONS中将检索结果设定为按照词目排序。从表1中可以观察到与rain连用的动词主要有pelt、patter、slacken、sluice、drench、splatter和spatter等。查询结果按照互信息值高低排列,以互信息值最高的pelt一词为例,该词在整个COCA语料库中出现的总频率为1560次,与名词rain在右间隔0~4词跨度内搭配出现的频率为114次,%一栏表示这种共现频率与pelt一词在语料库中出现的总频率的比率是7.31%。也就是说pelt一词在COCA语料库中出现在名词rain右边4个词跨度内的可能性是7.31%, 这包括了pelt的各种时态用法。使用者可以点击表1中FREQ下面的数字观察该搭配词的语境共现索引行,了解其具体用法。
表1 与名词rain连用的动词情况

 

FREQ

ALL

%

MI

1

PELT

114

1560

7.31

8.36

2

PATTER

40

599

6.68

8.23

3

SLACKEN

18

332

5.42

7.92

4

SLUICE

10

305

3.28

7.20

5

DRENCH

31

1092

2.84

6.99

6

SPLATTER

31

1135

2.73

6.94

7

SPATTER

19

953

1.99

6.48

8

SLEET

12

629

1.91

6.42

9

DRIP

82

5875

1.40

5.97

10

DAMPEN

17

1413

1.20

5.75
       3. 同义词检索实例
       同义词辨析是外语教学中的一大难题。传统的英语同义词辨析方法效率低,效果差(杨节之,2007)。COCA语料库能通过提供大量的实例帮助使用者发现两个同义词之间的差异。例如,要区别动词cheat和deceive,可通过如下操作实现。在DISPLAY一栏中选取COMPARE,然后在SEARCH STRING的WORD(S)一栏中输入“[cheat].[v*]”和“[deceive].[v*]”,表示检索这两个词作为动词的用法,在其搭配项中限定搭配词为名词,词距长度为3。从检索结果可以看到cheat的用法更为普遍,与其搭配使用最多的名词分别是wife和husband,表示用不诚实的手段得到需要的东西;而deceive经常与public、world、people等词连用,表示用谎言使人相信虚假的东西,隐瞒事实。
       三、基于COCA语料库的关系数据库的词汇检索技术
       基于COCA语料库中大规模的语料,以词频和搭配为核心开发的关系数据库(http://www.wordandphrase.info)更加直接地提供了被检索单词在英语中的使用情况,确保教师传授的是该单词当前的主流用法。作为COCA语料库的有益补充,WORD AND PHRASE关系数据库不仅可以提供检索对象的定义、搭配以及在不同时期不同文体中的使用频率,还可以分析整个语篇,评估和了解其词汇特征和难易度等。
       1. 基于频率的独立词汇检索
       Ellis(2002)指出语言处理模式与输入内容的频率高低密切相关。他从音系学、形态句法学、拼写、阅读、词汇、语言理解、程式化表达等各个方面阐述了高频率的输入对语言习得的促进作用。基于美国当代英语语料库的关系数据库以频率为基准排列语料检索结果,能够帮助使用者有的放矢地选择重点词汇进行学习,并进一步掌握其主要用法。使用者在进入关系数据库的网页后点击FREQUENCY LIST,会出现以下界面(见图2):
 
图2 关系数据库频率检索主界面
       WORD一栏要输入检索对象。LIST FROM则是指频率高低等级。该界面所有检索结果都是基于频率,列出了使用频率最高的前60,000词,覆盖面相当大。从检索结果中使用者可以了解该词在整个词汇家族中的地位,以确定学习或者研究的重点。例如,在WORD一栏输入rain一词,然后勾选PART OF SPEECH中所有的选项后得出以下检索结果(见图3):
 
图3 rain在美国当代英语语料库中的频率分布
       从图3可以得出如下信息:首先,rain只能作为名词或者动词使用,而且作为名词使用更常见。其次,rain在小说和杂志类文体中出现得最多,在学术性文体中使用最少。如果忽略学术性文体,rain一词在口语中使用的频率要远远低于其作为书面语使用的频率。文秋芳(2006)曾指出,中国学生的口笔语特征不清晰,口语和书面语用法相互混淆。因此,掌握一个词,还包括熟悉其语体特征,以避免产生不伦不类的用法。
       点击图3中作为名词的rain可以得到该词更多的信息,如该词的定义以及其在语料库五大类文体中使用频率的柱形图。最值得一提的是搭配一项,该项提供了与名词rain搭配使用的形容词(heavy、cold、light、tropical、pouring、driving、steady、freezing)、名词(forest、acid、wind、day、snow、inch、cloud、window、drop)和动词(fall、stop、bring、pour、wash、pelt、blow、listen、pray、smell)。这些搭配都是按照频率高低排列,对于学习者掌握单词有极强的指导意义。
       除了从单词出发按图索骥之外,也可以将频率作为切入点来进行反向检索。例如,在LIST FROM一栏输入数字1,在词性一栏分别依次勾选名词、动词、形容词和副词后进行检索,结果表明在COCA语料库中使用频率最高的名词、动词、形容词和副词分别是year、be、other和up。使用者可以采用这种方法圈定不同词性的重点词汇,提高学习效率。
       2. 基于频率的文本词汇检索
       根据克拉申的可理解输入假设,学习者必须获得难易程度相当的语言输入,在选材上,尤其是课外阅读材料,要注意难易适中(王艳,2010)。如果凭借主观印象评估语言材料,不仅有失严谨,而且缺乏数据支持,没有说服力。WORD AND PHRASE网站开发的文本分析工具能帮助学习者把握文本难易度,促进词汇的附带习得。进入主页面后点击INPUT/ANALYZE TEXTS,会出现如下界面(见图4):
 
图4 关系数据库的文本分析检索主界面
       笔者以《新概念英语》第一册第33课的课文为样本,输入后检索到以下结果(见表2):
表2《新概念英语》第一册第33课文本检索结果
FREQ RANGE

1-500

501-3000

>3000

ACADMIC

73 WORDS

73%

21%

7%

0%
       从表2中可知,该文本的总词数(FREQ RANGE)为73词,其中高频词占73%,中频词占21%,低频词为7%,没有学术性词汇。不同频率的单词皆使用不同颜色的字体加以区分,一目了然。从表2中可以看到该文本中的大部分单词是基础性高频词,内容比较简单。点击分析文本中的特定单词可以得到该词的进一步信息。以单词fine为例,点击后可以得到以下检索结果(见表3):
表3 fine在美国当代英语语料库中的词性分布
FINE(EXACT)

ADJ(704)

NOUN(8341)

VERB (9239)

ADV(23741)
       从表3中首先可以观察到fine的词性,可以当做形容词、名词、动词和副词使用。括号中的数字不是表示频率,而是表示使用频率高低的排序,数字越大表示使用的频率越低。从表3中还可以看到fine一词作为形容词出现的频率最多,作为副词的使用情况最少。如果使用者对该词的某种词性感兴趣,可以点击查看使用实例。
       四、总结
       美国当代英语语料库也有其不足之处。例如,其子语料库不像BNC那样分类细致,索引行排列的整齐性和直观性还有待提高,某些词的归类问题尚待商榷等(汪兴富等,2008)。
       美国当代英语语料库以其均衡分布、容量巨大的语料和灵活方便、易于操作的特性日益获得广大英语研究者的青睐。根据杨百翰大学语料库出版物主链接(http://corpus.byu.edu/publicationSearch.asp)2013年7月26日的统计,从美国当代英语语料库上线到目前为止,据不完全统计,学术界基于杨百翰大学系列语料库或者语料库驱动的论文及专著总计563项,其中专注于美国当代英语语料库的研究100项,美国当代英语语料库与杨百翰大学其他语料库的对比研究有218项。这些研究集中出现在2010年至2012年,表明美国当代英语语料库的使用日渐普及。
       但是在我国,语料库技术在教学中的应用尚不尽如人意。梁茂成等(2010)指出,迄今为止,普通外语教师和外语学习者充分利用语料库的人少之又少。赵晓临(2010)呼吁教师在词汇教学中充分利用英语本族语者的语料,考虑词汇使用的语境,引导学生养成通过语境观察、总结词汇型式的习惯。
——————————
参考文献
Davies, M. 2009. The 385+ million word corpus of contemporary American English (1990-2008+): Design, architecture, and linguistic insights [J]. International Journal of Corpus Linguistics, 14(2): 159-190.
Davies, M. 2010. The corpus of contemporary American English as the first reliable monitor corpus of English [J]. Literary and Linguistic Computing, 25(4): 447-464.
Ellis, N. C. 2002. Frequency effects in language processing: A review with implications for theories of implicit and explicit language acquisition [J]. Studies in Second Language Acquisition, 24(2): 143-188.
何安平. 2010. 语料库辅助英语教学入门[M]. 北京:外语教学与研究出版社.
梁茂成,桂诗春,冯志伟,杨惠中,何安平,卫乃兴,李文中. 2010. 语料库语言学与中国外语教学[J]. 现代外语,(4):419-426.
汪兴富,Mark Davies,刘国辉. 2008. 美国当代英语语料库(COCA)——英语教学与研究的良好平台[J]. 外语电化教学,(5):27-33.
王艳. 2010. 克拉申理论在英语教学中的应用[J]. 牡丹江师范学院学报(哲社版),(3):87-88.
文秋芳. 2006. 英语专业学生使用口笔语词汇的差异[J]. 外语与外语教学,(7):9-13.
许余龙. 2009. 对比语言学研究的新趋势与新思考——第五届国际对比语言学大会述评[J]. 外语教学与研究,(4):279-283.
杨节之. 2007. 语料库搭配检索与英语同义词辨析[J]. 外语电化教学,(4):41-46.
张晨,祁坤钰. 2009. 基于互信息的词汇搭配研究方法[J]. 西北民族大学学报(自然科学版),(3):57-59,75.
张鸰. 2008. Sketch Engine工具在词汇搭配和同义词辨析教学上的应用[J]. 外语电化教学,(3):75-78.
赵晓临. 2010. 基于语料库的词汇型式研究[J]. 外语电化教学,(4):27-31.
————————
       注:①本文是2013年湖北省教育厅人文社会科学研究青年项目“基于美国杨百翰大学系列英语语料库的应用研究”(13q134)及2012年湖北科技学院校级教研项目“基于美国当代英语语料库的英语教学模式研究”(2012X036B)的阶段成果。
       ②本文作者声明:未经本人及北京师范大学中小学外语教学编辑部书面同意,任何媒体不得转载或摘编本文。
  附作者信息:周韵   湖北科技学院外国语学院