ronghuiguantong
Corpus Linguistics语料库语言学(Corpus Linguistics)就是一门与语料库直接有关的语言学科。但是语料库语言学与其它各种加修饰语的语言学科不同:别的语言学科基本上都是研究有关领域...语料库语言学(Corpus Linguistics)就是一门与语料库直接有关的语言学科。但是语料库语言学与其它各种加修饰语的语言学科不同:别的语言学科基本上都是研究有关领域与语言之间的关系,例如,社会语言学研究的是社会与语言的关系,心理语言学研究的是人的心理活动与语言之间的关系。而语料库语言学则不同,它只是以语料库为手段来研究语言。语料库是载有语言信息的大量语言资料的集合。语料库中的语料可以是为了特定目的而收集的语言资料(如对讲母语的发音合作人的采访记录,也可以是某一特定范围的书面材料,如中古英语语料),也可以是为了一般语言研究的目的而收集的语言资料(如自然会话的转写资料和报刊杂志书籍的文字资料)。
大雪压青松丶
无论您是多么出色的研究工作者,您都必须能够有效地撰写您的研究报告,以对科学界产生影响。不幸的是,对于我们大多数人来说,研究和写作是两种截然不同的技能。即使是最有才华的研究人员,要想把自己的工作写得清楚扼要,也可能会遇到困难。对于非英语为母语的人来说,这一负担是双倍的。虽然英语被广泛接受为全球的科学语言,但它也是一门难学的语言。“put on”和“put off”有什么区别?您是“take”样品还是“make”样品?当你需要英语写作的帮助时,你可以去哪里? 语言语料库 是一种鲜为人知、未被充分利用的帮助学术写作的资源。在这篇文章中,我们将讨论如何利用这一资源来提高你的写作能力和增强你对英语的信心。 什么是语言语料库? 语言语料库是用于研究目的的电子文本的集合。语言语料库最初是由研究人员(通常是语言学家)为研究目的创建的。一些流行的语料库包括 当代美国英语语料库(COCA),美国历史英语语料库(COHA),谷歌Books Ngrams viewer,密歇根大学英语口语语料库,Hyper Collocation 等等。这些语料库提供了可搜索的英语集合,供母语使用者在不同环境中使用。在英语课堂上,它们经常被老师用作工具,向学生展示一个单词在现实生活中如何被以英语为母语的人使用。 语料库和字典的区别是什么?为什么非英语为母语的人要求助于语料库而不是词典来寻找答案呢?首先,虽然词典可以为你定义一个词,但它通常不会包含很多 用法示例 。“extract”一词的意思是“to remove or take out”。但如果我需要知道如何解释我在研究中采取的一个身体行为,我会说“extract to”还是“extract from”?字典可能无法回答这个问题,但语料库可以。 熟悉一些简单的语料库 搜索函数 将为您提供一系列新的工具。许多语料库允许搜索同义词和不同的单词形式。例如,您可以使用COCA搜索“extract”的动词形式,并返回“extract”、“extract”、“extracted”和“extract”。您还可以为您的搜索字符串选择“collates”,并返回一个经常与单词“extract”一起找到的 单词列表 。点击“帮助”图标将为您提供多种搜索功能方法。例如,如果您输入[=extract],您可以找到单词的 同义词列表 ,如remove、separate、get、fetch等。 语言库的另一个优势是它们比字典 更新 得更 频繁 。如果在2019年初用韦伯斯特词典搜索,就不会得到“生物可吸收”这个词的结果。但由于2019年出现的新技术进步,这个词得以使用和普及。该词于2019年年中正式加入韦氏词典。如果你在寻找如何使用这个词的例子,语料库会为你提供当代用法的例子。 如何使用语言语料库? 学习在不同的语言语料库工具上搜索一开始可能会让人感到困惑。但是不用担心——很快就会变得容易。现在让我们看看如何选择一个语料库,以及如何在这些网站上搜索不同的单词来获得有用的结果。 您应该根据您的目标选择语言语料库。如果您正在寻找如何使用与您的学科无关的单词,那么 COCA 将是一个不错的起点。假设您想知道应该说“extract to”还是“extract from”。您可以输进入COCA网站,然后在搜索栏中输入术语“extract to”。然后,您将点击“ find matching strings ”。 当我们搜索“extract to”时,我们仅返回52个 运用 ,而“extract from”则返回233次。 我们可以单击“ context ”以查看其用法。基于此搜索,我们将确定“extract from”是要使用的 正确单词形式 。 想要了解更多与学科相关的词汇,你可以试试 密歇根学术英语口语语料库(MICASE Corpus) ,那里提供了一些有限的 示例 。密歇根大学这个工具的优势在于,你可以根据 学科或学术活动 的类型进行搜索。如果你写作是为了准备一个特定类型的事件或分支到你的领域的一个新的部分,这个工具对你特别有用。 你可能还想知道 美式英语 和 英式英语 之间的差异。不用担心——也有语料库可以帮助你进行这些搜索。 BYU语料库 网站有英国英语和美国英语语料库的链接,你可以搜索和比较,看看在哪一种风格中使用的术语或短语。我们应该说" in hospital "还是" in the hospital " ?搜索语料库后发现,美国人喜欢用“in the hospital”,而说英国英语的人只会说“in hospital”。 注意事项 语言语料库在为您提供现实世界中很难找到的语言示例方面可能会格外有用。字典和谷歌搜索提供的细节和上下文远不及语料库。然而,在依靠语料库来提高写作水平时,仍有一些需要注意的地方。首先, 语料库不会告诉你什么是正确的,什么是错误的 。它们只是告诉你常用的用法。你可以使用语料库来提高你的写作水平,但你可能需要更深入地挖掘,并将来自语料库的数据与其他来源进行比较。 也就是说,语言是一件有趣的事情。要记住的关键是语言是交流的。当你想知道如何使用某些词时,现实世界的例子是一个很好的工具,可以让你对这些词有一个新的更深的理解。因此,当你需要提高学术写作水平时,语料库是你工具箱里一个很好的工具。 你是否使用语料库来帮助你进行学术写作?你觉得哪个语料库最有帮助?还有什么其他的资源可以帮助ESL作者提高他们的学术写作呢? END
甜田心ttx
关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;定义语料库名词(corpus,复数corpora)指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。corpusn. (pl. corpora)refers to a large collection of well-sampled and processed electronictexts, on which language studies, theoretical or applied, can be conducted withthe aid of computer tools.语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。分类语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。特征语料库有三点特征⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;⒉语料库是承载语言知识的基础资源,但并不等于语言知识;⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库
doublel0814
语料库语言学 语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpuslinguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支,如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库:现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20世纪语言研究的总特点可以用四个字概括———高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素:一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中包括神经元的运动。比如神经语言学就是要揭开人类大脑神经是如何处理语言这个秘密的学科。 语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际使用这个过渡中起着十分重要的作用:一是提供真实语料;二是提供统计数据;三是验证现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用价值。提供真实语料可以说是词典编纂的生命线。现在流行的英语词典几乎全部是基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。通过大规模语料库建立统计模型成为语言信息处理和加工的主流模式。先前基于规则的机器翻译、语音合成与识别、文语转换等如没有大规模语料库的数据支持,要取得好成果是不可能的。在理论建设上,基于英国国家语料库英语口语库的研究表明,基于真实英语口语语料的英语口语语法跟基于书面语的语法大不相同,甚至可以夸张地说,是不同的语法。 在欧洲,语料库语言学已经成为语言学的主流分支。相信在注重语言实际的我国,语料库语言学也将受到越来越多的研究者的重视,取得丰硕的成果。参考资料:中国社会科学院院报