本页位置: 首页新闻中心华文教育

新加坡华文教研中心设语料库 供教师测试编课参考

2011年11月07日 11:07 来源:中国新闻网 参与互动(0)  【字体:↑大 ↓小
新加坡华文教研中心设语料库供教师测试编课参考
    开发书面语语料库的项目由新加坡华文教研中心研究组组长吴福焕(左)领导,副研究员黄雪霞博士(中)和赵春生是这个小组的另外两名成员。(陈斌勤摄)
【点击查看其它图片】

  中新网11月7日电 据新加坡《联合早报》消息,“梅开二度”、“星光熠熠”、“无独有偶”和“青出于蓝”等形容词经常出现在《联合早报》。日后,这些记者惯用的书面语很可能进入中小学生的词语表中,让他们从小就能接触媒体使用的语料。

  新加坡华文教研中心获得教育部资助,接下来几年将针对中小学生日常接触的媒体整理出相应的书面语和口语语料库。在建构书面语语料库方面,中心优先分析了报纸的文本。

  华文教研中心院长陈之权博士透露,语料库发展到成熟阶段时,可让教育部多方使用。语料库能成为测试和课程编排的有力参考,协助教师、课程开发员和评估员更有效地落实母语“乐学善用”的理念。

  陈之权举例说,如果教师要给某个年级的学生出题,而测试范围是特定的句型、语法或内容,教师可通过语料库搜寻相关的文章使用。另一方面,语料库也根据词语出现刊物的频率和词形做分类,而这对往后的课程编排可以起到正面作用。假如一些词语使用的频率越高,就代表学生接触的机会越多,学生应该早点学习。

  他说:“开始就选择《联合早报》,是因为想选和学生生活最密切的资讯来源,这不外乎报纸、电视和网络。加上最近几年,学校在推广报章教学,所以我们觉得从这里开始是不错的。”

  开发书面语语料库的项目由研究组组长吴福焕领导,副研究员黄雪霞博士和赵春生是这个小组的另外两名成员。

  吴福焕受访时解释,筹建《联合早报》语料库的工作从去年初开始。他们首先收集2005年至2009年的报纸,但由于语料量相当大,他们先抽样处理2007年至2009年的文本。

  为了确保抽样有一定的随机性,并能涵盖不同日期刊登的栏目,他们对这些报道先后进行分层和系统抽样。分层抽样指的是收集不同版位刊登的新闻,包括封面新闻、社会新闻和娱乐新闻等。系统抽样则是根据一定的时间距离来抽选文本,比如第一周选星期一的报纸,第二周选星期二的报纸,以此类推。

  接着,每则新闻都会收录为独立的文档然后利用分词软件,对一连串的中文字做有意义的区分。虽然这类软件判断词组的准确度可高达90%,但仍然会因为地域用语不同而出现误判,所以还需要研究预员进行人工校对。

  比方说,“甘榜”和“巴刹”等新马一带特有的名词,一般都会被系统误判,必须由研究员特别标注为名词。

  小组目前已完成前期工作,分析了三年的《联合早报》文本,语料量多达318万字。其中,常用词词表除了有核心助词如“的”、“在”、“是”等,“高频”词汇还包括“政府”、“比赛”、“希望”和“美元”等。

  陈之权告诉记者,建设《联合早报》语料库的工作原先是华文教研中心内部的一个项目。教育部得知详情后,觉得这是很好的概念,表示愿意支持,并要求中心把本地中小学生平日接触的多元资讯来源也包括在内,以建立更完整的书面语和口语语料库。

  教育部课程规划与发展司助理司长张龙晋说:“华文教研中心展开很多研究,做很多数据整理,而这些工作和教育部的课程理念紧密挂钩,因为这些成果以后会在学校落实。所以成立这样的语料库将来无论对课程或教学方面都会有更大帮助。”

  收集其他出版物

  为了丰富书面语语料库,吴福焕接下来还会和他的组员收集《联合晚报》、《新明日报》、《逗号》、《大拇指》和其他学生读物和参考书的文本。相关的工作预计明年底可以初步完成。另一方面,建立口语语料库的工作刚刚开展,另一组研究员已经通过录制课堂活动和学生访谈收集了小一生的口语语料。(陈能端)

分享按钮
参与互动(0)
【编辑:杨凯淇】
    ----- 华文教育精选 -----
 
直隶巴人的原贴:
我国实施高温补贴政策已有年头了,但是多地标准已数年未涨,高温津贴落实遭遇尴尬。
${视频图片2010}
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
[网上传播视听节目许可证(0106168)] [京ICP证040655号] [京公网安备:110102003042-1] [京ICP备05004340号-1] 总机:86-10-87826688

Copyright ©1999-2024 chinanews.com. All Rights Reserved