当前位置

首页 > 英语阅读 > 英语文化 > 现代汉语词频、词性频度查询

现代汉语词频、词性频度查询

推荐人: 来源: 阅读: 1.39W 次

“现代汉语研究语料库系统”研制成功
中国国家教委“八五”人文、社会科学规划项目、北京语言学院“八五”重点科研项目——“现代汉语研究语料库系统”于1996年1月29口在北京语言学院通过了专家鉴定。“现代汉语研究语料库系统”于1993年初立项,1993年5月开始实施。课题组成员有:孙宏林、黄建平、孙德金、李德钧、邢红兵。课题组还聘请了常宝儒、胡明扬、黄昌宁、陆俭明、吕必松、张普等六位语言学、对外汉语教学和汉语信息处理界的知名学者作为学术顾问。
“现代汉语研究语料库系统”包括两个层级的语料库。第一级是一个从约6000万字的原始材料中抽取出来的2000万字规模的粗语料,其大致构成情况是:《人民日报》语料1000万字,《中国新闻》语料500万字,经济、科普、知识等类书籍250万字,录入的样本语料250万字。录入的样本语料中包括文学作品150万字(其中小说100万字、散文30万字、报告文学20万字)和准口语材料100万中(矣中对话部分60万字,全部是话剧的脚本,独白部分40万字,包括单口相声、评书、演讲词、讲话、故事等)。这些语料中除了录入的样本中有一部分是80年代的出版物外,其他绝大部分是90年代的出版物。在这2000万字粗语料库的基础上建立了一个文本属性库,属性库中除了有宇数、作者、标题、出版单位等信息外,还登录了每一篇语料文本的题材类别和体裁类别。这2000万字的粗语料库目前采用电子部计算机与微电子发展研究中心(CCID)开发的 TIR全文检索系统建成了四个分库,可以进行基于宇串的检索。
该语料库的第二级是一个200万字规模的精语料。这200万字语料是在第一级的2000万字语料中按照设定的比例由程序随机捆取出来的。其中包括书面语语料160万字和准口语语料40万字。书面语语料按题材分为10大类:政治和法律类30万字,经济类30万字,文学类37.5万字,文化教育类15万字,社会生活类15万字,科技和科普类12万字,体育类8万字,地理和旅游类5万字,历史类2.5万字,军事类5万字。准口语材料中对话(话剧脚本)部分25万字,独自部分15万字。这200万字全部进行了切词和词性标注的处理。词性标注采用了112个标记的标记集,其中词类标记85个,标点符号等标记27个。词类标记采用层级体系,第一层分为名词、动词、形容词、数词、量词、代词、副词、介词、助词、连词、语气词、象声词、叹词等13类,并加上成语、准后缀、插入语等类。在这些大类之下又分出第二层小类,如名词分为普通名词、专名、时间词、处所词、方位词等类,动词分为助动词、系动词、形式动词、动词作体词用、动词作谓词用等等,有的在第二层之下又分出第三层小类,如动词作体词用时根据其具体功能又分为动词作主语、动词作宾语、动词直接作 NP的修饰语、动词直接作 NP的中心语,动词作谓词用时根据其带宾语的情况又分为不带宾、带体词宾语、带动宾、带形容词宾语、带小句宾语、带双宾、带兼语宾语等类。这些标记中除了一般静态的词类标记外,还加上了一些句法信息。这便于不同词类体系的兼容和对一些词类的进一步研究。
在200万字标注语料的基础上建立一个包括建库、检索、测览、输出、帮助等模块的语料库检索系统。该系统的检索方式是例句检索和 KWIC(Key Word in Context)检索。例句检索支持位置操作、逻辑操作和词性的模糊检索,检索式的定义符合语言学工作者的习惯,灵活方便。 KWIC检索可以快速地查出一个检索元素(词、词性或带词性的词)的上下文,上文或下文的词数可以任意定义。所有检索结果都可以在屏幕上测览,可以测览例句,也可以酗览例句所在的段落,关键宇都用特殊颜色现实,十分直观。检索的结果也可以输出到文本文件、例句库中或打印机上。该系统在 Windows环境下运行,界面友好,操作简单方便,
“现代汉语研究语料库系统”鉴定委员会由中国中文信息学会理事长、中国工程院院士陈力为先生担任主席,中国人民大学胡明扬教授、清华大学黄昌宁教授、北京大学陆俭明教授、中国社会科学院语言研究所徐枢研究员☆北京大学俞士汉教授担任鉴定委员。鉴定委员会还组成了以俞士汉教授为组长,北京语言学院赵金铭教授和张旺嘉副教授为成员的测试小组,1月28日测试小组从标注的语料库中随机抽取出两篇语料,逐词检查了分词和词性标注的情况。经测试,语料库分词的准确率为99.66%,词性标注的准确率为99.07%。1月29日召开了成果鉴定会。鉴定委员会听取了课题组的研制报告和技术报告,听取了鉴定委员会测试小组的测试报告和两份用户报告;审查了课题的各种文字档案材料,并观看了软件系统的现场演示。经过认真的讨论,鉴定委员会认为:
一、“现代汉语研究语料库系统☆是进行大规模现代汉语语言事实调查研究的重要工具,为高效、全面、科学地进行现代汉语研究(特别是语法研究)提供了强大的技术保证。该语料库的建成必将极大地促进汉语研究手段的现代化,提高汉语研究的效率和水平。因此,“现代汉语研究南料库系统”无论在理论研究方面还是在应用研究方面都具有十分重要的意义。
二、“现代汉语研究密料库系统”也是汉语教学领域的一个重要的研究平台,特别是对于对外汉语教学具有重要作用。该系统可以在词汇统计、分级,例句检索、教材编写、工具书编写等方面为汉语教学王作者提供全方位的查询服务。因此,该语料库的建成将极大地促进汉语教学水平的提高。
三、“现代汉语研究语料库系统”在制定现代汉语的分词和词性标注规范方面进行了比较深入的研究,既做到了较好的可操作性,又达到了使不同语法观点的研究人员共享和复用的目的。这为大规模汉语语料库的标注工作积累了经验,对于语料库研究工作的进一步开展具有重要意义。
“现代汉语研究语料库系统”,语料规模较大,题材、体裁范围广泛,抽样合理,语料加工科学,正确率甚高;语料库系统设计合理,功能齐备,便捷实用。该语料库是现代汉语研究、现代汉语教学、汉语信息处理研究的宝贵资源和重要的基础工程,为汉语言研究工作者提供了一个基于大规模真实语料的现代化的研究环境和技术手段。它的研制成功标志着汉语语料库建设取得了新的进展,达到了国内外先进水平。

现代汉语词频、词性频度查询