谢菲尔德汉语语料库历时语言研究

该项目以宋(960-1279)、明(1366-1644)和清(1644-1911)三个朝代的中文文本为基础,用于深入研究汉语的发展和变化。

谢菲尔德汉语语料库(Sheffield Corpus of Chinese,SCC)的建立是一个试点项目的成果,其长期目标是提供全面的数字资源,用于标记不同文本类型和体裁的历史汉语文本,并按不同时间段排列,以促进对语言发展变化的研究。

随着SCC的发展,它以全标记的中文文本解决了这一领域中历时语料库的缺乏,促进了一系列历时语言学和其他学科的研究。

该项目的预试验为基于宋朝(960-1279年)、明朝(1366-1644年)和清朝(1644-1911年)的三个汉语文本所进行的可行性研究。这些文本共计约18,000个字词,使用在XML(可扩展标记语言)背景下开发的标记方案进行了词性标注和字段划分。该预试验完成后,SCC的初始形式包括一个含有49个类别21个词类的标签集,并包含一个全文检索和搜索系统,它可以定位并生成用户指定的字词频率表,既可以按字词为基础,也可以按字词类别为基础。为了扩大语料库的可访问性,并促进翻译方向的英汉对比研究,该语料库还增添了英文平行翻译。XML在汉语中的应用仍处于起步阶段,因此SCC的建立为将这一技术应用于中文研究中做出了重要贡献。随着SCC的发展和扩大,它解决了这一领域缺乏具有完全标记的中文文本历时语料库的问题,并促进和推动了一系列历时语言学和其他相关研究。

网站

项目团队

  • Dr Xiaoling Hu(谢菲尔德大学东亚研究学院)
  • Jamie McLaughlin(开发人员——数字人文研究所)

翻译:刘艺,林正昕,张嘉琪