谢菲尔德汉语语料库历时语言研究

该项目以宋朝(960-1279)、明朝(1366-1644)和清朝(1644-1911)的三部中文文献为基础,对于汉语的发展和变化进行深入研究。

谢菲尔德中文语料库(Sheffield Corpus of Chinese,SCC)的建立是试点项目的成果,该项目的长期目标是提供全面的数字资源,来标记不同历史事件段中多种文本和流派的中文文本,来深入汉语发展和变化的研究。

该项目以宋朝(960-1279)、明朝(1366-1644)和清朝(1644-1911)的三部中文文献为基础。这些文本共计约18,000个单词,使用在XML(可扩展标记语言)中开发的标记方案对词类进行标记和切分。SCC初期形式包含一套由21个词类49个类别的标签集,和一个全文本检索系统,可以定位用户指定的词并生成词频表,这个词可以是某个字或者某个词类。为了让语料应用更加广泛,并促进英汉翻译比较研究,该语料库增加了英汉平行语料。XML在汉语中的应用还处于起步阶段,因此SCC的建立对XML在汉语中的应用做出了重要贡献。随着SCC的发展,它以全标记的中文文本解决了这一领域中历时语料库的缺乏,促进了一系列历时语言学和其他学科的研究。

网站

项目团队

  • 胡晓玲(英译)博士(谢菲尔德大学东亚研究学院)
  • Jamie McLaughlin(开发人员——数字人文研究所)

翻译:张嘉琪