露珠(Dewdrop)
你的数字化收藏是否容易被检索到?DHI开发了一款名为“露珠”(Dewdrop)的工具,能够更好地进行国家和机构级别的线上资源检索。
数字数字人文研究所开发了一种可以解决数字孤儿问题的工具的技术规范工具的技术规范,作为Jisc项目“聚焦数字(Spotlight on the Digital)”的一部分。随着该项目的成功完成,数字人文研究所随后被委托进行该工具的技术设计、构建、文档编制和测试(内部名称为“露珠”)。Jisc在数字人文研究所的支持下开展了需求调查、业务规划、“野外测试”和通信规划等技术工作。
数字孤儿是一种在线资产(在此情境下是一种研究资源),通常被认定为是出于它们无法被普通搜索机制(如搜索引擎,主题目录,聚合网站或其他科目网站)挖掘的属性,从而未被研究团体挖掘并加以使用的资源。在线资源的不可见性可能是由于技术设计不佳、内容呈现不佳、营销不佳以及缺乏个人和/或机构支持等综合因素造成的。
技术规范中提出的工具旨在解决这些问题,从加工深度的角度,开发出易于检索的资源文本内容。这个易于检索的版本以优化的数据记录的形式呈现,并协调资源和检索服务。该工具通过两种方式实现:爬虫检索资源的文本内容的副本,包括数据库中的数据;分析器使用自然语言处理技术从内容中生成易于检索记录。
露珠编码和文档
相关链接
- The Digital Humanities Institute’s Specification for Dewdrop
- Spotlight on the Digital (The Digital Humanities Institute website)
- Spotlight on the Digital (Jisc website)
项目周期:2015-11——2016-07
图片来源:Partial map of the internet
项目团队
- Michael Pidd(项目带头人——数字人文研究所)
- Ryan Bloor(开发人员——数字人文研究所)
翻译:张嘉琪