试用开通《引得数字人文平台》


试用网址:https://www1.inindex.cn(图书馆主页试用数据库中)

试用方式:校内IP自动登录

试用期限:即日起至2021年8月14日

    

介绍:

“引得”平台是基于中国历代人物传记资料库(CBDB)项目合作,并结合中国社会科学类科研院所的科研实际不断升级构建而成,中文在线集团元引公司负责平台开发、运营及市场推广。

 “引得”平台包括四大子系统:中国历代人物传记资料库(CBDB)、中国通用古籍库、数字人文可视化挖掘系统、数字人文文本处理基础工具系统。通过四大子系统的提供的服务,可以帮助相关高校及科研院所的学者和学生构建并不断优化的数字人文素养训练环境、教学环境和研究环境。

 

详细情况:

 1. 中国历代人物传记资料库

中国历代人物传记资料库(CBDB)是全球较早进行数据结构化的大型中国历代人物关系传记数据库。创始人为郝若贝教授(RobertM.Hartwell)(1932-1996)。目前由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、台湾“中研院”历史语言研究所共同主持开发。CBDB是新文科建设中的里程碑式的研究成果,亦是数字人文研究发展的重要路径。

基于150余位专家学者数十年来学术研究积累,CBDB共收录从先秦到晚清约47万人的传记、著作资料(约4亿字),目前4万/年均新增传主,100万条/年信息更新。所收录的人物主要出自七世纪至十九世纪,其中以唐、宋、明、清的人物传记资料最为充实。CBDB提供可视化查询服务,该数据除了可以作为人物研究的参考资料以外,亦可作统计分析、地理空间分析与社会网络等分析之用。

相对于传统的古籍文献资源库,CBDB部分是完全结构化的关系型数据库,以人物为主线,辅以时间、地点、事件和社会关系信息,助力人文研究进入数字人文的新领域。中国历代人物传记资料库(CBDB)不单是史料的电子化,更重要的是为了达到史料的“数据化”。史料的电子化是把古籍材料转化成电子文本。至于史料的数据化,意指在进行电子化之后,还更进一步,把史料整理成能被电脑程序使用和分析的格式,相互连接,建成数据库。换言之,数据化是对数字化的拓展与推进。数据化工作产出的数据不仅可以用于全文检索,还可以用来进行更多样的查询和分析,并可灵活地导出到其他软件,以便进行批量处理,或用不同方式来呈现,如统计表格、电子地图等。

中国历代人物传记资料库(CBDB)为每个人物的条目都设了多种数据栏目类别,尽可能详细 地记录当中信息,并且以相互关联的表格保存,即按照人名、时间、地址、职官、入仕途径、著作、社会区分、亲属关系、社会关系、财产、事件等进行保存。需 要强调的是,和一般对人物数据库的理解不一样的是,CBDB 提供的是多个相互关联的表格,把人物信息整理出来,放入其中,以便学者进行批量分析。用户通过对数据库进行查询,可以获得大批人物信息。其中关键的是,这些查询除了利用人名,也可以利用人名以外的各种信息,例如地名、官名,甚至是亲属关系、社会关系等, 查出一批人物的资料,供学者用于量化分析。通过对研究资料进行数据化,人文学者可以更有效率、更系统地解决既有的学术课题,也可以通过数据发现一些新的问题,供学者参考和分析。

 

2. 中国通用古籍文库

中国通用古籍文库是一款B/S结构、无需安装客户端的在线实时全文检索的大型古籍资源数据库。中国通用古籍文库广泛收集中国公私机构现存从先秦至民国撰写并经写抄本、刻本、印本、影印的历代汉文古籍资源,目前我们已为专家学者奉献上线2万种、21余卷,全文约31亿字的专业古籍资源。数据库资源著录规则沿用四部分类法,在经、史、子、集部外增设丛书部。

中国通用古籍文库可以在任一浏览器中实现浏览、检索、下载。在浏览界面可按照图文并列、仅看原图、仅看文本三种不同方法显示,即翻即看,支持古籍图像和提取文字的关联对照(可屏蔽),克服当前多数古籍资源图文分离的弊端。本数据库对古籍正文图像不做删减,保留原作原样的题跋、批校、印章等信息。系统配合UNICODE编码和大字符集,支持最新国际标准ISO/IEC10646:2017(国家标准GB18030-2015)的8万余字超大字符集。数据库可以做到字字可检,支持快速检索、高级检索等功能,可按照部、属、书名、著者等多种检索方式,亿级文字检索秒级响应。数据库高级选项(需要实名登录)中支持文字编辑、复制、粘贴,有助于将古籍文献用于学术研究;支持书签功能,便于下次阅读;支持读书笔记,随时记录阅读感受。

 

3. 数字人文可视化挖掘系统

随着科研水平的不断提高,期刊论文发表时所要求的配图也越来越高。一张精美的科研可视化图表,可以同时表现多种信息,它不仅可以整合数据、分析成分,也可以梳理关系、展现变化及流向,并清晰呈现出结果。科研成果可视化展示高要求的同时,也要求科研人员在成果展示时,提供清晰明又精美的图片。这也就要求科研人员除了科研能力外还要掌握科研绘图能力。一图胜千言,它的说明效果往往比大段的文字描述更好,科研绘图能力已成为科研界传达科研信息不可或缺的有力支撑。

将数据进行图表可视化之后,专家学者可以更好地寻找数据之间的模式、趋势和联系或发现未深入研究的领域,比如使用同样的数据可以找出某个数据全部的数据变化以及局部的数据变化,而当这些数据以最简单的方式呈现出来之后,我们还可以看到全部和局部的关系。可视化数据视觉效果不足会降低科研质量,并阻碍科研进展。随着越来越多的科学图像进入新闻和社交媒体,解释从气候变化到疾病爆发的种种现象,糟糕的视觉效果还有可能损害公众对科学的理解。可见数据可视化不仅不可升华研究成果,也是发现选题和未知的利器。

数字人文可视化挖掘系统包括100余款多样化基础图表,可以接入多种数据源,实现从数据置入、存储、展现、挖掘的全流程管理,帮助数字人文领域的专家学者将数据运算与美观的科研图表嫁接在一起,生动地分析其研究过程中任何结构化数据。本可视化系统可以轻松上手,专家学者可以用选择相的目标图样,将大量数据拖拖拽拽到相应的“模板”上,转眼生成理想中的图表。在此基础上,您可以自定义视图、布局、形状、颜色等等,帮助您展现自己的数据视角,帮助专家学者轻松应对毕业答辩、成果汇报、项目申请书撰写、著作编纂等工作。

 

4. 数字人文文本处理基础工具系统

 工具系统为数字人文研究学者提供文本识别、批量标注、简繁转换、自动句读、命名实体、文本比对的全流程、一站式文本处理工具箱服务,大幅提高文献数字化、结构化效率,是建设数字人文研究环境、训练环境事半功倍的组合利器。

文字识别辅助工具中,竖排古籍识别正确率接近92%,横排简体识别正确率接近98%。

同时,我们也欢迎各位专家学者提出应用需要,我们可以定制开发相应的研究工具和训练工具。平台正在上线各类辅助性研究工具、训练工具和可视化渲染工具,这些工具包括:文字识别辅助工具、文本清洗辅助工具、文本标注辅助工具、文本结构化辅助工具、句读辅助工具、可视化辅助工具等。