-
公开(公告)号:CN104881398A
公开(公告)日:2015-09-02
申请号:CN201410437424.4
申请日:2014-08-29
Applicant: 北京大学
Abstract: 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。
-
公开(公告)号:CN104881398B
公开(公告)日:2018-03-30
申请号:CN201410437424.4
申请日:2014-08-29
Applicant: 北京大学
Abstract: 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。
-