-
公开(公告)号:CN109446337B
公开(公告)日:2020-10-13
申请号:CN201811098792.5
申请日:2018-09-19
Applicant: 中国信息通信研究院
IPC: G06F16/36
Abstract: 本申请提供了一种知识图谱构建方法和装置,该方法包括:获取公安文本数据;将所述公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;对过滤后的待处理数据集中的词进行去重;将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。该方法能够节省人工、时间成本,并提高建立知识图谱的效率。
-
公开(公告)号:CN111708701A
公开(公告)日:2020-09-25
申请号:CN202010558247.0
申请日:2020-06-18
Applicant: 中国信息通信研究院 , 腾讯科技(深圳)有限公司
Inventor: 王妙琼 , 郑智超 , 周文乐 , 魏凯 , 姜春宇 , 闫树 , 刘寒 , 马鹏玮 , 张奕卉 , 王卓 , 张启 , 李俊逸 , 李雨霏 , 和涛 , 田稼丰 , 刘虹男 , 高倩倩 , 刘思源 , 庞伟伟 , 袁博 , 钟民菁
IPC: G06F11/36
Abstract: 本申请涉及数据库技术领域,公开了一种用于数据测试的方法,该方法包括:调用基础数据集;从所述基础数据集中随机选取数据;对所述随机选取的数据进行组合得到符合要求的测试数据。本公开实施例中,基础数据集中的数据为符合测试标准的数据,其中,数据数量小于实际需求的测试数据的数量,从基础数据集中随机选取数据并组合,保证组合后的数据也能够符合标准,且避免了数据存取数量不足或测试数据调用过程耗时长的问题,提高了测试效率。本申请还公开了一种用于数据测试的装置。
-
公开(公告)号:CN109446337A
公开(公告)日:2019-03-08
申请号:CN201811098792.5
申请日:2018-09-19
Applicant: 中国信息通信研究院
IPC: G06F16/36
Abstract: 本申请提供了一种知识图谱构建方法和装置,该方法包括:获取公安文本数据;将所述公安文本数据进行切词分词形成待处理数据集,并记录每个词在公安文本数据中对应的标题编号;清洗待处理数据集中的形容词、动词、副词和量词;并通过口语语料库和标点符号语料库进行过滤;对过滤后的待处理数据集中的词进行去重;将去重后的待处理数据集中的词作为树节点按照其对应的标题编号建立树型知识图谱。该方法能够节省人工、时间成本,并提高建立知识图谱的效率。
-
-