一种面向知识抽取的智能文本标注方法及系统

    公开(公告)号:CN114091406A

    公开(公告)日:2022-02-25

    申请号:CN202111202937.3

    申请日:2021-10-15

    Applicant: 北京大学

    Abstract: 本发明涉及一种面向知识抽取的智能文本标注方法及系统,针对知识抽取过程存在的深度学习模型缺乏标注数据,且人工数据标注繁琐,需要领域专家大量人工操作,耗时耗力等问题,面向知识抽取的实体识别和关系抽取两个阶段,提出基于主动学习的智能标注方法与系统,本发明的效果在于,当获取完全无标签数据时,领域专家可以自由设定标注模型和标注批次规模等参数,边标注数据,边使实体识别和关系抽取联合模型学习该知识抽取行为,在尽可能少的标注轮次后完成深度学习模型的训练,进而完成整个数据集的知识抽取。

    一种基于本体模型的终端用户数据访问方法及系统

    公开(公告)号:CN108959358B

    公开(公告)日:2019-09-17

    申请号:CN201810457363.6

    申请日:2018-05-14

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于本体模型的终端用户数据访问方法及系统。该方法包括:1)根据查询元模型和基于所述查询元模型的本体推理规则,对用户要查询的本体模型进行预处理,推理出其中的“向内共享”关系和“向外共享”关系;2)将用户输入转换为本体查询SPARQL语句;3)根据所述本体查询SPARQL语句生成SQL语句,通过对所述本体模型进行SQL查询实现数据的访问和查询。本发明充分利用本体模型的语义元素和推理能力来优化终端用户的查询构造流程,帮助用户脱离数据库的实际存储模式细节,同时对终端用户的分组统计需求提供了完整的支持,填补了现有相关工作的不足,具备更强的系统可用性和表达能力。

    一种面向软件项目知识图谱的自然语言查询方法及系统

    公开(公告)号:CN109033135A

    公开(公告)日:2018-12-18

    申请号:CN201810575729.X

    申请日:2018-06-06

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向软件项目知识图谱的自然语言查询方法及系统。本方法为:1)抽取软件项目知识图谱的元模型;2)将自然语言查询语句转换成知识图谱元模型上的一系列子图,称为推理子图,并对推理子图进行了度量;3)基于所述推理子图构造Cypher查询语句,并在软件项目知识图谱上执行,返回查询结果。本发明能够自动提取软件项目知识图谱的元模型,准确理解用户的自然语言问题并构造查询,具有通用性强、扩展性强的特点,提高了软件知识图谱的查询效率。

    一种面向关系数据库的本体模型构造方法及系统

    公开(公告)号:CN108733793A

    公开(公告)日:2018-11-02

    申请号:CN201810456743.8

    申请日:2018-05-14

    Applicant: 北京大学

    Abstract: 本发明涉及一种面向关系数据库的本体模型构造方法及系统。该方法包括以下步骤:1)提取关系数据库的元信息;2)对提取的关系数据库的元信息进行冗余信息检测;3)对提取的关系数据库的元信息进行外键检测;4)通过映射规则,将冗余信息检测、外键检测之后的元信息用本体来表达,得到本体模型。本发明在构造本体模型的过程中加入了“冗余信息检测”和“外键检测”两个步骤,分别用于检测存在的冗余信息以及缺失的外键定义,可以更加高效地通过关系型数据库建立本体模型;建立的本体模型可以为底层的数据库构建统一的视图,为上层应用提供统一的接口,从而方便数据的应用与分析。

    一种基于模式匹配的知识图谱检索方法与系统

    公开(公告)号:CN117763200A

    公开(公告)日:2024-03-26

    申请号:CN202311546501.5

    申请日:2023-11-20

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于模式匹配的知识图谱检索方法与系统。本方法步骤包括:对基于模式匹配的图谱查询流程进行优化,其中,对查询表达进行优化的方法为:根据用户的输入信息查询是否存在历史查询模板/记录,如果存在则将其反馈给用户,并提示是否采用或对该历史查询模板/记录进行调整,如果调整则进入查询图编辑步骤;否则为该用户创建新的查询图并进入查询图编辑步骤;查询图编辑步骤中,根据用户添加的节点、边生成查询涉及的概念、关系和属性,然后对添加的节点和边添加约束,生成该用户的查询图;对查询执行进行优化的方法为:根据该用户的查询图运用模式匹配算法在知识图谱中进行匹配处理,获取与该用户的查询图拓扑结构匹配的子图结果。

    一种从软件项目数据中提取知识图谱并问答的方法与系统

    公开(公告)号:CN108959433B

    公开(公告)日:2022-05-03

    申请号:CN201810597005.5

    申请日:2018-06-11

    Applicant: 北京大学

    Abstract: 本发明公开了一种从软件项目数据中提取知识图谱并问答的方法与系统。本方法为:对于软件项目数据库中每种类型的软件项目数据,从该类型的软件项目数据中提取出实体以及实体之间的关联关系,并存储到一对应的图数据库中;基于软件数据的可追踪性关联技术对各所述图数据库中的数据进行关联处理,得到不同类型软件项目数据的实体之间的关联关系;根据不同类型软件项目数据的实体之间的关联关系,在各图数据库中加入相应的边,对不同来源的实体进行连接,生成软件项目数据的知识图谱;对于输入的自然语言查询语句,从知识图谱中查询得到一匹配的连通子图作为答案。本发明解决了软件项目数据关联缺失、信息隔离现象严重、难以联立查询与分析的问题。

    基于负载均衡的知识图谱分布式海量数据导入方法

    公开(公告)号:CN114297395A

    公开(公告)日:2022-04-08

    申请号:CN202110677637.4

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。

    数据集成方法及系统
    29.
    发明授权

    公开(公告)号:CN106933901B

    公开(公告)日:2020-07-17

    申请号:CN201511032263.1

    申请日:2015-12-31

    Applicant: 北京大学

    Abstract: 本发明提供的数据集成方法及系统,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。从而使本发明通过聚类使整个集成过程所需的计算量减小,提高集成效率,同时通过匹配算法,使整个数据集成的质量得到保证。

    一种基于移动社交网络的城市人群时空动态感知方法和系统

    公开(公告)号:CN108712317A

    公开(公告)日:2018-10-26

    申请号:CN201810264531.X

    申请日:2018-03-28

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于移动社交网络的城市人群时空动态感知方法和系统。该方法的步骤包括:1)将城市区域离散化成边长为一定值的格子,将各格子的中心位置作为候选感知位置集合;2)在候选感知位置集合中,选择当前状态下能够产生最大感知收益的位置作为感知位置,在感知位置进行感知以获取用户的距离信息;3)利用在不同感知位置获得的用户的距离信息,通过三角定位来确定每个用户的具体位置。本发明每次都是选取感知收益最大的探针进行感知,仅需较少的探针数量就能感知到整个城市中用户的具体位置,并且具有良好的扩展性,能够通过大规模地动态地获取社交网络用户的时空特征来表征整个城市人群的时空动态特征。

Patent Agency Ranking