一种基于编辑距离以及词频和词向量的实体关系识别方法

    公开(公告)号:CN106066856A

    公开(公告)日:2016-11-02

    申请号:CN201610349298.6

    申请日:2016-05-24

    CPC classification number: G06F16/951 G06F17/2715 G06F17/2775

    Abstract: 本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。

    一种基于编辑距离以及词频和词向量的实体关系识别方法

    公开(公告)号:CN106066856B

    公开(公告)日:2019-05-21

    申请号:CN201610349298.6

    申请日:2016-05-24

    Abstract: 本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。

    基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

    公开(公告)号:CN106874378B

    公开(公告)日:2020-06-02

    申请号:CN201710006826.2

    申请日:2017-01-05

    Abstract: 本发明涉及一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。本发明将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,为用户展现出该领域的核心知识库,并提高优化搜索质量,实现了从简单字符串到实体理解的过程。

    基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

    公开(公告)号:CN106874378A

    公开(公告)日:2017-06-20

    申请号:CN201710006826.2

    申请日:2017-01-05

    Abstract: 本发明涉及一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。本发明将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,为用户展现出该领域的核心知识库,并提高优化搜索质量,实现了从简单字符串到实体理解的过程。

Patent Agency Ranking