一种基于半监督学习的开放域中文文本命名实体识别方法

    公开(公告)号:CN108763201B

    公开(公告)日:2021-07-23

    申请号:CN201810472083.2

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。

    一种基于半监督学习的开放域中文文本命名实体识别方法

    公开(公告)号:CN108763201A

    公开(公告)日:2018-11-06

    申请号:CN201810472083.2

    申请日:2018-05-17

    Applicant: 南京大学

    CPC classification number: G06F17/278 G06F17/277

    Abstract: 一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。

    一种基于语义嵌入的词向量改进模型的建立方法

    公开(公告)号:CN110532395B

    公开(公告)日:2021-09-28

    申请号:CN201910395662.6

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于语义嵌入的词向量改进模型的建立方法,包含如下步骤:1)双向长短期记忆网络训练阶段;2)上下文向量计算阶段:将句子和目标单词t输入步骤1训练好的双向长短期记忆网络中,求得上下文向量;3)上下文向量语义聚类阶段:a使用余弦相似度计算当前的上下文向量和单词t每个语义簇中心相似度;b使用贝叶斯非参数统计模型计算当前上下文向量归属为的类簇的概率P;c最大化P值并求出该值对应的类簇;c对当前上下文向量归属的类簇中心进行偏移;4)语义向量计算阶段。本发明利用神经网络和贝叶斯非参数统计方法为解决了当前词向量模型无法解决单词存在的一词多义问题。

    一种基于语义嵌入的词向量改进模型的建立方法

    公开(公告)号:CN110532395A

    公开(公告)日:2019-12-03

    申请号:CN201910395662.6

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于语义嵌入的词向量改进模型的建立方法,包含如下步骤:1)双向长短期记忆网络训练阶段;2)上下文向量计算阶段:将句子和目标单词t输入步骤1训练好的双向长短期记忆网络中,求得上下文向量;3)上下文向量语义聚类阶段:a使用余弦相似度计算当前的上下文向量和单词t每个语义簇中心相似度;b使用贝叶斯非参数统计模型计算当前上下文向量归属为的类簇的概率P;c最大化P值并求出该值对应的类簇;c对当前上下文向量归属的类簇中心进行偏移;4)语义向量计算阶段。本发明利用神经网络和贝叶斯非参数统计方法为解决了当前词向量模型无法解决单词存在的一词多义问题。

Patent Agency Ranking