实体定位和分类方法、装置、设备及存储介质

    公开(公告)号:CN117574901B

    公开(公告)日:2024-07-19

    申请号:CN202311543190.7

    申请日:2023-11-20

    Abstract: 本发明公开了一种实体定位和分类方法、装置、设备及存储介质。本发明将实体识别过程拆分成两步,先单独进行BIO标签预测而不考虑实体,再对BIO序列重新补充实体名,能够提高模型的预测性能,对于相似实体也能够达到可观的预测精度。通过多线程技术,本发明的模型可以训练较大批量的训练集,模型的召回率和准确率均高于简单使用BERT+CRF的实体识别模型。本发明对实体定位模型采取奇偶轮交替训练的策略时,能够更好的召回实体。

    一种基于半训练和句子选择的远程监督命名实体识别方法

    公开(公告)号:CN114004233B

    公开(公告)日:2022-05-06

    申请号:CN202111644281.0

    申请日:2021-12-30

    Abstract: 本发明公开了一种基于半训练和句子选择的远程监督命名实体识别方法,该方法首先通过半训练策略将双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型在人工标注数据集上的平衡F分数训练到预设半训练区间;然后采用FNN作为强化学习中的策略网络,来对远程监督数据集中的句子进行选择;接着采用软概率选择出置信度大于阈值的句子;然后将筛选出的句子和人工标注数据集进行合并作为新的训练集;最后利用新的训练集对双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新。本发明方法能够有效提高基于远程监督的命名实体识别模型的性能。

    实体定位和分类方法、装置、设备及存储介质

    公开(公告)号:CN117574901A

    公开(公告)日:2024-02-20

    申请号:CN202311543190.7

    申请日:2023-11-20

    Abstract: 本发明公开了一种实体定位和分类方法、装置、设备及存储介质。本发明将实体识别过程拆分成两步,先单独进行BIO标签预测而不考虑实体,再对BIO序列重新补充实体名,能够提高模型的预测性能,对于相似实体也能够达到可观的预测精度。通过多线程技术,本发明的模型可以训练较大批量的训练集,模型的召回率和准确率均高于简单使用BERT+CRF的实体识别模型。本发明对实体定位模型采取奇偶轮交替训练的策略时,能够更好的召回实体。

    一种基于半训练和句子选择的远程监督命名实体识别方法

    公开(公告)号:CN114004233A

    公开(公告)日:2022-02-01

    申请号:CN202111644281.0

    申请日:2021-12-30

    Abstract: 本发明公开了一种基于半训练和句子选择的远程监督命名实体识别方法,该方法首先通过半训练策略将双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型在人工标注数据集上的平衡F分数训练到预设半训练区间;然后采用FNN作为强化学习中的策略网络,来对远程监督数据集中的句子进行选择;接着采用软概率选择出置信度大于阈值的句子;然后将筛选出的句子和人工标注数据集进行合并作为新的训练集;最后利用新的训练集对双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新。本发明方法能够有效提高基于远程监督的命名实体识别模型的性能。

Patent Agency Ranking