-
公开(公告)号:CN114004233A
公开(公告)日:2022-02-01
申请号:CN202111644281.0
申请日:2021-12-30
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/242 , G06F40/211 , G06F40/216 , G06F16/903 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于半训练和句子选择的远程监督命名实体识别方法,该方法首先通过半训练策略将双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型在人工标注数据集上的平衡F分数训练到预设半训练区间;然后采用FNN作为强化学习中的策略网络,来对远程监督数据集中的句子进行选择;接着采用软概率选择出置信度大于阈值的句子;然后将筛选出的句子和人工标注数据集进行合并作为新的训练集;最后利用新的训练集对双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新。本发明方法能够有效提高基于远程监督的命名实体识别模型的性能。
-
公开(公告)号:CN114004233B
公开(公告)日:2022-05-06
申请号:CN202111644281.0
申请日:2021-12-30
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/242 , G06F40/211 , G06F40/216 , G06F16/903 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于半训练和句子选择的远程监督命名实体识别方法,该方法首先通过半训练策略将双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型在人工标注数据集上的平衡F分数训练到预设半训练区间;然后采用FNN作为强化学习中的策略网络,来对远程监督数据集中的句子进行选择;接着采用软概率选择出置信度大于阈值的句子;然后将筛选出的句子和人工标注数据集进行合并作为新的训练集;最后利用新的训练集对双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新。本发明方法能够有效提高基于远程监督的命名实体识别模型的性能。
-