面向生物医学文本的命名实体识别模型的训练方法

发明授权

CN116341554B 面向生物医学文本的命名实体识别模型的训练方法有权

请登陆查看更多内容

专利标题： 面向生物医学文本的命名实体识别模型的训练方法
申请号： CN202310574300.X

申请日： 2023-05-22
公开(公告)号： CN116341554B

公开(公告)日： 2023-08-29
发明人: 刘际 , 张传民 , 李红旗
申请人： 中国科学技术大学
申请人地址： 安徽省合肥市包河区金寨路96号
专利权人： 中国科学技术大学
当前专利权人： 中国科学技术大学
当前专利权人地址： 安徽省合肥市包河区金寨路96号
代理机构： 中科专利商标代理有限责任公司
代理商 张博
主分类号： G06F40/295
IPC分类号： G06F40/295 ; G06N3/0455 ; G06N3/048 ; G06N3/084

摘要：

本发明提供了一种面向生物医学文本的命名实体识别模型的训练方法。该方法包括：利用输入层处理训练集，得到初始向量矩阵和语言模型矩阵，并利用嵌入层将初始向量矩阵和语言模型矩阵中的词嵌入向量进行向量相加融合运算，得到多维度词嵌入向量；利用Transformer层对多维度词嵌入向量进行处理，得到多维度向量，并利用条件随机场层处理多维度向量，得到标签信息；利用损失函数通过处理标签信息和标注信息，并利用损失值通过反向传播对命名实体识别模型进行参数更新；利用验证集对参数更新后的命名实体识别模型进行验证，根据验证结果对命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型。

公开/授权文献

CN116341554A 面向生物医学文本的命名实体识别模型的训练方法公开/授权日：2023-06-27

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/289	...短语分析，例如有限状态技术或分块
G06F40/295	....命名实体识别