-
公开(公告)号:CN116562232A
公开(公告)日:2023-08-08
申请号:CN202310532544.1
申请日:2023-05-11
Applicant: 中国电信股份有限公司北京研究院 , 中国电信股份有限公司
IPC: G06F40/126 , G06F40/289 , G06F40/284 , G06F18/22 , G06N3/047 , G06N3/084
Abstract: 本公开提供一种词向量处理方法、装置、存储介质及电子设备,涉及自然语言处理技术领域。词向量处理方法包括:获取目标文本中待处理词和待处理词的上下文信息;初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,词向量编码模型用于生成待处理词的词向量;根据第一权重矩阵、待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定词向量编码模型中隐藏层向量;字相关性参数表征一个词中多个字向量之间的相关性;根据隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;根据调整第一权重矩阵后的词向量编码模型,生成待处理词的词向量。本公开考虑了组成词的多个字之间的紧密联系程度,生成的词向量更为准确。
-
公开(公告)号:CN115563933B
公开(公告)日:2023-12-01
申请号:CN202211168503.0
申请日:2022-09-19
Applicant: 中国电信股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/216
Abstract: 本公开提供一种词编码方法、装置、存储介质与设备,涉及自然语言处理技术领域。该词编码方法包括:采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵。本公开能够在一定程度上降低专业领域中的词编码难度,提高词编码的准确度。
-
公开(公告)号:CN115563933A
公开(公告)日:2023-01-03
申请号:CN202211168503.0
申请日:2022-09-19
Applicant: 中国电信股份有限公司
IPC: G06F40/126 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本公开提供一种词编码方法、装置、存储介质与设备,涉及自然语言处理技术领域。该词编码方法包括:采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵。本公开能够在一定程度上降低专业领域中的词编码难度,提高词编码的准确度。
-
-