问题文本中实体属性的生成方法、装置、设备及存储介质

    公开(公告)号:CN115357705A

    公开(公告)日:2022-11-18

    申请号:CN202211299339.7

    申请日:2022-10-24

    发明人: 江岭 王思宇 黄鹏

    摘要: 本发明公开了一种问题文本中实体属性的生成方法,包括以下步骤:利用属性集合预测模型中的问题编码器对问题文本中各词汇的词嵌入进行编码操作,得到上下文感知的句子表示向量;获取随机初始化得到的各属性查询向量;利用属性集合预测模型中的问题解码器基于交叉注意力机制和自注意力机制,根据各属性查询向量对上下文感知的句子表示向量进行解码操作,得到问题文本中包含的各实体属性。应用本发明所提供的问题文本中实体属性的生成方法,既可以同时识别多个属性,又不需要识别问题文本中包含的各实体属性的顺序,较大地降低了模型负担,提高了模型的性能。本发明还公开了一种问题文本中实体属性的生成装置、设备及存储介质,具有相应技术效果。

    基于预训练语言模型和编码器的消息意图识别方法及系统

    公开(公告)号:CN113254617B

    公开(公告)日:2021-10-22

    申请号:CN202110655567.2

    申请日:2021-06-11

    发明人: 江岭 黄鹏 张振羽

    摘要: 本发明提供一种基于预训练语言模型和编码器的消息意图识别方法及系统,包括获取领域标注数据集;所述领域标注数据集通过对各个领域的数据集进行标注后获得;通过预训练语言模型和意图预测器为所述领域标注数据集中的每一条消息生成一个软标签,获得对应的软标签数据集并输入消息编码器;通过所述消息编码器对所述软标签数据集中的每一条消息进行切词处理,并根据处理结果进行编码处理后得到对应的特征向量并输入意图预测器;通过所述意图预测器将所述软标签和所述特征向量进行拼接后进行运算得到各个消息对应的意图。通过预训练语言模型、消息编码器和意图预测器进行协同处理,既提高了消息识别的精度,同时也提高了训练的效率。

    基于门机制的多级注意力模型的评论方面检测方法及系统

    公开(公告)号:CN113254592B

    公开(公告)日:2021-10-22

    申请号:CN202110669829.0

    申请日:2021-06-17

    发明人: 王思宇 黄鹏 江岭

    摘要: 本发明提供一种基于门机制的多级注意力模型的评论方面检测方法及系统,待处理的句子转换为嵌入词形式的词向量矩阵后使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理,得到每个时间步的隐藏状态,并根据隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码;根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵;计算各个时间步相对于最后一个时间步的权重,并根据该权重和隐藏状态计算得到对应的词级自注意特征向量;对句子级自注意特征矩阵进行拉伸操作并通过全连接层得到句子级自注意力特征向量,通过一个门机制混合句级注意力的向量和词级注意力的向量后根据得到的向量分析句子的方面类别概率,确定句子的方面类别。

    基于无监督对话预训练的对话理解与答案配置方法及系统

    公开(公告)号:CN113032545B

    公开(公告)日:2021-09-03

    申请号:CN202110595442.5

    申请日:2021-05-29

    发明人: 张振羽 江岭 黄鹏

    摘要: 本发明提供了基于无监督对话预训练的对话理解与答案配置方法,包括进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入;将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;对模型encoder输出的编码向量进行基于BiLSTM‑CNN的池化处理获得对话表征向量;利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模任意组合生成的预训练学习任务,对模型进行优化。本发明可有效解决多轮对话意图识别,且通过生成回复答案的方法能够提高答案的配置效率。

    基于预训练语言模型和编码器的消息意图识别方法及系统

    公开(公告)号:CN113254617A

    公开(公告)日:2021-08-13

    申请号:CN202110655567.2

    申请日:2021-06-11

    发明人: 江岭 黄鹏 张振羽

    摘要: 本发明提供一种基于预训练语言模型和编码器的消息意图识别方法及系统,包括获取领域标注数据集;所述领域标注数据集通过对各个领域的数据集进行标注后获得;通过预训练语言模型为所述领域标注数据集中的每一条消息生成一个软标签,获得对应的软标签数据集并输入消息编码器;通过所述消息编码器对所述软标签数据集中的每一条消息进行切词处理,并根据处理结果进行编码处理后得到对应的特征向量并输入意图预测器;通过所述意图预测器将所述软标签和所述特征向量进行拼接后进行运算得到各个消息对应的意图。通过预训练语言模型、消息编码器和意图识别器进行协同处理,既提高了消息识别的精度,同时也提高了训练的效率。

    一种基于上下文注意流的对话意图识别系统及方法

    公开(公告)号:CN113094475A

    公开(公告)日:2021-07-09

    申请号:CN202110634398.4

    申请日:2021-06-08

    发明人: 江岭 黄鹏 张振羽

    摘要: 本发明提供一种基于上下文注意流的对话意图识别系统及方法,包括输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;多任务学习模块用于根据系统的总损失函数对特征向量进行优化,提高了对话意图识别的效率和准确率。

    有监督学习的标注异常处理方法、装置、存储介质及设备

    公开(公告)号:CN112598118A

    公开(公告)日:2021-04-02

    申请号:CN202110234096.8

    申请日:2021-03-03

    发明人: 张翀 江岭 黄鹏

    IPC分类号: G06N3/04 G06N3/08 G06K9/62

    摘要: 本申请提供一种有监督学习的标注异常处理方法、装置、存储介质及设备,方法应用于深度学习的训练系统,方法包括:S11:基于样本集中的第一样本子集构建的第一元训练装置分别计算当前N个分类模型中每个分类模型对应的第一下降梯度;其中,N为大于0的整数;S12:基于当前N个第一下降梯度确定出的综合梯度对当前第一元模型朝着梯度下降的方向更新参数,并将更新后获得的元模型确定为第二元模型;其中,第一样本子集与第二样本子集在样本集的基础上采用不同的采样方式分别获得;S13:判断综合梯度的值是否不再下降,若是,将当前的第二元模型确定为目标模型;若否,基于所述样本集中的新的第一样本子集重复S11和S12,以提高目标模型的通用性和准确性。

    一种商品搭配推荐方法、系统、装置及存储介质

    公开(公告)号:CN111402013B

    公开(公告)日:2020-09-01

    申请号:CN202010497088.8

    申请日:2020-06-04

    发明人: 王思宇 江岭

    IPC分类号: G06Q30/06

    摘要: 本发明公开了一种商品搭配推荐方法、系统、装置及存储介质,该系统与装置均应用该方法,该存储介质为存储有该方法的存储介质;该方法包括离线部分和在线部分,其中离线部分根据用户在一时间段内的订单信息生成商品购买序列,应用该商品购买序列建立模型,并通过优化目标函数实现对模型的优化,同时引入注意力机制获取最终函数,减少用户在短时间内的重复购买与相似购买对模型的影响,最终获取商品向量,再通过商品向量计算用户向量;在在线部分计算候选搭配商品的商品向量与用户向量的相似度,将相似度最高的商品优先推荐给用户。

    一种句法分析方法、装置、存储介质及电子设备

    公开(公告)号:CN111523302A

    公开(公告)日:2020-08-11

    申请号:CN202010638300.8

    申请日:2020-07-06

    发明人: 宋子文晗 江岭

    摘要: 本申请提供了一种句法分析方法、装置、存储介质及电子设备,方法用于解析原始语句,使得原始语句中的多个字词向量从缓存空间全部转移至栈空间的过程,方法包括:对当前位于缓存空间中的多个字词向量分别对应的第一索引重新组合排列,获得K种候选词组索引单元组成的第一字词索引集合;查询与每个候选词组索引单元对应的词组向量,获得每个词组向量的第一得分,将最高的第一得分对应的词组向量预测为当前从缓存空间转移至栈空间进行移位操作时移动的词组向量,使得对语句的识别更准确。

    一种电话机器人中带口音的语音识别方法及系统

    公开(公告)号:CN111508501A

    公开(公告)日:2020-08-07

    申请号:CN202010623463.9

    申请日:2020-07-02

    发明人: 张翀 江岭

    摘要: 本申请提供一种电话机器人中带口音的语音识别方法及系统,包括获取语音输入信号的高级声学特征和口音特征;将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列;获取会话理解系统的会话场景判断结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。通过上述方式,将口音特征与会话场景相结合,可以大大提升电话机器人中,对带口音的语音识别的准确性。