图形界面智能体的训练方法、设备及存储介质

    公开(公告)号:CN120031099A

    公开(公告)日:2025-05-23

    申请号:CN202510146642.0

    申请日:2025-02-10

    Inventor: 俞凯 陈露 张丹阳

    Abstract: 本申请提供一种图形界面智能体的训练方法、设备及存储介质,该方法包括:获取图形界面交互任务样本,该图形界面交互任务样本包含图形界面交互任务轨迹和相应的交互任务完成结果;针对图形界面交互任务轨迹中的各个图形界面操作步骤,确定图形界面操作步骤所对应的任务预测进度,并根据任务预测进度和交互任务完成结果计算相应的进度奖励值;根据各个图形界面操作步骤所对应的进度奖励值,对图形界面智能体进行训练。由此,通过引入动态任务进度预测与细粒度奖励分配机制,能有效提升策略梯度更新频率,形成任务理解与操作执行协同进化的训练范式。

    提升长上下文大型语言模型推理效率的方法、电子设备和存储介质

    公开(公告)号:CN119250206A

    公开(公告)日:2025-01-03

    申请号:CN202411430233.5

    申请日:2024-10-14

    Inventor: 陈露 俞凯 马达

    Abstract: 本申请实施例公开提升长上下文大型语言模型推理效率的方法、电子设备和存储介质,其中,提升长上下文大型语言模型推理效率的方法包括:一种提升长上下文大型语言模型推理效率的方法,包括:在给定的大型语言模型中分析层间注意力分数的相似性,并将连续的相似层归类到同一区块中;在每个区块中应用注意力共享,并对所述大型语言模型进行后训练;使用后训练的大型语言模型进行高效推理。

    基于鉴别性训练的定制语音唤醒优化方法及系统

    公开(公告)号:CN107123417B

    公开(公告)日:2020-06-09

    申请号:CN201710343427.5

    申请日:2017-05-16

    Inventor: 俞凯 陈哲怀

    Abstract: 一种基于鉴别性训练的定制语音唤醒优化方法及系统,在给定带标注的声学数据后,结合初始的基于神经网络的声学模型,通过神经网络前向传播得到逐帧声学概率;结合标注序列及逐帧声学概率,得到标注唤醒词的建模概率;利用在大量文本上统计得到的音素级语言模型,构建为相应的搜索网络;基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模,得到后验概率;结合唤醒词竞争项建模和标注唤醒词建模,进行声学模型的鉴别性训练;通过鉴别性训练得到的声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒。

    基于音频的人机混合交互系统及方法

    公开(公告)号:CN106409283B

    公开(公告)日:2020-01-10

    申请号:CN201610791966.0

    申请日:2016-08-31

    Abstract: 本发明公开了一种基于音频的人机混合交互系统,语音识别模块与语义识别模块相连并传输语音对应的文字信息,异常处理模块与语音识别模块和语义识别模块相连,语音识别模块传输文字信息给异常处理模块,语义识别模块传输语义解析结果给异常处理模块;异常处理模块与语音合成模块相连并传输干预信息。本发明还公开了一种基于音频的人机混合交互方法,语音识别模块将语音信息转换为文字信息并输出至语义识别单元;语义识别单元从文字信息中提取用户目的以及相应的关键信息;异常处理模块根据语音识别模块的文字信息以及语义识别模块的语义信息判断人机对话当前是否出现异常并针对异常处理消息的回复。本发明的技术方案提供统一的人机对话体验。

    应用于复合对话任务的对话方法及系统

    公开(公告)号:CN110443355A

    公开(公告)日:2019-11-12

    申请号:CN201910720620.5

    申请日:2019-08-06

    Inventor: 俞凯 陈志

    Abstract: 本申请公开一种应用于复合对话任务的对话方法,包括:对当前对话置信状态进行结构化处理以得到上层结构化对话状态;基于第一图神经网络对所述上层结构化对话状态进行处理,以确定对应于所述当前对话置信状态的子任务信息;对所述子任务信息和所述当前对话置信状态进行结构化处理以得到底层结构化对话状态;基于第二图神经网络对所述底层结构化对话状态进行处理,以确定相应于所述当前对话置信状态的对话动作。本申请实施例结合HDRL和GNN来解决复合任务,同时实现样本效率。此外,对环境噪声更加稳健,可以进行有效准确的迁移。

    用于口语语义理解的数据增强方法及系统

    公开(公告)号:CN110413739A

    公开(公告)日:2019-11-05

    申请号:CN201910706308.0

    申请日:2019-08-01

    Inventor: 俞凯 朱苏 赵子健

    Abstract: 本发明实施例提供一种用于口语语义理解的数据增强方法。该方法包括:定义原子模板匹配表,在原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述;根据给定的对话动作确定语义表示,将对话动作的语义表示分解成单位语义标签,根据原子模板匹配表,找到与单位语义标签对应的结构化的基本粒度标签,进而确定与基本粒度标签匹配的原子模板,利用原子模板将给定的对话动作转换成原子样例;利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。本发明实施例还提供一种用于口语语义理解的数据增强系统。本发明实施例需要数据增强的对话动作输入,即可生成全新的标签,生成的新句子更加符合自然语句。

    GRU编解码器训练方法、音频的摘要生成方法及装置

    公开(公告)号:CN110222225A

    公开(公告)日:2019-09-10

    申请号:CN201910503274.5

    申请日:2019-06-11

    Abstract: 本申请公开一种GRU编解码器训练方法,包括:将样本音频分割为多个子样本音频片段;获取所述多个子样本音频片段的样本Fbank滤波器特征;将所述样本Fbank滤波器特征输入至待训练GRU编码器,以得到固定长度的样本特征向量;将所述样本特征向量输入至待训练GRU解码器,以得到相应的样本词向量嵌入和样本隐层向量;根据对应于所述样本音频的样本标注语句生成相应的参考样本词向量嵌入;根据所述样本词向量嵌入和所述参考样本词向量嵌入生成词级交叉熵损失;至少基于所述词级交叉熵损失对所述待训练GRU解码器和所述待训练GRU编码器的网络参数进行优化调整。本申请使得自动根据音频生成文字摘要成为可能,节省了人力物力财力,而且还极大的提升了效率和准确性。

    可定制语音唤醒方法及系统

    公开(公告)号:CN106098059B

    公开(公告)日:2019-06-18

    申请号:CN201610462976.X

    申请日:2016-06-23

    Abstract: 一种可定制语音唤醒方法及系统,通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练,采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性,即高准确率,低误唤醒,另一方面对应用系统的计算资源消耗相对较少。

    文本相关声纹密码验证方法

    公开(公告)号:CN105913850B

    公开(公告)日:2019-05-28

    申请号:CN201610246535.6

    申请日:2016-04-20

    Inventor: 俞凯 王帅

    Abstract: 一种文本相关声纹密码验证方法,通过随机生成字符或字符串提示用户进行朗读,并将采集到的朗读音频中的声纹与预设的用户声纹模型进行对比分析,当内容正确且声纹一致时判定验证通过。本发明能够确保识别结果的准确率、安全性和实时性,并且方便用户使用。

Patent Agency Ranking