语音识别方法及系统

    公开(公告)号:CN108417202A

    公开(公告)日:2018-08-17

    申请号:CN201810054315.2

    申请日:2018-01-19

    Abstract: 本发明公开一种语音识别方法及系统。所述语音识别方法包括:提取待识别的语音数据的声学特征;基于声学-音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素-语言神经网络模型,将所述音素阵列进一步解码为文字序列。本发明实施例的语音识别系统,声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入,无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型,从整体上看,提供了另一种全新的端到端的语音识别架构,极大提高了语音识别的效率。

    一种构建语言模型的方法、输入法及系统

    公开(公告)号:CN108108428A

    公开(公告)日:2018-06-01

    申请号:CN201711367409.7

    申请日:2017-12-18

    Inventor: 俞凯 钱彦旻 刘奇

    Abstract: 本发明公开一种构建语言模型的方法,包括:获取文本数据中的句子的未来向量,句子的未来向量为句子反向之后所提取的向量;以文本数据中的句子中的前文为第一输入,以句子的未来向量作为第一输出,训练得到未来向量预测网络;至少以将所述句子中的前文输入未来向量预测网络的输出值作为第二输入,以句子的前文的后续词语为第二输出,训练得到主神经网络;基于未来向量预测网络和主神经网络生成所述语言模型。在本发明通过综合考虑已知前文和相应于已知前文的未来向量的方式来构建语言模型,使得所构建的语言模型能够从整个句子层面(未来向量)结合当前前文信息来预测后续词语,提高了预测的准确性与可靠性。

    基于语义槽内部结构的可迁移口语语义解析系统及其实现方法

    公开(公告)号:CN107341146A

    公开(公告)日:2017-11-10

    申请号:CN201710483733.9

    申请日:2017-06-23

    Inventor: 俞凯 朱苏

    Abstract: 一种基于语义槽内部结构的可迁移口语语义解析系统及其实现方法,包括:含有循环神经网络的源领域模型训练模块、含有基于原子概念序列的模型的目标领域迁移学习模块以及解析模块,源领域模型训练模块采集源领域数据并根据源领域的原子概念序列定义将训练得到的源领域的语义理解模型输出至目标领域迁移学习模块,目标领域迁移学习模块根据目标领域的样本数据和原子概念序列定义进行二次训练并采用单领域或多领域方式对所得到目标领域的口语语义理解模型进行迁移学习的优化;解析模块根据优化后的口语语义理解模型解析用户的语句输入并得到语义结果。本发明能够支持领域迁移的口语语义理解。

    一种虚拟军事训练系统
    15.
    发明公开

    公开(公告)号:CN106355970A

    公开(公告)日:2017-01-25

    申请号:CN201610790214.2

    申请日:2016-08-31

    Inventor: 盛斌 俞凯

    CPC classification number: G09B9/003 G06F16/951

    Abstract: 本发明涉及一种虚拟军事训练系统,包括:登录模块,用于实现用户的登录识别、信息记录、信息重置和中英文切换;主界面模块,用于实现菜单栏、工具栏和导航区控制以及主内容的显示。与现有技术相比,本发明具有界面友好,性能卓越等优点。

    图形界面智能体的训练方法、设备及存储介质

    公开(公告)号:CN120031134A

    公开(公告)日:2025-05-23

    申请号:CN202510146643.5

    申请日:2025-02-10

    Inventor: 俞凯 陈露 张丹阳

    Abstract: 本申请提供一种图形界面智能体的训练方法、设备及存储介质,该方法包括:基于动态模型推断第一无标签图形界面交互轨迹中的初始状态和动作所对应的转移状态,以作为第一无标签图形界面交互轨迹的监督信号;基于逆动态模型推断第二无标签图形界面交互轨迹中的状态转移所对应的动作,以作为第二无标签图形界面交互轨迹的监督信号;基于具有监督信号的第一无标签图形界面交互轨迹和具有监督信号的第二无标签图形界面交互轨迹,对图形界面智能体进行训练。由此,通过自动从无标注数据中提取监督信号,充分利用无标注数据中蕴含的丰富信息,降低了数据标注的经济与时间成本,并提升了GUI智能体在多步任务规划和界面理解等关键技术指标上的性能。

    语音数据增广方法、电子设备和存储介质

    公开(公告)号:CN116504233A

    公开(公告)日:2023-07-28

    申请号:CN202310529909.5

    申请日:2023-05-11

    Abstract: 本发明公开语音数据增广方法、电子设备和存储介质,其中,一种语音数据增广方法,包括:将基于文本的语音编辑模型应用于训练语料库中的原始音频,以生成具有指定修改的增广音频,其中,所述语音编辑模型能够捕捉到真实音频的语境信息,以便进行基于文本的语音编辑。进一步的,语音编辑模型包括文本编码器、语音编码器和联合网络,其中,所述文本编码器用于捕获内容信息,所述语音编码器用来捕获声学特性,所述联合网络用于融合所述内容信息和所述声学特性,产生用于进一步用于生成语音的梅尔频谱,通过融入来自真实语音的声学信息,所述语音编辑模型能够生成在修改区域内表现出高度语境一致性和多样性的语音。

    一种构建语言模型的方法、输入法及系统

    公开(公告)号:CN108108428B

    公开(公告)日:2020-05-12

    申请号:CN201711367409.7

    申请日:2017-12-18

    Inventor: 俞凯 钱彦旻 刘奇

    Abstract: 本发明公开一种构建语言模型的方法,包括:获取文本数据中的句子的未来向量,句子的未来向量为句子反向之后所提取的向量;以文本数据中的句子中的前文为第一输入,以句子的未来向量作为第一输出,训练得到未来向量预测网络;至少以将所述句子中的前文输入未来向量预测网络的输出值作为第二输入,以句子的前文的后续词语为第二输出,训练得到主神经网络;基于未来向量预测网络和主神经网络生成所述语言模型。在本发明通过综合考虑已知前文和相应于已知前文的未来向量的方式来构建语言模型,使得所构建的语言模型能够从整个句子层面(未来向量)结合当前前文信息来预测后续词语,提高了预测的准确性与可靠性。

    对话策略优化的冷启动系统和方法

    公开(公告)号:CN107342078B

    公开(公告)日:2020-05-05

    申请号:CN201710483731.X

    申请日:2017-06-23

    Abstract: 一种对话策略优化的冷启动系统和方法,包括:用户输入模块、对话状态跟踪模块、教师决策模块、学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验,根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。本发明能够显著提高对话策略在强化学习在线训练初期的性能;提高对话策略的学习速度,即减少其达到一定性能所用的对话数量。

    儿童语音识别模型的训练方法及系统

    公开(公告)号:CN110706692A

    公开(公告)日:2020-01-17

    申请号:CN201911000370.4

    申请日:2019-10-21

    Abstract: 本发明实施例提供一种儿童语音识别模型的训练方法。该方法包括:获取训练数据;通过基线声学模型训练得到无条件生成对抗网络;将随机噪声数据输入无条件生成对抗网络,得到噪声增强声学特征;将噪声增强声学特征输入至基线声学模型,得到每一帧噪声增强声学特征对应的后验概率软标签;至少将噪声增强声学特征和软标签以及儿童语音训练数据和硬标签作为样本训练数据训练儿童语音增强声学识别模型。本发明实施例还提供一种儿童语音识别模型的训练系统。本发明实施例在儿童语音有限的情况下,改变了儿童语音的发音本质,生成多样化的儿童语音,提高儿童语音识别模型的识别准确率。

Patent Agency Ranking