基于云平台的演讲内容提取方法及装置

    公开(公告)号:CN105957531B

    公开(公告)日:2019-12-31

    申请号:CN201610260647.7

    申请日:2016-04-25

    Abstract: 一种基于云平台的演讲内容提取方法及装置,包括:采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理;发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务器;服务器对接收的音频进行语音切分、把音频按说话人分割;进行自动语音识别把分割后的音频转换为文字,语音识别使用声学自适应和语言模型自适应;从语音识别的文本中提取关键字和生成内容笔记。该方法通过语音识别把音频识别成能反复阅读的文本形式,使用语言模型自适应和声学模型自适应提高识别准确率。并进行知识整合,避免把时间花在阅读冗余信息上。本发明还公开了一种基于云平台的演讲内容提取装置,包括演讲录制模块、材料发送模块、语音分割模块、语音识别模块和关键字和内容笔记提取模块。

    欺骗录音检测神经网络模型的优化方法及系统

    公开(公告)号:CN110223676A

    公开(公告)日:2019-09-10

    申请号:CN201910516188.8

    申请日:2019-06-14

    Abstract: 本发明实施例提供一种欺骗录音检测神经网络模型的优化方法。该方法包括:基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型;将源域数据以及目标域数据输入至特征提取器;将特征提取器的输出分别输入至欺骗检测器和领域预测器,通过训练欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和领域预测器的损失函数值;基于降低后的领域预测器的损失函数值对特征提取器进行对抗训练,使特征提取器输出到欺骗检测器的深度特征为域不变和欺骗检测区别的特征。本发明实施例还提供一种欺骗录音检测神经网络模型的优化系统。本发明实施例优化的模型在录音攻击检测中没有区分领域预测的能力,提高跨领域测试的泛化性能。

    基于文本的抑郁判定网络模型的训练方法

    公开(公告)号:CN110222827A

    公开(公告)日:2019-09-10

    申请号:CN201910502642.4

    申请日:2019-06-11

    Abstract: 本申请公开一种基于文本的抑郁判定网络模型的训练方法,所述抑郁判定网络模型包括双向LSTM网络单元和与所述双向LSTM网络单元的输出端连接的attention池化层,该方法包括:从样本库中获取患者针对医生提问的样本回答文本内容并输入至预先训练的BERT网络模型,以得到相应的样本向量序列;将所述样本向量序列作为输入,并采用多任务学习方式训练所述抑郁判定网络模型;所述attention池化层输出对所述患者抑郁的判定结果。简化了用于训练抑郁判定网络模型的方法,降低了抑郁判断成本,并且由于采用了BERT网络模型保证了抑郁判定的准确度。极大的降低了在抑郁检测领域推广计算机辅助医疗技术的成本与难度。

    说话人相关的端到端语音端点检测方法和装置

    公开(公告)号:CN110136749A

    公开(公告)日:2019-08-16

    申请号:CN201910517374.3

    申请日:2019-06-14

    Abstract: 本发明公开说话人相关的端到端语音端点检测方法和装置,其中,一种说话人相关的端到端语音端点检测方法,包括:提取待检测语音的声学特征;将所述声学特征与i-vector特征进行拼接以作为新的输入特征;将新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的检测结果。本申请的方法和装置通过在传统的语音端点检测系统的训练过程中加入了说话人相关的信息(i-vector),并将深度神经网络(DNN)和长短时记忆神经网络(LSTM)应用到语音端点检测中,实现了端到端的说话人相关的端点检测系统,通过单个网络就可以直接输出目标说话人的语音部分,去除音频中其他的静音段和非目标说话人的语音。

    端到端语义解析系统及训练方法

    公开(公告)号:CN110084323A

    公开(公告)日:2019-08-02

    申请号:CN201910385847.9

    申请日:2019-05-09

    Inventor: 俞凯 曹瑞升

    Abstract: 本发明公开一种端到端语义解析系统训练方法包括:向所述第一解析模型输入第一形式待解析内容;确定对应于所述第一形式待解析内容的多个第二形式待解析内容;计算对应于所述多个第二形式待解析内容多个有效性回报;第二解析模型根据多个第二形式待解析内容生成多个第一形式重构解析内容;根据多个第一形式重构解析内容计算得到多个重构回报;根据多个有效性回报和多个重构回报确定总回报;基于总回报采用策略梯度下降更新第一解析模型和第二解析模型的网络参数。本发明中得到的两类反馈信号用于训练两个策略网络的参数,从而网络不仅能够从有监督数据中学习,也能充分利用无监督数据。

    演示文稿的操作方法及系统

    公开(公告)号:CN108920128A

    公开(公告)日:2018-11-30

    申请号:CN201810763148.9

    申请日:2018-07-12

    Inventor: 俞凯 赵晏彬

    CPC classification number: G06F3/167 G10L15/22 G10L15/26 G10L2015/223

    Abstract: 本发明实施例提供一种演示文稿的操作方法。该方法包括:在播放演示文稿的过程中,接收来自演讲者的语音数据;根据预设分句策略,依次确定各语音数据片段;将各语音数据片段依次输入至语音识别引擎,判断各语音数据片段是否命中控制指令的唤醒词;当存在第一语音数据片段未命中控制指令的唤醒词时,对第一语音数据片段进行逐词文字识别,并在演示文稿的播放页面上进行逐词显示;当存在第二语音数据片段命中控制指令的唤醒词时,执行控制指令对演示文稿进行控制。本发明实施例还提供一种演示文稿的操作系统。本发明实施例通过使用语音产生的指令内容对演示文稿进行操作,完全解放了演示者的双手,同时在将演讲的话语作为字幕示出,提升演讲效果。

    多智能体对话策略系统构建方法及自适应方法

    公开(公告)号:CN108829797A

    公开(公告)日:2018-11-16

    申请号:CN201810570550.5

    申请日:2018-06-05

    Inventor: 俞凯 陈露

    Abstract: 本发明公开一种多智能体对话策略系统构建方法,包括:构建语义槽无关智能体、多个语义槽相关智能体和决策网络;配置语义槽无关智能体,以根据输入的置信对话状态的语义槽无关信息计算得到与语义槽无关的对话动作集合的第一关联信息;配置多个语义槽相关智能体,以根据输入的置信对话状态的语义槽相关信息计算得到与语义槽相关的对话动作集合的第二关联信息集;配置决策网络,以根据第一关联信息和多个第二子关联信息集确定对应于置信对话状态的对话动作。本发明解决了传统的采用全连接的基于深度强化学习的对话策略自适应速度慢,成本高,无法复用已经训练好的网络参数的缺陷。

    用于口语理解的对抗多任务训练方法

    公开(公告)号:CN108491380A

    公开(公告)日:2018-09-04

    申请号:CN201810200343.0

    申请日:2018-03-12

    Inventor: 俞凯 兰鸥羽 朱苏

    Abstract: 本发明公开一种用于口语理解的对抗多任务训练方法,包括从未标注数据和标注数据中取样以训练更新语言模型和共享空间,并将共享空间所获取的第一公有特征标注为语言模型任务以训练更新任务鉴别器和所述共享空间;从标注数据中取样以训练更新口语理解模型和共享空间,并将共享空间所获取的第二公有特征标注为口语理解模型任务以训练更新所述任务鉴别器和所述共享空间。本发明实施例中的用于口语理解的对抗多任务训练方法能够同时基于未标注数据和标注数据来训练口语理解模型,从而避免了传统的用于训练口语理解模型的方法对标注数据的严重依赖,降低了大量使用标注数据所导致的成本开销。

    语义理解训练方法和系统

    公开(公告)号:CN108417205A

    公开(公告)日:2018-08-17

    申请号:CN201810054757.7

    申请日:2018-01-19

    Inventor: 俞凯 朱苏

    Abstract: 本发明公开语义理解训练方法、系统和电子设备,方法包括:对用户语音数据的正确文本进行语义标注以生成带语义标注的正确文本;将所述用户语音数据输入语音识别系统进行识别以得到识别文本;将所述正确文本、所述带语义标注的正确文本和所述识别文本随机地输入语义理解系统以对所述语义理解系统进行无监督自适应训练。本发明可以仅对正确文本进行标注,而无需对识别文本进行标注,通过对正确文本、带语义标注的正确文本和无标注的识别文本进行无监督的自适应学习,可以训练得到对语音识别错误鲁棒的语义理解系统。

Patent Agency Ranking