Patent search ap:("上海交通大学") AND inv:"俞凯" Page 9

81.

发明授权
基于对话交互的用户画像的构建方法及系统有权转让

公开(公告)号：CN106446045B

公开(公告)日：2020-01-21

申请号：CN201610792303.0

申请日：2016-08-31

Applicant: 上海交通大学

Inventor： 俞凯 , 常成 , 陈露 , 郑达

IPC: G06F16/335

Abstract: 一种基于对话交互的用户画像的构建方法及系统，通过语义解析器对用户的输入进行实时解析，并根据解析到的用户语义对各个属性的权重的加权分布进行更新，从而生成准确细致的画像；系统包括：语音识别模块、语音合成模块、语义解析模块、对话管理模块、自然语言生成模块以及用户画像生成模块，语音识别模块与语义解析模块相连并传输文本信息，语义解析模块与用户画像生成模块相连并传输语义和相关时间戳信息，同时语义解析模块与对话管理模块相连传输语义信息，对话管理模块与自然语言生成模块相连并传输对话动作信息，自然语言生成模块与语音合成模块相连并传输文本信息。本发明通过此方法建立精确用户画像，从而统一人机交互的流程和体验。

82.

发明公开
端到端语音识别模型的训练方法及系统有权转让

公开(公告)号：CN110556100A

公开(公告)日：2019-12-10

申请号：CN201910853470.5

申请日：2019-09-10

Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学

Inventor： 俞凯 , 钱彦旻 , 黄明坤 , 卢怡宙 , 王岚

IPC: G10L15/06

Abstract: 本发明公开一种端到端语音识别模型的训练方法，所述端到端语音识别模型包括编码器和解码器，所述方法包括：预先训练得到声学模型和交叉熵语言模型；基于所述声学模型初始化所述端到端语音识别模型的编码器；根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器；对初始化之后的所述端到端语音识别模型进行训练。采用多阶段预训练的方式，避免了模型训练早期的长时间缓慢学习阶段，从而极大削减模型训练时间。同时这种策略没有超参数需要调优，相对于现有技术，避免了大量繁琐的超参数调优。

83.

发明授权
人机对话异常检测系统及方法有权转让

公开(公告)号：CN106328166B

公开(公告)日：2019-11-08

申请号：CN201610794627.8

申请日：2016-08-31

Applicant: 上海交通大学

Inventor： 俞凯 , 曹迪 , 陈露 , 郑达

IPC: G10L25/27 , G10L25/30 , G10L15/22

Abstract: 一种人机对话异常检测系统及方法，首先通过收集历史对话收据并进行标注，利用标注好的数据对异常检测模型进行训练，在收到实时对话数据时利用训练好的异常检测模型进行异常检测并获得结果；该系统包括语音识别模块(ASR模块)、语音合成模块(TTS模块)、语义识别模块(SLU模块)、对话状态跟踪模块(DST模块)、对话决策模块(DM模块)、数据库查询模块(DATA模块)、自然语言生成模块(NLG模块)、异常检测及处理模块。本发明能够保证机器能够给出的回复都是可靠的，从而可以应用在任何场景下。

84.

发明公开
半优化CycleGAN模型的语音转换方法及装置有权转让

公开(公告)号：CN110246488A

公开(公告)日：2019-09-17

申请号：CN201910515510.5

申请日：2019-06-14

Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学

Inventor： 俞凯 , 吴松泽 , 陈博 , 陈宽

IPC: G10L15/06 , G10L15/08 , G10L15/02 , G10L25/18

Abstract: 本发明公开半优化CycleGAN模型的语音转换方法和装置，其中，半优化CycleGAN模型的语音转换方法，包括：从待转换音频中提取梅尔频谱和基频；将基频作为辅助特征与梅尔频谱进行拼接；将拼接后的特征同时作为输入和输出对半优化CycleGAN模型进行训练，其中，半优化CycleGAN模型，包括两个生成器、cycle-consistenty损失函数，其中：在cycle-consistenty损失函数的每一个周期的梯度回传阶段，保持前一个生成器不变，仅对后一个生成器进行梯度计算和更新；提取训练后的半优化CycleGAN模型输出中的梅尔频谱；基于输出中的梅尔频谱生成待转换音频的波形。

85.

发明公开
用于数据增强的语音加噪方法及系统有权转让

公开(公告)号：CN110211575A

公开(公告)日：2019-09-06

申请号：CN201910511890.5

申请日：2019-06-13

Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学

Inventor： 俞凯 , 钱彦旻 , 吴章昊 , 王帅

IPC: G10L15/06 , G10L15/07 , G10L15/20

Abstract: 本发明实施例提供一种用于数据增强的语音加噪方法。该方法包括：将无噪音频和带噪音频的说话人向量输入至条件变分自编码模型，对模型编码器输出的向量均值以及方差向量随机高斯分布采样，得到噪音隐向量；将噪音隐向量和无噪音频输入至模型，通过模型解码器输出拟噪音频；基于拟噪音频和带噪音频训练条件该模型，对得到多种噪音隐向量建模，得到噪音隐变量空间；在噪音隐变量空间中随机采样作为加噪隐向量，将加噪隐向量和无噪音频输入至模型解码器，得到用于数据增强的新带噪音频。本发明实施例还提供一种用于数据增强的语音加噪系统。本发明实施例在说话人向量上建模，通过隐空间特征提取，产生更多样的噪声数据，提升语音识别模型的鲁棒性。

86.

发明授权
基于置信度的语音识别实现方法及系统有权质押转让

公开(公告)号：CN106782513B

公开(公告)日：2019-08-23

申请号：CN201710060942.2

申请日：2017-01-25

Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司

Inventor： 俞凯 , 陈哲怀

IPC: G10L15/06 , G10L15/20 , G10L15/30 , G10L15/32

Abstract: 一种基于置信度的语音识别实现方法及系统，根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构，并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系，即混淆网络竞争概率；同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间，计算得到完整无损失的全搜索空间概率，并结合音素同步解码的语音识别，对生成的全搜索空间进行搜索过程记录，并由整个搜索历史进行路径回溯，从而得到全搜索空间概率；最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果。本发明一方面可以对语音识别的结果给出正确的置信度，从而改善语音识别用户体验，另一方面可以显著减少语音识别置信度算法的计算和内存资源消耗。

87.

发明公开
声音转换优化方法和系统有权质押转让

公开(公告)号：CN108847249A

公开(公告)日：2018-11-20

申请号：CN201810537499.8

申请日：2018-05-30

Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学

Inventor： 俞凯 , 陈宽 , 陈博

IPC: G10L21/003 , G10L21/007 , G10L21/013 , G10L25/24

Abstract: 本发明公开声音转换优化方法和系统，方法包括：从原始音频信号中提取原始梅尔频谱特征；将原始梅尔频谱特征经过帧到帧特征映射得到目标梅尔频谱特征；将所述原始音频信号作为输入，所述目标梅尔频谱特征作为条件，输入声音转换声码器以得到优化后的音频信号。本发明提出了一个高品质的音频转换结构，摒弃了声学特征中常用的梅尔倒谱系数和基频F0，转而使用了非常低水平的梅尔频谱图作为声学特征，从而在简化结构和计算的同时还能比现有技术转换出的声音更加自然。

88.

发明公开
双向神经网络模型的训练和识别方法及系统有权质押转让

公开(公告)号：CN108417224A

公开(公告)日：2018-08-17

申请号：CN201810054747.3

申请日：2018-01-19

Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学

Inventor： 俞凯 , 周瑛

IPC: G10L21/0216 , G10L25/30 , G06N3/04 , G06N3/08

Abstract: 本发明公开用于处理带噪语音的双向神经网络模型的训练和识别方法及系统，方法包括：获取仿真带噪数据和真实带噪数据；计算仿真带噪数据的时频隐蔽值标签，在双向神经网络中设定仿真带噪数据的标签为其训练目标，并将经过预设处理的仿真带噪数据输入至双向神经网络中进行训练；利用聚类的方式估计真实带噪数据的软时频隐蔽值标签，在双向神经网络中设定真实带噪数据的软标签为其训练目标，并将经过预设处理的真实带噪数据输入至双向神经网络中进行训练；输出训练后的双向神经网络的神经网络参数。本发明通过引入真实非仿真的训练数据进行神经网络模型的训练，一方面增加了训练数据量，另一方面也减小仿真数据与真实数据的不匹配。

89.

发明公开
单信道多说话人身份识别方法及系统有权质押转让

公开(公告)号：CN108417201A

公开(公告)日：2018-08-17

申请号：CN201810053962.1

申请日：2018-01-19

Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学

Inventor： 俞凯 , 钱彦旻 , 王帅

IPC: G10L15/02 , G10L15/22 , G10L17/02 , G10L17/04 , G10L17/14 , G10L17/22 , G10L25/30

Abstract: 本发明公开一种单信道多说话人身份识别方法及系统，所述单信道多说话人身份识别方法包括：获取待识别的关于单信道多说话人的语音数据的混合帧级特征；将混合帧级特征输入至卷积神经网络模型，以由卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布；根据帧级别概率分布，预测关于多说话人各自作为参考目标说话人的语句级别概率分布；以及基于语句级别概率分布，识别语音数据所对应的说话人身份。本发明实施例的单信道多说话人身份识别方法，以卷积神经网络模型作为学习机器，提高了说话人身份识别的高精确度，并不需要对每种可能的说话人组合都建模，对计算和存储资源的消耗较低，提高了身份识别系统的性能。

90.

发明授权
停车场声纹验证系统及其方法有权质押转让

公开(公告)号：CN105719370B

公开(公告)日：2018-06-12

申请号：CN201610031311.3

申请日：2016-01-18

Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司

Inventor： 俞凯 , 王帅 , 周伟达

IPC: G07C9/00 , G10L17/04

Abstract: 一种停车场声纹验证系统及其方法，包括：客户端和服务器端，其中：客户端和服务器端通过各自的通信单元相连，客户端包括声纹注册单元、声纹验证单元和信道补偿单元，其中，声纹注册单元、声纹验证单元和信道补偿单元相互连接，且都与客户端的通信单元相连，服务器端包括声纹注册响应单元、声纹验证响应单元以及道闸控制单元，其中，声纹注册响应单元和声纹验证响应单元相连，且都与服务器端的通信单元相连，道闸控制单元与声纹验证响应单元相连。本发明将人的声音作为身份凭据，能够大大提高车主身份验证的准确性，声音采集设备易于部署，且可以利用现有的移动设备作为终端，节约了设备成本。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification