-
公开(公告)号:CN108415888A
公开(公告)日:2018-08-17
申请号:CN201810145363.2
申请日:2018-02-12
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明公开用于神经网络语言模型的压缩方法和系统,方法包括:将训练数据输入神经网络语言模型进行预训练;对输入和/或输出所述语言模型的词向量矩阵分别进行基分解和聚类量化操作,以对所述词向量矩阵进行压缩;再次将所述训练数据输入经过所述词向量矩阵压缩后的神经网络语言模型,以对所述语言模型进行微调。本发明提出了一种新颖有效的基于乘积量化的结构化单词嵌入框架,用以对输入/输出词向量矩阵进行压缩,在不损害NN LM性能的情况下,可以获得显著的内存减少率。
-
公开(公告)号:CN105047192B
公开(公告)日:2018-08-17
申请号:CN201510272044.4
申请日:2015-05-25
Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司
IPC: G10L13/027 , G06F21/36 , G06F21/32
Abstract: 一种基于隐马尔科夫模型的统计语音合成方法及装置,通过生成关联多模态的自然语言问题,根据自然语言问题生成相应图片并加入干扰元素,根据问题文本,使用基于HMM的语音合成方法的多模态验证码合成语音并加入噪声,本发明将验证码的模式从单模态提升到互相之间有语义关联的多模态,进一步增进现有验证码对于人类和计算机的区分性,提升互联网验证系统的人机区分度,加强安全性能。
-
公开(公告)号:CN106816147A
公开(公告)日:2017-06-09
申请号:CN201710055681.5
申请日:2017-01-25
Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司
CPC classification number: G10L15/142 , G10L15/02 , G10L15/063 , G10L25/30
Abstract: 一种基于二值神经网络声学模型的语音识别系统,使用二值神经网络对隐马尔科夫模型的观测概率分布进行建模,并采用提取后的语音特征进行训练,从而得到声学模型。奔放使用了二值替换传统的32位浮点数,使得模型的存储和内存占用大幅下降;使用的二值神经网络在计算上可以充分使用硬件指令进行加速运算,以前只能在服务器上使用多个GPU进行计算的模型现在可以在移动设备的CPU上运行;并且本发明在进行模型训练时得益于二值神经网络的加速,模型训练时间也能大幅缩短。
-
公开(公告)号:CN106782513A
公开(公告)日:2017-05-31
申请号:CN201710060942.2
申请日:2017-01-25
Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司
Abstract: 一种基于置信度的语音识别实现方法及系统,根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构,并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系,即混淆网络竞争概率;同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间,计算得到完整无损失的全搜索空间概率,并结合音素同步解码的语音识别,对生成的全搜索空间进行搜索过程记录,并由整个搜索历史进行路径回溯,从而得到全搜索空间概率;最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果。本发明一方面可以对语音识别的结果给出正确的置信度,从而改善语音识别用户体验,另一方面可以显著减少语音识别置信度算法的计算和内存资源消耗。
-
公开(公告)号:CN105957531A
公开(公告)日:2016-09-21
申请号:CN201610260647.7
申请日:2016-04-25
Applicant: 上海交通大学
IPC: G10L15/30
Abstract: 一种基于云平台的演讲内容提取方法及装置,包括:采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理;发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务器;服务器对接收的音频进行语音切分、把音频按说话人分割;进行自动语音识别把分割后的音频转换为文字,语音识别使用声学自适应和语言模型自适应;从语音识别的文本中提取关键字和生成内容笔记。该方法通过语音识别把音频识别成能反复阅读的文本形式,使用语言模型自适应和声学模型自适应提高识别准确率。并进行知识整合,避免把时间花在阅读冗余信息上。本发明还公开了一种基于云平台的演讲内容提取装置,包括演讲录制模块、材料发送模块、语音分割模块、语音识别模块和关键字和内容笔记提取模块。
-
公开(公告)号:CN105869630A
公开(公告)日:2016-08-17
申请号:CN201610478041.0
申请日:2016-06-27
Applicant: 上海交通大学
Abstract: 一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经训练的两个线性差分分析模型,将所得到的两个结果分数加权后作为评分,经与预定义阈值比较实现语音欺骗辨别。本发明既能够捕捉局部特征,又能把握全局信息。并且在识别验证阶段采用线性差分分析作为分类器,通过分数融合做出判断,能够极大地提高语音欺骗检测的精确度。
-
公开(公告)号:CN104951930A
公开(公告)日:2015-09-30
申请号:CN201510207758.7
申请日:2015-04-27
Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司
CPC classification number: G06Q20/0457 , G06Q20/3829 , G06Q20/40145 , G10L17/04 , H04L65/1073
Abstract: 一种基于生物信息身份验证的电子密码票据方法及系统,通过以用户唯一的身份识别号码为索引机建立用户数据库,并当服务器端收到用户端的购票信息后在常用字字典中生成字符串文本或生成小范围字典并反馈给用户端;然后通过用户朗读的音频文件反馈至服务器,服务器通过文本相关说话人模型训练算法建立随机声纹票据对应的说话人模型。当用户发出验证请求时,服务器通过文本相关说话人验证算法比较说话人模型生成的音频和待测音频是否为同一说话人,并输出认证结果。本发明运用先进的说话人识别算法,能够准确地判断客户身份。
-
公开(公告)号:CN103956164A
公开(公告)日:2014-07-30
申请号:CN201410211795.0
申请日:2014-05-20
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明公开了一种声音唤醒方法及系统,属于声音识别技术领域。该方法包括当检测到外界声音时,启动声音唤醒系统;采集外界声音,提取该外界声音的音频特征;当预设规则库中包含该外界声音的音频特征时,传递预设声音出现信号,该预设规则库包含多个人体声音特征;统计预设时间内该外界声音出现次数,并根据所统计的次数执行相应的指令。本发明使得声音识别系统高效、准确、省电,且灵活运用。
-
公开(公告)号:CN103440686A
公开(公告)日:2013-12-11
申请号:CN201310321286.9
申请日:2013-07-29
Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司
IPC: G07C1/00
Abstract: 本发明提供了一种语音、图像等多模态高精度联合身份验证系统与基于位置信息的签到系统融合的移动身份验证系统和方法。使用了声纹识别、人脸识别和位置信息联合动态验证,验证结果更全面可靠。使用手持设备支持大规模群体同时验证,大幅提高了验证速度。整个验证过程都由服务器自动完成,操作十分方便。
-
公开(公告)号:CN118278487A
公开(公告)日:2024-07-02
申请号:CN202410356762.9
申请日:2024-03-27
Applicant: 上海交通大学
IPC: G06N3/082 , G06N3/0455 , G06F40/40
Abstract: 本申请公开一种多语言模型压缩方法,包括:按照预设比例获取多种语言的校准数据;根据所述多种语言的校准数据对多语言模型进行压缩处理。本申请实施例中按照比例采样多种语言的校准数据进行模型压缩,而非仅采用训练样本中的主要单一语言进行模型压缩,克服了现有方法的以单一语言为中心的限制,能够提升压缩后的多语言模型在多语言环境中的性能。
-
-
-
-
-
-
-
-
-