-
公开(公告)号:CN113906503B
公开(公告)日:2025-02-28
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
公开(公告)号:CN107112006A
公开(公告)日:2017-08-29
申请号:CN201580053898.1
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 获得表示语音的特征向量对。一些对表示来自相同说话者的两个语音样本,并且其他对表示来自不同说话者的两个语音样本。神经网络利用彼此关联的两个向量的输入上的权重矩阵,将样本对中的每个特征向量馈送到单独的瓶颈层中。该神经网络使用特征向量和目标函数被训练,该目标函数诱导网络对语音样本是否来自相同说话者进行分类。来自关联的权重矩阵的权重被提取以供在生成用于语音处理系统的导出特征中使用,该语音处理系统可以受益于特征,该特征因此被变换为更好地反映说话者身份。
-
公开(公告)号:CN106463119A
公开(公告)日:2017-02-22
申请号:CN201580029986.8
申请日:2015-06-03
Applicant: 微软技术许可有限责任公司
IPC: G10L15/24
Abstract: 本文中描述的技术涉及修改用于在显示器上呈现的视觉内容以支持改进自动语音识别(ASR)系统的性能。视觉内容被修改以将元素移动为进一步远离彼此,其中被移动的元素引起来自ASR系统的角度的歧义。视觉内容被修改以考虑凝视跟踪的准确性。当用户查看所修改的视觉内容中的元素时,ASR系统根据正被用户查看的元素来被定制。
-
公开(公告)号:CN114097027A
公开(公告)日:2022-02-25
申请号:CN202080028823.9
申请日:2020-03-19
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为每个音频流的假设;对准假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由生成讲话者归属词语假设流的讲话者标识算法,对每个音频流执行讲话者识别;将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的词语和讲话者混淆网络彼此对准,以合并后验概率并且对准词语和讲话者标签;以及通过选择具有最高后验概率的词语和讲话者标签序列,创建最佳的讲话者归属的文字记录稿。
-
公开(公告)号:CN107112006B
公开(公告)日:2020-10-23
申请号:CN201580053898.1
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 获得表示语音的特征向量对。一些对表示来自相同说话者的两个语音样本,并且其他对表示来自不同说话者的两个语音样本。神经网络利用彼此关联的两个向量的输入上的权重矩阵,将样本对中的每个特征向量馈送到单独的瓶颈层中。该神经网络使用特征向量和目标函数被训练,该目标函数诱导网络对语音样本是否来自相同说话者进行分类。来自关联的权重矩阵的权重被提取以供在生成用于语音处理系统的导出特征中使用,该语音处理系统可以受益于特征,该特征因此被变换为更好地反映说话者身份。
-
公开(公告)号:CN113874936A
公开(公告)日:2021-12-31
申请号:CN202080032257.9
申请日:2020-03-17
Applicant: 微软技术许可有限责任公司
IPC: G10L15/26 , G10L19/018 , G10L21/0216 , H04L12/18 , G06N3/08 , G06N3/04 , G06F40/279
Abstract: 提供了用于基于分布式系统中的用户偏好提供定制输出的系统和方法。在示例实施例中,会议服务器或系统从智能会议所涉及的多个分布式设备接收音频流。会议系统标识与多个分布式设备中的分布式设备相对应的用户,并且确定用户的偏好语言。来自所接收的音频流的转录本被生成。会议系统将转录本翻译为用户的偏好语言,以形成所翻译的转录本。所翻译的转录本被提供给用户的分布式设备。
-
公开(公告)号:CN106463119B
公开(公告)日:2020-07-10
申请号:CN201580029986.8
申请日:2015-06-03
Applicant: 微软技术许可有限责任公司
IPC: G10L15/24
Abstract: 本文中描述的技术涉及修改用于在显示器上呈现的视觉内容以支持改进自动语音识别(ASR)系统的性能。视觉内容被修改以将元素移动为进一步远离彼此,其中被移动的元素引起来自ASR系统的角度的歧义。视觉内容被修改以考虑凝视跟踪的准确性。当用户查看所修改的视觉内容中的元素时,ASR系统根据正被用户查看的元素来被定制。
-
公开(公告)号:CN113906503A
公开(公告)日:2022-01-07
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
-
-
-
-
-
-