-
公开(公告)号:CN113906503A
公开(公告)日:2022-01-07
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
公开(公告)号:CN113906503B
公开(公告)日:2025-02-28
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
公开(公告)号:CN107111491A
公开(公告)日:2017-08-29
申请号:CN201580051251.5
申请日:2015-09-17
Applicant: 微软技术许可有限责任公司
Inventor: M·迪克西特 , C·瓦伊山姆帕延 , J·V·格奥尔格 , N·A·卡姆达 , D·A·梅农 , S·V·西鲁马莱-阿南丹皮莱 , R·S·克哈特拉 , 黄学东 , A·维斯瓦纳桑
CPC classification number: G06F17/30589 , G06F3/0481 , G06F3/0488 , G06F9/451 , G06F9/543 , H04L67/1097
Abstract: 呈现了一种用于计算设备上的增强的内容捕获的系统和方法。在操作中,在计算设备上检测具有将与操作计算设备的计算机用户相关联的内容捕获到内容储存库的意图的用户交互。执行内容捕获服务以将内容捕获到内容储存库,包括以下步骤:通知在计算设备上执行的应用暂停输出以显示与应用相对应的视图;标识并且获得将被捕获到内容储存库的内容;通知在计算设备上执行的应用恢复输出以显示视图;以及将所获得的内容自动存储在与计算机用户相关联的内容储存库中。
-
公开(公告)号:CN102906750B
公开(公告)日:2015-11-25
申请号:CN201180027181.1
申请日:2011-05-26
Applicant: 微软技术许可有限责任公司
CPC classification number: G06Q30/02 , H04M1/274516 , H04M1/274525 , H04M1/274583 , H04M1/56 , H04M1/575 , H04M1/576 , H04M1/578 , H04M1/7253 , H04M1/72547 , H04M1/72566 , H04M1/72569 , H04M1/72572 , H04M2250/52 , H04M2250/60
Abstract: 提供了系统、方法和在其中包含了计算机可执行指令的计算机存储介质,所述系统、方法和计算机存储介质提供基于上下文选择的内容条目。与用户关联的上下文指示器被识别并被用于确定用户在特定时间点很可能期望访问的一个或多个内容条目。当接收到所述用户期望执行知晓上下文的搜索的指示时,所识别的内容条目(或指向其的引用)被自动地即在所述用户不必输入任何搜索查询项的情况下呈现给所述用户。所述用户期望执行知晓上下文的搜索的指示可以这样被接收,例如当接收到可选择的知晓上下文搜索按钮已被所述用户选择的指示时。该单一按钮动作对于在其中字母数字文本输入较困难的移动计算设备特别有用。
-
公开(公告)号:CN114097027A
公开(公告)日:2022-02-25
申请号:CN202080028823.9
申请日:2020-03-19
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为每个音频流的假设;对准假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由生成讲话者归属词语假设流的讲话者标识算法,对每个音频流执行讲话者识别;将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的词语和讲话者混淆网络彼此对准,以合并后验概率并且对准词语和讲话者标签;以及通过选择具有最高后验概率的词语和讲话者标签序列,创建最佳的讲话者归属的文字记录稿。
-
公开(公告)号:CN115605947A
公开(公告)日:2023-01-13
申请号:CN202180032695.X
申请日:2021-04-30
Applicant: 微软技术许可有限责任公司(US)
Abstract: 提供了用于在多个分布式计算设备处保护对机器学习训练数据的数据访问的实施例。包括与优选的数据安全性等级相对应的原始数据的电子内容被划分成多个微分段。多个微分段被限制性地分发到多个计算设备,该多个计算设备将转录标签应用于多个微分段。带标签的微分段被重构成训练数据,该训练数据随后被用于训练机器学习模型,同时促进来自经重构的微分段的训练数据所包括的原始数据的数据安全性的提高。
-
公开(公告)号:CN113874936A
公开(公告)日:2021-12-31
申请号:CN202080032257.9
申请日:2020-03-17
Applicant: 微软技术许可有限责任公司
IPC: G10L15/26 , G10L19/018 , G10L21/0216 , H04L12/18 , G06N3/08 , G06N3/04 , G06F40/279
Abstract: 提供了用于基于分布式系统中的用户偏好提供定制输出的系统和方法。在示例实施例中,会议服务器或系统从智能会议所涉及的多个分布式设备接收音频流。会议系统标识与多个分布式设备中的分布式设备相对应的用户,并且确定用户的偏好语言。来自所接收的音频流的转录本被生成。会议系统将转录本翻译为用户的偏好语言,以形成所翻译的转录本。所翻译的转录本被提供给用户的分布式设备。
-
公开(公告)号:CN106922185A
公开(公告)日:2017-07-04
申请号:CN201580052576.5
申请日:2015-09-28
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F3/011 , G06F1/163 , G06F3/014 , G06F3/017 , G06F3/0346 , H04M1/7253 , H04M2250/12 , G06F3/01
Abstract: “自然运动控制器”标识用户的身体的一个或多个部分的各种运动以与电子设备交互,由此实现各种自然用户接口(NUI)场景。自然运动控制器通过连结从多个分离的惯性传感器集接收到的惯性传感器数据的可调整数目的顺序时段来构建复合运动识别窗口。这些分离的惯性传感器集中的每个惯性传感器集被耦合到分离的用户穿戴、携带或者手持的移动计算设备,或者提供与分离的用户穿戴、携带或者手持的移动计算设备有关的传感器数据。每个复合运动识别窗口然后被传递到由一个或多个基于机器的深度学习过程训练的运动识别模型。该运动识别模型然后被应用到复合运动识别窗口以标识一个或多个预定义运动的序列。所标识的运动然后被用作触发一个或多个应用命令的执行的基础。
-
公开(公告)号:CN118020101A
公开(公告)日:2024-05-10
申请号:CN202280065219.2
申请日:2022-08-22
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0208 , G10L21/0272
Abstract: 与阵列几何形状无关的多通道个性化语音增强(PSE)的示例从目标说话者登记数据中提取说话者嵌入,该说话者嵌入表示一个或多个目标说话者的声学特性。从由麦克风阵列所捕获的输入音频中提取空间特征(例如,通道间相位差)。输入音频包括(多个)目标说话者和一个或多个干扰说话者的语音数据的混合。输入音频、所提取的说话者嵌入和所提取的空间特征被提供给经训练的与几何形状无关的PSE模型。产生输出数据,其包括(多个)目标说话者的估计的干净语音数据,其具有(多个)干扰说话者的语音数据的减少(或消除),而经训练的PSE模型不需要麦克风阵列的几何形状信息。
-
-
-
-
-
-
-
-