Patent search ap:("微软技术许可有限责任公司") AND inv:"A·瓦格纳" Page 1

1.

发明公开
用于语言模型的压缩和解压缩数据审中-实审

公开(公告)号：CN116235187A

公开(公告)日：2023-06-06

申请号：CN202180052316.3

申请日：2021-05-18

Applicant: 微软技术许可有限责任公司

Inventor： A·瓦格纳 , T·米特拉 , M·特伦布莱

IPC: G06N3/082 , G06N3/0499

Abstract: 本公开的实施例包括用于压缩和解压缩由神经网络中的子块生成的数据的系统和方法。在一些实施例中，在神经网络中的压缩块处接收输入矩阵。压缩块将输入矩阵压缩为经压缩的矩阵并且输出经压缩的矩阵。相对于输入矩阵的维数经压缩的矩阵具有减少的维数。解压缩块取回经压缩的矩阵。解压缩块将经压缩的矩阵解压缩为经解压缩的矩阵并且输出经解压缩的矩阵。经解压缩的矩阵具有与输入矩阵的维数相同的维数。压缩块和解压缩块基于从神经网络接收的反馈被优化。

2.

发明公开
用于训练神经网络的系统和方法审中-实审

公开(公告)号：CN115485699A

公开(公告)日：2022-12-16

申请号：CN202180033333.2

申请日：2021-04-20

Applicant: 微软技术许可有限责任公司

Inventor： A·瓦格纳 , T·米特拉 , M·特伦布莱

IPC: G06N3/08 , G06N3/04

Abstract: 本公开的实施例包括用于训练神经网络的系统和方法。在一个实施例中，神经网络可以接收输入数据，并且响应于输入数据和神经网络的权重来产生输出结果。基于输出结果在神经网络的输出处确定误差。误差通过神经网络从输出和一个或多个中间输出被反向传播，以调整权重。

3.

发明公开
基于用于转换器模型的位置压缩标记审中-实审

公开(公告)号：CN116157802A

公开(公告)日：2023-05-23

申请号：CN202180059885.0

申请日：2021-05-27

Applicant: 微软技术许可有限责任公司

Inventor： A·瓦格纳 , T·米特拉 , M·特伦布莱

IPC: G06N3/0455 , G06N3/08

Abstract: 本公开的实施例包括用于基于训练数据的位置来压缩标记的系统和方法，该训练数据被用于训练转换器模型。在一些实施例中，用于训练转换器模型的输入数据集合被接收。该输入数据集合包括标记集合和位置值集合。标记集合中的第一标记被标识，第一标记与标记集合中的第二标记相同。表示第一标记的位置值与表示第二标记的位置值被组合。通过从标记集合中移除第一标记来修改该标记集合。训练数据被生成，以包括经修改的标记集合和位置值集合。使用训练数据集合来训练转换器模型。

4.

发明公开
用于变换器模型的位置掩码审中-实审

公开(公告)号：CN115668217A

公开(公告)日：2023-01-31

申请号：CN202180037134.9

申请日：2021-04-21

Applicant: 微软技术许可有限责任公司

Inventor： A·瓦格纳 , T·米特拉 , M·特伦布莱

IPC: G06N3/02 , G06F40/216 , G06F40/284

Abstract: 本公开的实施例包括使用位置掩码训练变换器模型的系统和方法。在一些实施例中，接收用于训练变换器模型的数据集。数据集包括令牌序列和位置值集合。位置值集合中的每个位置值表示令牌在令牌序列中相对于其他令牌的位置。选择数据集中的位置值集合的子集。位置值集合的子集中的每个位置值都将替换为第二定义值，以形成第二组定义值。使用得到的数据集训练变换器模型。

5.

发明公开
具有持续且异步更新的流水线式神经网络处理审中-实审

公开(公告)号：CN114402293A

公开(公告)日：2022-04-26

申请号：CN202080065102.5

申请日：2020-06-18

Applicant: 微软技术许可有限责任公司

Inventor： A·瓦格纳 , T·米特拉 , S·M·库尔卡尼 , M·特伦布莱 , S·S·巴拉德瓦杰

IPC: G06F9/50 , G06N3/04 , G06N3/08

Abstract: 描述了用于具有持续且异步更新的流水线式神经网络处理的系统和方法。用于处理包括L个层(其中L是大于2的整数)的神经网络的方法包括：在一组计算资源之中划分L个层，该一组计算资源被配置成处理与L个层中的每个层相关联的前向传递和反向传递。方法还包括：使用一组计算资源，发起前向传递和反向传递的处理。方法还包括：在完成与L个层中的第一层相关联的第一组前向传递和第一组反向传递后，当梯度对更新与第一层相关联的参数可用时，发起与第一层相关联的参数的更新，而无需等待计算与L个层中的其余任何层相关联的梯度。

Patent Agency Ranking