-
公开(公告)号:CN115668220A
公开(公告)日:2023-01-31
申请号:CN202180035996.8
申请日:2021-04-20
Applicant: 微软技术许可有限责任公司
Abstract: 此文档涉及机器学习模型的训练。一个示例方法涉及提供机器学习模型,该模型具有第一分类层、第二分类层,以及馈送到第一分类层和第二分类层中的编码器。该示例方法还涉及获得具有明确标签的第一训练示例和具有推断标签的第二训练示例。推断标签至少基于与第二训练示例相关联的动作。该示例方法还涉及使用训练目标利用第一训练示例和第二训练示例训练机器学习模型,该训练目标考虑第一分类层针对明确标签的第一训练损失和第二分类层针对推断标签的第二训练损失。该方法还涉及输出具有编码器和第一分类层的经训练的机器学习模型。
-
公开(公告)号:CN118805178A
公开(公告)日:2024-10-18
申请号:CN202280092806.0
申请日:2022-12-05
Applicant: 微软技术许可有限责任公司
IPC: G06N3/0455 , G06N3/082 , G06N3/063
Abstract: 本文总体上讨论了用于改进具有约束的架构搜索和标识的设备、系统和方法。一种方法可以包括:在计算设备处接收针对基于转换器的自回归语言模型(TBALM)的请求,该请求指定最大延时;标识满足最大延时的TBALM架构;标识所标识的所述TBALM架构中具有最大数目的解码器参数的TBALM架构,从而产生标识的TBALM架构;以及提供所标识的TBALM架构。
-