长语境端到端语音识别系统
    1.
    发明公开

    公开(公告)号:CN116324974A

    公开(公告)日:2023-06-23

    申请号:CN202180068325.1

    申请日:2021-04-28

    IPC分类号: G10L15/16

    摘要: 本发明总体上涉及语音处理,更特别地是,涉及利用长语境信息的端到端自动语音识别(ASR)。本发明的一些实施方式提供了适合识别长音频记录(诸如演讲和交谈语音)的端到端ASR的系统和方法。本公开包括利用语境信息的基于变换器的ASR系统,其中变换器同时接受多句话语,并预测最后一句话语的转录。这是以滑动窗口方式按照一句话语移位进行重复,来识别整个记录。此外,当长音频记录包括多个讲话者时,本发明的一些实施方式可以使用仅从由与最后一句话语相同的讲话者所说的先前话语获得的声学和/或文本特征。

    场景感知视频编码器系统和方法
    2.
    发明公开

    公开(公告)号:CN118451476A

    公开(公告)日:2024-08-06

    申请号:CN202280080765.3

    申请日:2022-10-27

    摘要: 本公开的实施方式公开了一种场景感知视频编码器系统。该场景感知视频编码器系统将场景的视频的视频帧序列变换成时空场景图。该时空场景图包括表示场景中的一个或多个静态和动态对象的节点。时空场景图的各个节点皆描述在不同时间实例所述对象(静态对象和动态对象)中的各个对象的外观、位置和/或运动。使用时空变换器将时空场景图的节点嵌入到潜在空间中,该时空变换器对时空场景图的不同节点的与场景的不同时空体积对应的不同组合进行编码。利用注意力得分来对在所述组合中的各个组合中编码的所述不同节点中的各个节点进行加权,该注意力得分是根据该组合中的不同节点的时空位置的相似性来确定的。

    定位系统、定位方法和存储介质

    公开(公告)号:CN112930484A

    公开(公告)日:2021-06-08

    申请号:CN201980063112.2

    申请日:2019-05-15

    摘要: 用于跟踪车辆的位置的定位系统包括:接收器,其被配置为接收在多个时间点从多个卫星接收的卫星信号的相位测量结果;以及存储器,其被配置为存储递归神经网络,所述递归神经网络被训练为在一些时间点在存在由至少一些卫星信号的多径传输引起的噪声的情况下,根据一组相位测量结果确定车辆的位置。该定位系统的处理器被配置为通过利用递归神经网络处理在每个时间点接收的一组相位测量结果以在每个时间点产生车辆的位置,来在不同时间点跟踪车辆的位置。

    定位系统、定位方法和存储介质

    公开(公告)号:CN112930484B

    公开(公告)日:2024-05-28

    申请号:CN201980063112.2

    申请日:2019-05-15

    摘要: 用于跟踪车辆的位置的定位系统包括:接收器,其被配置为接收在多个时间点从多个卫星接收的卫星信号的相位测量结果;以及存储器,其被配置为存储递归神经网络,所述递归神经网络被训练为在一些时间点在存在由至少一些卫星信号的多径传输引起的噪声的情况下,根据一组相位测量结果确定车辆的位置。该定位系统的处理器被配置为通过利用递归神经网络处理在每个时间点接收的一组相位测量结果以在每个时间点产生车辆的位置,来在不同时间点跟踪车辆的位置。

    用于多模态融合模型的方法和系统

    公开(公告)号:CN110168531B

    公开(公告)日:2023-06-20

    申请号:CN201780079516.1

    申请日:2017-12-25

    摘要: 一种生成单词序列的系统,该系统包括:与存储器连接的一个或更多个处理器;以及存储指令的一个或更多个存储装置,所述指令导致多个操作,所述操作包括:接收第一输入矢量和第二输入矢量;提取第一特征矢量和第二特征矢量;估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词。

    多维深度神经网络
    7.
    发明公开

    公开(公告)号:CN116235185A

    公开(公告)日:2023-06-06

    申请号:CN202180054312.9

    申请日:2021-03-25

    IPC分类号: G06N3/0464 G06F40/58 G06N3/08

    摘要: 公开了一种人工智能(AI)系统。AI系统包括:接受输入数据的输入接口;存储多维神经网络的存储器,该多维神经网络具有深度神经网络(DNN)序列,其具有内部DNN和外部DNN;处理器,该处理器配置为将输入数据提交给多维神经网络以产生外部DNN的输出;以及输出接口,该输出接口用于渲染所述输出的至少一个函数。每个DNN均由层序列沿数据传播的第一维度依次处理输入数据。DNN沿着数据传播的第二维度从内部DNN到外部DNN布置。此外,DNN连接成使得DNN的至少一个层的输出与DNN序列中的后续DNN的至少一个层的输入相结合。

    场景感知视频对话
    8.
    发明公开

    公开(公告)号:CN115039141A

    公开(公告)日:2022-09-09

    申请号:CN202080095329.4

    申请日:2020-12-15

    摘要: 场景感知对话系统包括用于接收视频帧序列、背景信息和询问的输入接口以及存储器,该存储器被配置为存储被训练为通过分析输入视频帧序列和输入背景信息中的一者或组合来生成对输入询问的答复的神经网络。该系统还包括处理器,该处理器被配置为对视频帧序列中的每个视频帧中的对象进行检测和分类;确定每个视频帧中的分类对象之间的关系;为每个视频帧提取表示分类对象和确定的关系的特征,以生成特征向量序列;并且将特征向量序列、输入询问和输入背景信息提交给神经网络,以生成对输入询问的答复。

    用于场景感知交互的系统和方法
    9.
    发明公开

    公开(公告)号:CN115038936A

    公开(公告)日:2022-09-09

    申请号:CN202080095350.4

    申请日:2020-12-17

    IPC分类号: G01C21/36

    摘要: 提供了一种导航系统,其被配置为基于场景中的与驾驶车辆相关的对象的实时描述向移动的车辆的驾驶员提供驾驶指令。导航系统包括:输入接口,其被配置为接受用于驾驶车辆的路线、在当前时刻车辆在路线上的状态、以及在当前时刻与车辆的路线相关的显著对象的集合的动态地图,其中,至少一个显著对象是由在当前时刻的当前位置和在未来时刻的未来位置之间的路线上移动的车辆的测量系统感知的对象,其中,显著对象的集合包括一个或更多个静态对象和一个或更多个动态对象;处理器,其被配置为基于从由车辆的状态指定的驾驶员视角导出的动态地图中的显著对象的描述来生成驾驶指令;以及输出接口,其配置为向车辆的驾驶员呈现驾驶指令。

    用于对话响应生成系统的系统和方法

    公开(公告)号:CN114365121A

    公开(公告)日:2022-04-15

    申请号:CN202080063045.7

    申请日:2020-07-22

    IPC分类号: G06F16/332

    摘要: 提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括:布置用于对话响应生成或视频描述的第一多模式编码器‑解码器,第一多模式编码器‑解码器具有第一输入端和第一输出端,其中,已经通过用视频描述语句训练视听数据集预训练了第一多模式编码器‑解码器;布置用于对话响应生成的第二多模式编码器‑解码器,第二多模式编码器‑解码器具有第二输入端和第二输出端;向第一多模式编码器‑解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集,其中,第一编码器‑解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值;将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器‑解码器。在这种情况下,第二多模式编码器‑解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。