语音识别系统和用于语音识别的方法

    公开(公告)号:CN110603583B

    公开(公告)日:2023-10-24

    申请号:CN201780090477.5

    申请日:2017-11-10

    Abstract: 语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及存储参数和程序模块的一个或更多个储存装置,所述程序模块包括一个或更多个处理器可执行的指令。指令包括:从由声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列(HVS);通过将HVS馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率(OLSP);由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的所述(HVS),来预测第二(OLSP);以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一(OLSP)和第二(OLSP)组合,来搜索具有最高序列概率的输出标签序列。

    多维深度神经网络
    23.
    发明公开

    公开(公告)号:CN116235185A

    公开(公告)日:2023-06-06

    申请号:CN202180054312.9

    申请日:2021-03-25

    Abstract: 公开了一种人工智能(AI)系统。AI系统包括:接受输入数据的输入接口;存储多维神经网络的存储器,该多维神经网络具有深度神经网络(DNN)序列,其具有内部DNN和外部DNN;处理器,该处理器配置为将输入数据提交给多维神经网络以产生外部DNN的输出;以及输出接口,该输出接口用于渲染所述输出的至少一个函数。每个DNN均由层序列沿数据传播的第一维度依次处理输入数据。DNN沿着数据传播的第二维度从内部DNN到外部DNN布置。此外,DNN连接成使得DNN的至少一个层的输出与DNN序列中的后续DNN的至少一个层的输入相结合。

    用于场景感知交互的系统和方法
    24.
    发明公开

    公开(公告)号:CN115038936A

    公开(公告)日:2022-09-09

    申请号:CN202080095350.4

    申请日:2020-12-17

    Abstract: 提供了一种导航系统,其被配置为基于场景中的与驾驶车辆相关的对象的实时描述向移动的车辆的驾驶员提供驾驶指令。导航系统包括:输入接口,其被配置为接受用于驾驶车辆的路线、在当前时刻车辆在路线上的状态、以及在当前时刻与车辆的路线相关的显著对象的集合的动态地图,其中,至少一个显著对象是由在当前时刻的当前位置和在未来时刻的未来位置之间的路线上移动的车辆的测量系统感知的对象,其中,显著对象的集合包括一个或更多个静态对象和一个或更多个动态对象;处理器,其被配置为基于从由车辆的状态指定的驾驶员视角导出的动态地图中的显著对象的描述来生成驾驶指令;以及输出接口,其配置为向车辆的驾驶员呈现驾驶指令。

    用于对话响应生成系统的系统和方法

    公开(公告)号:CN114365121A

    公开(公告)日:2022-04-15

    申请号:CN202080063045.7

    申请日:2020-07-22

    Abstract: 提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括:布置用于对话响应生成或视频描述的第一多模式编码器‑解码器,第一多模式编码器‑解码器具有第一输入端和第一输出端,其中,已经通过用视频描述语句训练视听数据集预训练了第一多模式编码器‑解码器;布置用于对话响应生成的第二多模式编码器‑解码器,第二多模式编码器‑解码器具有第二输入端和第二输出端;向第一多模式编码器‑解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集,其中,第一编码器‑解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值;将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器‑解码器。在这种情况下,第二多模式编码器‑解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。

    语音识别系统
    27.
    发明公开

    公开(公告)号:CN110383377A

    公开(公告)日:2019-10-25

    申请号:CN201880015644.4

    申请日:2018-02-23

    Abstract: 一种语音识别系统包括接收包括语音信号的声信号的多个麦克风;从声信号生成多通道输入的输入接口;存储多通道语音识别网络的一个或多个储存器,其中,多通道语音识别网络包括从多通道输入生成时间-频率掩模的掩模估计网络;被训练为使用时间-频率掩模从多通道输入中选择基准通道输入并且基于基准通道输入生成增强语音数据集的波束形成器网络;以及被训练为将增强语音数据集变换为文本的编码器-解码器网络。系统还包括与一个或多个储存器关联地使用多通道语音识别网络以从多通道输入生成文本的一个或多个处理器;和渲染文本的输出接口。

Patent Agency Ranking