用于目标声源分离的方法和系统
    1.
    发明公开

    公开(公告)号:CN119013726A

    公开(公告)日:2024-11-22

    申请号:CN202380031211.9

    申请日:2023-03-31

    Abstract: 本公开的实施方式公开了一种用于提取目标声音信号的系统和方法。该系统收集声音信号的混合。该系统选择识别要从声音信号的混合提取的目标声音信号的查询,该查询包括一个或更多个标识符。各个标识符存在于一个或更多个标识符的预定集合中并且定义声音信号的混合的互容特性和互斥特性中的至少一个。该系统确定连接所提取的一个或更多个标识符的一个或更多个逻辑运算符。该系统将一个或更多个标识符和所提取的逻辑运算符变换为数字表示。该系统执行神经网络,该神经网络被训练为通过将数字表示与神经网络的中间层的中间输出混合来提取目标声音信号。

    语音识别系统、方法以及非暂时性计算机可读存储介质

    公开(公告)号:CN113574595B

    公开(公告)日:2023-11-24

    申请号:CN202080021866.4

    申请日:2020-01-16

    Abstract: 本申请实施例提供一种语音识别系统、方法以及非暂时性计算机可读存储介质,该语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所

    通过扩张的自注意力来捕获上下文的人工智能系统

    公开(公告)号:CN117043786A

    公开(公告)日:2023-11-10

    申请号:CN202180096134.6

    申请日:2021-11-30

    Abstract: 公开了一种人工智能(AI)系统。该AI系统包括处理器,该处理器利用神经网络处理输入帧序列,该神经网络包括扩张的自注意力模块,该扩张的自注意力模块被训练成,通过以下操作来计算输出序列:将各个输入帧变换成对应的查询帧、对应的键帧以及对应的值帧,从而导致具有相同排序的键帧序列、值帧序列以及查询帧序列;以及关于键帧序列和值帧序列中的基于查询帧的位置而受限的一部分与键帧的扩张序列和值帧的扩张序列的组合来执行针对各个查询帧的注意力计算,所述键帧的扩张序列和值帧的扩张序列是通过利用预定提取函数处理键帧序列和值帧序列中的不同帧来提取的。此外,该处理器呈现输出序列。

    用于生成音频信号的元数据的系统和方法

    公开(公告)号:CN116324984A

    公开(公告)日:2023-06-23

    申请号:CN202180067206.4

    申请日:2021-04-27

    Abstract: 提供了一种音频处理系统。该音频处理系统包括输入接口,其被配置为接受音频信号。此外,该音频处理系统包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。此外,该音频处理系统包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。

    对文本进行处理以构造文本模型的方法

    公开(公告)号:CN104246763B

    公开(公告)日:2017-09-01

    申请号:CN201380017595.5

    申请日:2013-02-26

    CPC classification number: G06F17/30663 G06F17/2785

    Abstract: 文本被处理以构造文本的模型。文本具有共用词汇。文本被分成文本的集合和子集。共用词汇在两个或更多个集合中的用法不同,并且两个或更多个子集的主题不同。针对文本定义概率模型。该概率模型将文本中的各单词视为具有位置和单词值的标志,并且使用该概率模型中的随机变量的分布来表示在文本中的共用词汇的用法、主题、子主题和针对各标志的单词值,其中该随机变量是离散的。对应于与单词关联的词汇用法、单词值、主题和子主题,针对模型,估计参数。

    用于对文本进行分类的方法

    公开(公告)号:CN104285224A

    公开(公告)日:2015-01-14

    申请号:CN201380024544.5

    申请日:2013-05-15

    CPC classification number: G06F17/30286 G06F17/3071 G06F17/2785

    Abstract: 通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器,其中,通过变换根据文本特征来确定主题特征,并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着,选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下,判别主题模型适用于根据前面的级别调节的每一个级别的类,并且跨级别组合分数以评估最高得分的类标签。

    用于对语音信号进行混响建模的方法和系统

    公开(公告)号:CN119698658A

    公开(公告)日:2025-03-25

    申请号:CN202380058927.8

    申请日:2023-06-02

    Abstract: 公开了一种用于混响减小的系统和方法。第一深度神经网络(DNN)从包括目标直接路径信号和目标直接路径信号的混响的声学信号的混合产生目标直接路径信号的第一估计。估计对第一估计的房间脉冲响应(RIR)进行建模的滤波器。滤波器在应用于目标直接路径信号的第一估计时根据距离函数生成最接近声学信号的混合与目标直接路径信号的第一估计之间的残差的结果。估计的滤波器被用于对RIR进行建模。

    延迟减少的音频信号增强方法及系统

    公开(公告)号:CN118891675A

    公开(公告)日:2024-11-01

    申请号:CN202380027180.X

    申请日:2023-02-28

    Abstract: 提供了一种用于低延迟音频信号增强的系统和方法。使用第一滑动窗口方法将音频信号的输入混合分割成重叠帧序列。第一滑动窗口方法包括具有与对应帧的窗口相关联的第一宽度和与第一滑动窗口方法的窗口的移位相关联的移位长度的第一窗口函数。接着,使用第一DNN、频域因果线性滤波器和第二DNN来处理每个帧,以针对每个经处理的帧生成最终增强重叠帧。然后,使用与第二窗口函数相关联的第二滑动窗口方法来组合最终增强重叠帧,所述第二窗口函数具有比第一宽度小的第二宽度以及与第一滑动窗口方法相同的移位长度。

Patent Agency Ranking