一种计算节点的空间分配方法及装置

    公开(公告)号:CN115018064B

    公开(公告)日:2024-11-08

    申请号:CN202210737352.X

    申请日:2022-06-27

    Abstract: 本发明实施例公开了一种计算节点的空间分配方法及装置,对神经网络的各个计算节点进行分类,得到多个的计算形状节点和多个的计算张量节点;将与每个计算张量节点相关的计算形状节点融合成一个新节点;将待推理数据输入神经网络;根据计算张量节点的属性和计算特性、新节点的属性和计算特性以及待推理数据,推导得到神经网络的各个计算节点计算待推理数据时所需的存储空间;为各个计算节点分配所述存储空间。可见,本发明实施例中,在推理引擎执行之前就可以通过离线推导得到各个计算节点对应的存储空间,能够在计算开始之前就为各个计算节点分配好对应的存储空间,如此能节约在计算时开辟存储空间的时间,从而提高推理引擎整体的计算效率。

    音频处理方法、装置、存储介质和电子设备

    公开(公告)号:CN118136030A

    公开(公告)日:2024-06-04

    申请号:CN202410438079.X

    申请日:2024-04-11

    Abstract: 本申请公开了一种音频处理方法、装置、存储介质和电子设备,该方法为:对第一波形进行改进离散余弦变换,以获得第一频谱,第一波形为目标音频压缩前的原始波形;通过将第一频谱输入至预先训练所得的编解码模型,得到编解码模型输出的第二频谱;对第二频谱进行逆改进离散余弦变换,以获得第二波形,第二波形为目标音频解压缩后的重建波形。该方法基于编解码模型将第一频谱作为编码、量化和解码的对象,以获得第二频谱,最后通过对第二频谱进行逆改进离散余弦变换,得到目标音频解压缩后的重建波形,能够在高采样率和低比特率场景下实现高质量的音频编解码,并且编解码模型具有模型参数小、训练速度快、生成速度快的特点。

    一种计算节点的空间分配方法及装置

    公开(公告)号:CN115018064A

    公开(公告)日:2022-09-06

    申请号:CN202210737352.X

    申请日:2022-06-27

    Abstract: 本发明实施例公开了一种计算节点的空间分配方法及装置,对神经网络的各个计算节点进行分类,得到多个的计算形状节点和多个的计算张量节点;将与每个计算张量节点相关的计算形状节点融合成一个新节点;将待推理数据输入神经网络;根据计算张量节点的属性和计算特性、新节点的属性和计算特性以及待推理数据,推导得到神经网络的各个计算节点计算待推理数据时所需的存储空间;为各个计算节点分配所述存储空间。可见,本发明实施例中,在推理引擎执行之前就可以通过离线推导得到各个计算节点对应的存储空间,能够在计算开始之前就为各个计算节点分配好对应的存储空间,如此能节约在计算时开辟存储空间的时间,从而提高推理引擎整体的计算效率。

    一种文本意图理解的连续学习方法和系统

    公开(公告)号:CN114970526A

    公开(公告)日:2022-08-30

    申请号:CN202210667651.0

    申请日:2022-06-14

    Abstract: 本发明提供一种文本意图理解的连续学习方法和系统,该方法包括:当需要训练新模型时,获取训练数据;其中,训练数据包括新增标注数据和原模型已经采用的部分历史标注数据;依据新增标注数据和原模型已经采用的部分历史标注数据,构建训练批次数据;依据训练批次数据,以及原模型与新模型之间的分布约束,对新模型进行训练,得到新版本模型;从而通过利用少量历史标注数据,结合新增的标注数据来进行文本意图的连续学习;本申请重点优化文本意图理解中的灾难性遗忘问题,在保证意图分类效果的情况下,降低训练耗时和训练成本。

    预训练字符模型及字音转换神经网络模型

    公开(公告)号:CN114548406A

    公开(公告)日:2022-05-27

    申请号:CN202210178595.4

    申请日:2022-02-24

    Inventor: 董璐 凌震华

    Abstract: 本发明公开了一种预训练字符模型及字音转换神经网络模型,预训练字符模型包括:字符嵌入层、若干自注意力层和线性层;其中,所述字符嵌入层设有输入端和输出端,所述输入端用于输入含掩码的单词对应的字符序列,所述输出端与各自注意力层依次连接,最后一层的自注意力层与所述线性层连接。字音转换神经网络模型为基于预训练字符模型构成的微调预训练字符模型的字音转换神经网络模型与基于注意力机制嵌入预训练字符特征的字音转换神经网络模型。本发明通过在无标签的词表数据上面使用掩码字符任务进行预训练得到预训练字符模型,与下游的字音转换神经网络的解码器配合,能够通过获取代价低的无标签词表降低多语言字音转换错误率。

    一种不依赖发音词典的语音合成系统及方法

    公开(公告)号:CN114495897A

    公开(公告)日:2022-05-13

    申请号:CN202210177013.0

    申请日:2022-02-24

    Inventor: 刘畅 凌震华

    Abstract: 本发明公开了一种不依赖发音词典的语音合成系统及方法,系统包括:语种无关的语音识别模型、文本‑发音表征预测模型、发音表征‑声学预测模型和神经网络声码器。该系统及方法通过训练一个语种无关的自动语音识别模型,能自动地从目标语种的语音数据中提取发音表征,继而将发音表征用于构建语音合成系统。所构建语音合成系统首先从文本字符预测发音表征,再从发音表征生成语音。本发明可以解决传统语音合成方法在构建多语种语音合成系统时依赖语种相关发音词典的问题。发音词典的建立往往需要语言专家参与,耗费大量人力与时间。该方法相对现有从文本字符直接预测语音声学特征的方法可以降低合成语音中的发音错误,提高合成语音的自然度。

    一种说话人声音转换方法

    公开(公告)号:CN102982809B

    公开(公告)日:2014-12-10

    申请号:CN201210528629.4

    申请日:2012-12-11

    Abstract: 本发明公开了一种说话人声音转换方法,包括训练阶段和转换阶段,训练阶段包括:从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征;根据所述基频特征构建基频转换函数;根据所述说话人特征构建说话人转换函数。转换阶段包括:从源说话人的待转换语音信号中提取基频特征和频谱特征;使用训练阶段得到的基频转换函数和说话人转换函数对从所述待转换语音信号中提取出的基频特征和说话人特征进行转换,得到转换后的基频特征和说话人特征;根据所得到的转换后的基频特征、说话人特征和待转换语音信号中的内容特征合成目标说话人的语音。本发明易于实现且转换后的音质和相似度较高。

    语音信号生成方法、装置及电子设备

    公开(公告)号:CN119169993A

    公开(公告)日:2024-12-20

    申请号:CN202411339594.9

    申请日:2024-09-23

    Inventor: 吴宁谦 凌震华

    Abstract: 本申请提供了一种语音信号生成方法、装置及电子设备,该方法包括:获取目标文本;目标文本包括N个句子文本以及每个句子文本的旁白对话标签;基于韵律编码预测器、目标文本、目标文本的文本特征以及每个句子文本的音色嵌入信息,获得中心句文本的韵律信息;每个句子文本的音色嵌入信息基于每个句子文本的旁白对话标签与参考语音生成;基于时长预测器、目标文本、目标文本的文本特征以及每个句子文本的音色嵌入信息,获得中心句文本的时长信息;基于频谱预测器,以及中心句文本的文本特征、音色嵌入信息、时长信息以及韵律信息,获得中心句文本的语音信号。能够提升语音合成的韵律表现,并且可以实现合成多样化音色的语音。

    表格识别方法及装置、存储介质及电子设备

    公开(公告)号:CN114724154B

    公开(公告)日:2024-03-29

    申请号:CN202210404542.X

    申请日:2022-04-18

    Abstract: 本发明提供了一种表格识别方法及装置、存储介质及电子设备,该方法包括:对待识别的表格图像进行表格元素检测,获得单元格图像和线条图像;对单元格图像进行处理,以获得表格区域;在线条图像中,确定表格区域对应的表格线条图像,并经细化处理获得细化表格图像;确定表格区域对应的交叉点集合,基于单元格图像确定表格区域对应的各个目标单元格区域;依据交叉点集合和各个目标单元格区域,确定各个单元格顶点;依据各个单元格顶点,生成各个单元格线段;依据各个单元格线段,确定结构化表格。应用本发明的方法,可结合单元格和线条交叉点进行映射,提高单元格顶点的识别准确率,继而得到准确的单元格线段,可提高表格识别的准确性。

    利用抗卷绕损失训练的平行估计架构网络预测相位的方法

    公开(公告)号:CN115862673A

    公开(公告)日:2023-03-28

    申请号:CN202211489291.6

    申请日:2022-11-25

    Inventor: 艾杨 凌震华

    Abstract: 本申请提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,方法包括,在训练过程中,通过待训练的神经网络中平行的两个线性卷积层,以及相位计算单元,模拟由短时复数谱的实虚部计算相位谱的过程,并将预测的相位值限制在主值区间内,实现卷绕相位谱的预测,并且训练所用的抗卷绕损失包含通过抗卷绕函数激活的瞬时相位误差、群延时误差和瞬时角频率误差,避免相位卷绕造成的误差扩大问题。训练结束后再用训练好的相位预测神经网络处理待预测语音信号的对数幅度谱,获得卷绕相位谱。本方案通过神经网络直接预测语音信号的卷绕相位谱,并通过计算损失时引入抗卷绕函数解决训练时相位卷绕造成的误差扩大问题,具有较高的效率和准确度。

Patent Agency Ranking