音效生成方法及系统
    1.
    发明公开

    公开(公告)号:CN119785759A

    公开(公告)日:2025-04-08

    申请号:CN202411940031.5

    申请日:2024-12-26

    Abstract: 本发明提供一种音效生成方法及系统,该方法包括:获取目标文本数据;将所述目标文本数据输入至音效描述生成微调模型,得到由所述音效描述生成微调模型输出的所述目标文本数据中的目标音效内容描述信息对应的音效语音数据;其中,所述音效描述生成微调模型是基于第一训练数据集和第二训练数据集,依次对目标生成式大语言模型训练得到的;所述第一训练数据集中的音效内容描述标签对应的训练样本占比系数小于所述第二训练数据集中的所述音效内容描述标签对应的训练样本占比系数。本发明使得音效生成结果更为准确。

    音频文本强制对齐方法、装置、设备及可读存储介质

    公开(公告)号:CN118230715A

    公开(公告)日:2024-06-21

    申请号:CN202410468801.4

    申请日:2024-04-18

    Abstract: 本申请公开了一种音频文本强制对齐方法、装置、设备及可读存储介质。本方案中,在确定待对齐音频以及与待对齐音频对应的待对齐文本的音素标签序列之后,基于对齐路径中隶属于两个相邻单字的相邻两个音素标签之间包括预设停顿间隔标签,并且隶属于同一个单字的相邻两个音素标签之间不包括预设停顿间隔标签的规则,根据待对齐音频中各音频帧对应预设停顿间隔标签、预设静音标签、预设各音素标签的概率和待对齐文本的音素标签序列确定最终对齐路径,能够使得最终对齐路径中,不会出现隶属于两个相邻单字的相邻两个音素标签之间丢失停顿间隔的问题,也不会出现隶属于同一个单字的相邻两个音素标签之间包括停顿间隔的问题。

    一种语音识别方法、装置、设备和存储介质

    公开(公告)号:CN117636873A

    公开(公告)日:2024-03-01

    申请号:CN202311356807.4

    申请日:2023-10-18

    Abstract: 本申请公开了一种语音识别方法、装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音;基于语音识别模型对待识别语音进行识别,得到待识别语音的目标识别文本;其中,语音识别模型基于样本语音训练得到,样本语音标注有样本语音的样本真实文本以及样本真实文本的实体掩膜,实体掩膜与样本真实文本长度相同,且实体掩膜用于指示样本真实文本中样本领域实体的所在位置。上述方案,能够提高语音识别的准确率,尤其是在待识别语音中含有领域实体情况下的识别准确率。

    语音识别方法、装置、设备及可读存储介质

    公开(公告)号:CN117558263A

    公开(公告)日:2024-02-13

    申请号:CN202410034818.9

    申请日:2024-01-10

    Abstract: 本申请公开了一种语音识别方法、装置、设备及可读存储介质。本方案中,预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数,每个领域的提示向量参数用于指示该领域专有的语音识别信息,在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,获取待识别语音数据所属领域的提示向量参数,将该提示向量参数和声学特征序列,输入该领域的多领域语音识别模型,多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理,得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。

    一种语音识别方法及其相关设备

    公开(公告)号:CN113409792B

    公开(公告)日:2024-02-13

    申请号:CN202110694320.1

    申请日:2021-06-22

    Abstract: 本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。

    语音识别方法、装置及存储介质

    公开(公告)号:CN112767917B

    公开(公告)日:2022-05-17

    申请号:CN202011641751.3

    申请日:2020-12-31

    Abstract: 本申请实施例公开了一种语音识别方法、装置及存储介质,方法包括:对待识别语音数据进行编码,得到第一特征向量序列;对预设热词库中每一热词进行编码,得到第二特征向量序列;对所述预设热词库中每个热词的音频片段进行编码,得到第三特征向量序列;将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作,得到第四特征向量序列;根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作,得到识别结果。采用本申请实施例能够提升热词识别精度。

    一种篇章级文本翻译方法及装置

    公开(公告)号:CN110489761A

    公开(公告)日:2019-11-22

    申请号:CN201810463138.3

    申请日:2018-05-15

    Abstract: 本申请公开了一种篇章级文本翻译方法及装置,该方法包括:将待翻译的篇章级文本中的每一文本单位,分别作为待翻译文本,然后,从篇章级文本中获取待翻译文本的关联文本,并根据该关联文本对待翻译文本进行翻译。可见,在对待翻译文本进行翻译时,不但考虑了待翻译文本的当前语境,还考虑了待翻译文本的关联文本内容,能够提高待翻译文本的翻译结果的准确性,因而提升了用户体验。

    自动配乐方法、装置、电子设备和计算机程序产品

    公开(公告)号:CN119807426A

    公开(公告)日:2025-04-11

    申请号:CN202411940315.4

    申请日:2024-12-26

    Abstract: 本申请提出一种自动配乐方法、装置、电子设备和计算机程序产品,该方法通过检测文档中相邻语句是否属于相同情节,将文档划分为多个情节单元,当相邻语句具备相同的情节元素时,表示相邻语句属于相同情节。将各情节单元和提示语句输入到大语言模型中,得到大语言模型输出的各情节单元的情感类别,提示语句用于指示大语言模型执行确定各情节单元的情感类别的任务,选择与各情节单元的情感类别相同的音乐作为各情节单元的背景音乐。如此可以实现自动对文档进行情节划分并自动确定各情节单元对应的情感类别,进而根据情感类别为各情节单元选择合适的配乐,不需要工作人员对文档进行深度的理解,有效提高了配乐效率。

Patent Agency Ranking