基于跨语言预训练模型的藏汉语音到语音翻译方法及系统

    公开(公告)号:CN116778955A

    公开(公告)日:2023-09-19

    申请号:CN202310664414.3

    申请日:2023-06-06

    Abstract: 本发明公开了一种基于跨语言预训练模型的藏汉语音到语音翻译方法及系统,涉及语音翻译技术领域,通过构建藏汉平行语音语料库,并进行特征提取,得到源语言梅尔谱图和目标语言梅尔谱图,将源语言梅尔谱图进行编码处理,得到输出结果;构建声谱预测模型,引入多头注意力机制计算注意力权重,对输出结果分配注意力权重,得到注意力上下文向量,同时对目标语言梅尔谱图进行重构,并将注意力上下文向量和重构结果进行拼接,得到预测的梅尔谱图;将预测的梅尔谱图输入到声码器中,得到目标语言语音,在此预测过程中不需要任何中间文本的支持,可以有效降低级联式语音到语音翻译系统中的三大弊端,具有重要理论研究意义。

    基于OCR技术辅助构建藏汉音译数据集的方法及系统

    公开(公告)号:CN116468054A

    公开(公告)日:2023-07-21

    申请号:CN202310466088.5

    申请日:2023-04-26

    Inventor: 徐晓娜 谭晶 赵悦

    Abstract: 本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。

    一种基于Transformer的个性化藏语语音合成方法及系统

    公开(公告)号:CN118038849B

    公开(公告)日:2024-08-16

    申请号:CN202410179835.1

    申请日:2024-02-18

    Inventor: 徐晓娜 李宁 赵悦

    Abstract: 本发明公开了一种基于Transformer的个性化藏语语音合成方法及系统,属于语音合成技术领域,该方法包括:获取不同藏语文本,得到拉丁字母文本集;获取不同的音频数据,得到语音梅尔频谱图集;将GST中的reference encoder和注意力机制模块引入Transformer模型,构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出一段与待合成的语音音色相似度较高,与对应文本匹配度高的语音梅尔谱。

    一种基于最优运输方法的跨模态表示方法

    公开(公告)号:CN117690438A

    公开(公告)日:2024-03-12

    申请号:CN202311705086.3

    申请日:2023-12-13

    Inventor: 赵悦 冯鑫 徐晓娜

    Abstract: 一种基于最优运输方法的跨模态表示方法,涉及语音翻译方法领域,主要包括以下步骤:构建多任务通用框架的最优运输模型;采用最优运输方法实现跨模态表示,包括定义离散概率分布、利用最优运输模型找到运输成本最低的运输计划、利用运输成本最低的运输计划找到两个离散概率分布之间的最优传输方案和训练损失函数。本发明在模型输入端缩小了语音和文本之间的模态差异,能够更准确地捕捉语音信号和文本之间的对应关系。通过缩小模态差异并提高关联性,本发明的方法能够在语音翻译任务中实现更高的性能。本发明注重处理语音翻译模型输入模态之间的差异,更适用于广泛的语音翻译任务,尤其是在标记数据有限的情况下,表现更为出色。

    基于OCR技术辅助构建藏汉音译数据集的方法及系统

    公开(公告)号:CN116468054B

    公开(公告)日:2023-11-07

    申请号:CN202310466088.5

    申请日:2023-04-26

    Inventor: 徐晓娜 谭晶 赵悦

    Abstract: 本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。

    一种基于协作式批量主动学习的藏语语音语料标注方法及系统

    公开(公告)号:CN107808661B

    公开(公告)日:2020-12-11

    申请号:CN201710995917.3

    申请日:2017-10-23

    Abstract: 本发明公开了一种基于协作式批量主动学习的藏语语音语料标注方法及系统,其中系统包括:样本选择模块,手工标注模块,标注决策模块,标注者评估模块,训练集生成模块。本发明通过临近最优批量样本选择方法解决样本评价函数的构造及其submodular函数性质的证明,通过标注委员会协作标注方法,解决标注决策函数的构造、标注者评估模型和标注者辅助学习模型的建模。此外,本发明的系统能够实现样本的优化选择、用户的标注评估、标注信息和藏语语音知识的共享、标注者辅助学习等功能,拟提高藏语语音数据的标注质量,加快语音语料建设。

    视频语音识别方法及系统

    公开(公告)号:CN109036387A

    公开(公告)日:2018-12-18

    申请号:CN201810779665.5

    申请日:2018-07-16

    CPC classification number: G10L15/063

    Abstract: 本申请公开了一种视频语音识别方法及系统。该方法包括:对所述音频信息进行特征提取,得到所述音频信息的第一特征向量;根据所述第一特征向量对语音识别模型进行模型训练,得到训练后的所述第一语音识别模型;根据所述第一语音识别模型对所述音频信息进行语音识别,得到第一语音识别结果;采用对所述音频信息进行特征提取,得到所述音频信息的第一特征向量的方式,通过对语音识别模型进行模型训练,得到训练后的所述第一语音识别模型,达到了根据所述第一语音识别模型对所述音频信息进行语音识别,得到第一语音识别结果的目的,进而解决了相关技术中对视频中的语音不能及时识别和处理的问题。

    一种基于Transformer的个性化藏语语音合成方法及系统

    公开(公告)号:CN118038849A

    公开(公告)日:2024-05-14

    申请号:CN202410179835.1

    申请日:2024-02-18

    Inventor: 徐晓娜 李宁 赵悦

    Abstract: 本发明公开了一种基于Transformer的个性化藏语语音合成方法及系统,属于语音合成技术领域,该方法包括:获取不同藏语文本,得到拉丁字母文本集;获取不同的音频数据,得到语音梅尔频谱图集;将GST中的reference encoder和注意力机制模块引入Transformer模型,构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出一段与待合成的语音音色相似度较高,与对应文本匹配度高的语音梅尔谱。

    基于移动终端的语音采集方法及装置

    公开(公告)号:CN109040407A

    公开(公告)日:2018-12-18

    申请号:CN201810779683.3

    申请日:2018-07-16

    CPC classification number: H04M1/60 G06F3/162 G11B27/00

    Abstract: 本申请公开了一种基于移动终端的语音采集方法及装置。该方法包括:接收用户的文件选择指令,向用户展示对应的第一文字信息;接收用户的录音操作指令,生成录音文件并执行对应的文件处理操作;采用接收用户的文件选择指令,向用户展示对应的第一文字信息的方式,通过接收用户的录音操作指令,生成录音文件并执行对应的文件处理操作,达到了准确、高效采集语音的目的,进而解决了相关技术中语音采集效率低下的问题。

Patent Agency Ranking