-
公开(公告)号:CN119964551A
公开(公告)日:2025-05-09
申请号:CN202510430211.7
申请日:2025-04-08
Applicant: 厦门大学
IPC: G10L13/08 , G10L13/10 , G10L13/027 , G10L25/30
Abstract: 一种基于互信息理论的自监督语音特征增强语音合成方法,涉及语音合成技术领域。该方法通过引入自监督语音特征,作为文本的声学补充,设计基于互信息最大化和最小化的信息瓶颈模块,从自监督语音特征中提取紧凑且与任务相关的自监督表示,并通过最大化文本表示与自监督表示之间的互信息,增强文本表示的声学信息,从而提高语音合成的自然度和质量。在单说话人和多说话人语音合成场景下均表现出色,且具有良好的跨语言适应性,能够有效提升不同语言环境下的语音合成质量。
-
公开(公告)号:CN119207368A
公开(公告)日:2024-12-27
申请号:CN202411394925.9
申请日:2024-10-08
Applicant: 厦门大学
IPC: G10L13/04 , G10L13/033 , G10L25/30 , G10L25/24 , G10L19/16
Abstract: 本发明公开了一种歌仔戏唱腔合成方法,涉及歌仔戏唱腔合成领域,解决了现有歌仔戏合成中,缺乏标注数据,导致数据匮乏,且语音合成模型及歌声合成模型对数据的局部特征建模不充分的问题,现提出如下方案,其包括利用神经音频编解码器EnCodec的强大能力从EnCodec的码本中采样出与编码器输出特征相似的隐表征,并重建为音频,我们成功地扩展了歌仔戏数据集,为模型训练提供了更多的数据支持;提出歌仔戏合成模型FG‑GAN,通过提出GConformer模块,在Conformer架构的基础上提出分组深度可分离卷积模块,扩大了模型对谱图的感受野,从而增强了模型对局部特征的捕捉能力。此外,FG‑GAN还提出了一种基于流模型的帧级别隐表征建模模块,以更好地拟合同一音素或音高内音频的变化。
-
公开(公告)号:CN116092191A
公开(公告)日:2023-05-09
申请号:CN202310062798.1
申请日:2023-01-16
Applicant: 厦门大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06V10/778 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 一种用于手语翻译的新型词级对比学习框架及手语翻译系统,涉及计算机视觉和手语语言学。新型词级对比学习框架ConSLT包括视频输入模块、视觉提取模块、手语编码模块、句子嵌入模块、手语解码模块、对比学习模块、损失计算模块、输出模块;方法:1)手语语料选取建模;2)手语视觉特征提取;3)端到端手语视频转换;4)训练阶段句子嵌入;5)构建正例对及负例对;6)手语翻译模型损失计算;7)手语翻译结果输出。从自然语言处理的角度探索手语翻译的对比学习,直接利用数据本身作为监督信息,在低资源情况下也可以学习到很好的手语表示,使手语翻译系统更精准,更流畅。ConSLT框架不受模型限制,适用于不同的模型。
-
公开(公告)号:CN102662931A
公开(公告)日:2012-09-12
申请号:CN201210111557.3
申请日:2012-04-13
Applicant: 厦门大学
Abstract: 一种基于协同神经网络的语义角色标注方法,涉及语义角色标注、模式识别和协同神经网络领域,涉及将协同神经网络原理引入到浅层语义分析的方法。从训练语料和测试语料中抽取特征,并构造相应的语义特征向量;对语义特征向量进行核变换,并在此基础上构造原型模式和待测试模式;构造序参量,对每个依存成分求若干个侯选角色;构建谓词库,对每个谓词对应的所有依存成分的候选角色进行组合,得到各个谓词的角色链;优化网络参数,进行协同神经网络的动力学演化,从而得到最优角色链,并输出标注模式。首次将协同神经网络原理引入到语义角色标注中,该方法广泛适应于各种自然语言处理任务中。具有较好的应用前景和应用价值。
-
公开(公告)号:CN119539067A
公开(公告)日:2025-02-28
申请号:CN202510102277.3
申请日:2025-01-22
Applicant: 厦门大学
IPC: G06N5/025 , G06N3/0455 , G06N3/0895 , G06F18/22
Abstract: 一种基于超网络的持续学习关系抽取方法,涉及自然语言处理和机器学习领域。模型含样本编码器、基于超网络的网络生成器和任务特定的投影头;样本编码器用于获取每个实例的嵌入表示;网络生成器为当前任务生成特定的投影头,投影头用于执行该特定任务的分类。为减少模型表示空间中类似关系之间的冲突,创建特定的投影头。对于新任务,初始化一系列特定任务的嵌入。这些嵌入输入网络生成器,创建一个用于当前任务关系分类的专用投影头。每个任务都有其特定的表示空间。有效减轻模型表示空间中类似关系的冲突。训练模型过程中采用新任务训练、样本选择和多任务重放,通过跨任务损失和对比学习等策略,有效缓解灾难性遗忘问题。
-
公开(公告)号:CN113971837B
公开(公告)日:2024-08-20
申请号:CN202111255321.2
申请日:2021-10-27
Applicant: 厦门大学
IPC: G06V40/20 , G06V10/82 , G06V10/80 , G06V10/774 , G06V10/762 , G06N3/042 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 一种基于知识的多模态特征融合的动态图神经手语翻译方法,属于计算机视觉、自然语言处理和手语语言学领域。包括步骤:1)对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;2)利用半监督的方式对手语进行分割,获取伪标签序列;3)利用伪标签序列对齐图网络节点;4)构造多模态图编码器,融合视觉特征和文本特征;5)将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。引入图神经手语翻译模型的概念,利用半监督的聚类算法实现手语分割,利用多模态输入信息以提高翻译性能,突破在低资源条件下手语的翻译瓶颈,能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型。
-
公开(公告)号:CN116306703A
公开(公告)日:2023-06-23
申请号:CN202310386735.1
申请日:2023-04-12
Applicant: 厦门大学
IPC: G06F40/58 , G06N3/08 , G06F16/35 , G06F18/22 , G06F18/214 , G06F40/216 , G06N3/0464 , G06N3/0499
Abstract: 一种基于领域分类的反向翻译数据构建及训练方法,涉及自然语言处理、机器翻译、数据增强领域,基于原语料训练双语模型:使用Transformer神经网络模型,将双语原语料分别作为源端‑目标端和目标端‑源端训练两个神经机器翻译模型;2)基于关键词和主题相似性构建领域单语数据集;3)基于反向翻译生成领域伪平行数据集:将获取的领域单语数据集作为源端数据集,使用训练好的双语模型进行反向翻译获得伪句子对,整理对齐后形成领域伪平行数据集;4)基于领域分类学习的联合训练:将伪平行数据集标记为领域语料与通用数据进行联合训练。能在获取高质量的相关领域的知识的同时,有效利用通用领域知识,提高翻译性能,保证翻译质量。
-
公开(公告)号:CN114925694A
公开(公告)日:2022-08-19
申请号:CN202210513350.2
申请日:2022-05-11
Applicant: 厦门大学
IPC: G06F40/295 , G06K9/62 , G06N3/04
Abstract: 一种利用实体判别信息来提高生物医学命名体识别的方法,涉及生物医学命名体识别。包括以下步骤:1)构建EJNER模型,将EJ任务和NER任务结合的方法,称之为EJNER;EJNER模型包括EJ模型、NER模型和特征融合模块;2)定义EJ任务并训练EJ模型;3)将EJ模型提取的特征和NER模型提取的特征通过相加、门控单元、多头注意力机制方法融合,利用融合后的特征进行预测。可缓解实体边界错误分类问题。不仅仅适用于BioNER任务,同样适用于一般的命名体识别任务。
-
公开(公告)号:CN114492796A
公开(公告)日:2022-05-13
申请号:CN202210122504.5
申请日:2022-02-09
Applicant: 厦门大学
Abstract: 一种基于语法树的多任务学习手语翻译方法,涉及手语翻译。包括以下步骤:1)获得口语句子的语法树,并构造数据集;2)搭建神经网络,主要分为编码器和解码器两部分;在编码器得到输入的抽象特征表示后,将其输入到解码器中进行解码;3)预测语法树的先序遍历序列、语法树每个节点的深度以及口语句子。通过多任务学习方式来提升模型的翻译性能。不仅适用于手语翻译的翻译过程,同样可以用于神经机器翻译任务。在翻译的鲁棒性上要好于基础Transformer模型。在模型解码过程中,不仅仅预测口语句子,还要预测其对应的语法树,通过硬参数共享,以便更充分的挖掘训练数据集中隐藏的深层信息,从而使得翻译模型的预测结果更加准确。
-
公开(公告)号:CN113971837A
公开(公告)日:2022-01-25
申请号:CN202111255321.2
申请日:2021-10-27
Applicant: 厦门大学
IPC: G06V40/20 , G06V10/82 , G06V10/80 , G06V10/774 , G06V10/762 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种基于知识的多模态特征融合的动态图神经手语翻译方法,属于计算机视觉、自然语言处理和手语语言学领域。包括步骤:1)对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;2)利用半监督的方式对手语进行分割,获取伪标签序列;3)利用伪标签序列对齐图网络节点;4)构造多模态图编码器,融合视觉特征和文本特征;5)将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。引入图神经手语翻译模型的概念,利用半监督的聚类算法实现手语分割,利用多模态输入信息以提高翻译性能,突破在低资源条件下手语的翻译瓶颈,能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型。
-
-
-
-
-
-
-
-
-