一种基于最优运输方法的跨模态表示方法

    公开(公告)号:CN117690438A

    公开(公告)日:2024-03-12

    申请号:CN202311705086.3

    申请日:2023-12-13

    Inventor: 赵悦 冯鑫 徐晓娜

    Abstract: 一种基于最优运输方法的跨模态表示方法,涉及语音翻译方法领域,主要包括以下步骤:构建多任务通用框架的最优运输模型;采用最优运输方法实现跨模态表示,包括定义离散概率分布、利用最优运输模型找到运输成本最低的运输计划、利用运输成本最低的运输计划找到两个离散概率分布之间的最优传输方案和训练损失函数。本发明在模型输入端缩小了语音和文本之间的模态差异,能够更准确地捕捉语音信号和文本之间的对应关系。通过缩小模态差异并提高关联性,本发明的方法能够在语音翻译任务中实现更高的性能。本发明注重处理语音翻译模型输入模态之间的差异,更适用于广泛的语音翻译任务,尤其是在标记数据有限的情况下,表现更为出色。

Patent Agency Ranking