一种语音-文本多模态中文命名实体识别方法

    公开(公告)号:CN118333058A

    公开(公告)日:2024-07-12

    申请号:CN202410451064.7

    申请日:2024-04-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种语音‑文本多模态中文命名实体识别方法,该方法基于多任务学习,使用语音与文本作为输入。对于语音‑文本输入,首先,对输入的文本和语音进行编码,然后使用带掩码的语音识别辅助任务提取语音的语义特征;接着借助音频文本对齐工具对文本和语音进行对齐并构造掩码,然后通过带掩码的跨模态注意力机制提取字符粒度的语音特征;接着使用语音实体边界识别辅助任务提取语音中的停顿信息;最后通过转换矩阵的方式将提取的语音停顿信息引入到文本的命名实体识别序列标注过程中。本发明通过辅助任务提取了语音中的发音信息和停顿信息,提升了中文命名实体识别的准确性。

Patent Agency Ranking