一种基于多模态感知数据的文本生成方法及装置

    公开(公告)号:CN116402062B

    公开(公告)日:2023-09-15

    申请号:CN202310676959.6

    申请日:2023-06-08

    Abstract: 本说明书公开了一种基于多模态感知数据的文本生成方法及装置,基于目标场景采集的音频数据表征的声音事件之间的原始关系构建初始声音事件图,在获取到的视频文本知识库和音频知识库中搜索到各声音事件之间的补充关系,并以补充关系构建补充场景图,基于从目标场景中采集的视频数据对应的原始描述文本构建语义场景图,将初始声音事件图、补充场景图和语义场景图三者融合,得到目标场景图,进而基于目标场景图得到描述目标场景的目标文本。可见,通过上述方案,使得目标场景图既包含多模态感知数据,也提高了场景的语义理解,从而提高了目标文本描述目标场景的准确性和完整性。

    一种基于多模态感知数据的文本生成方法及装置

    公开(公告)号:CN116402062A

    公开(公告)日:2023-07-07

    申请号:CN202310676959.6

    申请日:2023-06-08

    Abstract: 本说明书公开了一种基于多模态感知数据的文本生成方法及装置,基于目标场景采集的音频数据表征的声音事件之间的原始关系构建初始声音事件图,在获取到的视频文本知识库和音频知识库中搜索到各声音事件之间的补充关系,并以补充关系构建补充场景图,基于从目标场景中采集的视频数据对应的原始描述文本构建语义场景图,将初始声音事件图、补充场景图和语义场景图三者融合,得到目标场景图,进而基于目标场景图得到描述目标场景的目标文本。可见,通过上述方案,使得目标场景图既包含多模态感知数据,也提高了场景的语义理解,从而提高了目标文本描述目标场景的准确性和完整性。

Patent Agency Ranking