一种用于将视频转化为描述性音频的方法及系统

    公开(公告)号:CN116647730A

    公开(公告)日:2023-08-25

    申请号:CN202310666053.6

    申请日:2023-06-07

    Applicant: 兰州大学

    Abstract: 本发明公开了一种用于将视频转化为描述性音频的方法及系统,利用采集到的视频数据集,训练特征提取网络以提取视频的时空特征,并生成包含时序信息的多尺度特征序列的表示。利用深度学习模型拟合视频特征和文本特征,学习视频的语义信息,以此生成对输入视频整体内容的文本描述;学习视频中帧聚类,按照事件对视频进行划分,学习视频的时序信息,并生成分段描述。最后,使用文本转语音工具生成对视频文本描述对应的音频片段,并将它们拼接在一起,以生成连续、清晰的描述。本发明利用神经网络有效地理解视频的语义信息,并使用语音描述信息扩展视频的理解方式,实现了对视频的音频描述,有效地帮助用户以听觉方式理解视频内容。

Patent Agency Ranking