-
公开(公告)号:CN116647730A
公开(公告)日:2023-08-25
申请号:CN202310666053.6
申请日:2023-06-07
Applicant: 兰州大学
IPC: H04N21/4402 , H04N21/44 , H04N21/439 , G06V20/40 , G06V10/52 , G06V10/62 , G06V10/762 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种用于将视频转化为描述性音频的方法及系统,利用采集到的视频数据集,训练特征提取网络以提取视频的时空特征,并生成包含时序信息的多尺度特征序列的表示。利用深度学习模型拟合视频特征和文本特征,学习视频的语义信息,以此生成对输入视频整体内容的文本描述;学习视频中帧聚类,按照事件对视频进行划分,学习视频的时序信息,并生成分段描述。最后,使用文本转语音工具生成对视频文本描述对应的音频片段,并将它们拼接在一起,以生成连续、清晰的描述。本发明利用神经网络有效地理解视频的语义信息,并使用语音描述信息扩展视频的理解方式,实现了对视频的音频描述,有效地帮助用户以听觉方式理解视频内容。