Patent search ap:("兰州大学") AND inv:"赵俊杰" Page 1

1.

发明公开
一种用于将视频转化为描述性音频的方法及系统审中-实审

公开(公告)号：CN116647730A

公开(公告)日：2023-08-25

申请号：CN202310666053.6

申请日：2023-06-07

Applicant: 兰州大学

Inventor： 许存禄 , 余纳川 , 赵俊杰 , 苏伟

IPC: H04N21/4402 , H04N21/44 , H04N21/439 , G06V20/40 , G06V10/52 , G06V10/62 , G06V10/762 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种用于将视频转化为描述性音频的方法及系统，利用采集到的视频数据集，训练特征提取网络以提取视频的时空特征，并生成包含时序信息的多尺度特征序列的表示。利用深度学习模型拟合视频特征和文本特征，学习视频的语义信息，以此生成对输入视频整体内容的文本描述；学习视频中帧聚类，按照事件对视频进行划分，学习视频的时序信息，并生成分段描述。最后，使用文本转语音工具生成对视频文本描述对应的音频片段，并将它们拼接在一起，以生成连续、清晰的描述。本发明利用神经网络有效地理解视频的语义信息，并使用语音描述信息扩展视频的理解方式，实现了对视频的音频描述，有效地帮助用户以听觉方式理解视频内容。

Patent Agency Ranking