一种基于音视频特征融合的课堂粗粒度声音事件检测方法

    公开(公告)号:CN118016073B

    公开(公告)日:2025-01-28

    申请号:CN202311820919.0

    申请日:2023-12-27

    Inventor: 许炜 崔玉蕾 周为

    Abstract: 本发明属于智慧课堂技术领域,具体涉及一种基于音视频特征融合的课堂粗粒度声音事件检测方法,包括:采用视频信息处理模型,对视频数据逐帧进行人脸检测,提取每帧中所有嘴部状态信息;对视频数据逐帧进行人体姿态检测,提取每帧中所有人姿态信息;按照时间序列对所有嘴部状态信息和所有人姿态信息拼接,作为视频动作特征;采用音频信息处理模型,对音频数据逐帧提取音频特征,将音频数据转换为文本以逐帧提取文本特征;按照时间序列对音频特征和文本特征进行拼接,作为音频信息特征;基于视频动作特征和音频信息特征,采用特征融合与分类模型,输出每帧说话角色的检测分类结果,得到粗粒度声音事件检测结果。本发明能提高课堂声音事件检测精度。

    基于多模态信息的课堂视频分割及目录创建方法及系统

    公开(公告)号:CN118055266B

    公开(公告)日:2024-12-10

    申请号:CN202410088780.3

    申请日:2024-01-22

    Abstract: 本发明公开了一种基于多模态信息的课堂视频分割及目录创建方法及系统,属于智慧课堂领域,方法包括:获取课堂中产生的音频信息和视频信息,从音频信息中提取教师音频;将音频信息和视频信息输入课堂活动检测模型,得到视频信息中出现的课堂活动状态以及相应的视频片段,并将课堂活动状态为教师讲解的视频片段进行拼接得到课堂教学视频;将教师音频中与课堂教学视频对应的音频、以及课堂教学视频输入课堂视频分割模型,以按照知识点主题将课堂教学视频分割为不同的课堂教学视频段;生成各课堂教学视频段的知识点主题并进行组合,以创建课堂教学视频的教学目录。提高了实际课堂视频分割及目录创建精度。

    基于多模态信息的课堂视频分割及目录创建方法及系统

    公开(公告)号:CN118055266A

    公开(公告)日:2024-05-17

    申请号:CN202410088780.3

    申请日:2024-01-22

    Abstract: 本发明公开了一种基于多模态信息的课堂视频分割及目录创建方法及系统,属于智慧课堂领域,方法包括:获取课堂中产生的音频信息和视频信息,从音频信息中提取教师音频;将音频信息和视频信息输入课堂活动检测模型,得到视频信息中出现的课堂活动状态以及相应的视频片段,并将课堂活动状态为教师讲解的视频片段进行拼接得到课堂教学视频;将教师音频中与课堂教学视频对应的音频、以及课堂教学视频输入课堂视频分割模型,以按照知识点主题将课堂教学视频分割为不同的课堂教学视频段;生成各课堂教学视频段的知识点主题并进行组合,以创建课堂教学视频的教学目录。提高了实际课堂视频分割及目录创建精度。

    一种基于音视频特征融合的课堂粗粒度声音事件检测方法

    公开(公告)号:CN118016073A

    公开(公告)日:2024-05-10

    申请号:CN202311820919.0

    申请日:2023-12-27

    Inventor: 许炜 崔玉蕾 周为

    Abstract: 本发明属于智慧课堂技术领域,具体涉及一种基于音视频特征融合的课堂粗粒度声音事件检测方法,包括:采用视频信息处理模型,对视频数据逐帧进行人脸检测,提取每帧中所有嘴部状态信息;对视频数据逐帧进行人体姿态检测,提取每帧中所有人姿态信息;按照时间序列对所有嘴部状态信息和所有人姿态信息拼接,作为视频动作特征;采用音频信息处理模型,对音频数据逐帧提取音频特征,将音频数据转换为文本以逐帧提取文本特征;按照时间序列对音频特征和文本特征进行拼接,作为音频信息特征;基于视频动作特征和音频信息特征,采用特征融合与分类模型,输出每帧说话角色的检测分类结果,得到粗粒度声音事件检测结果。本发明能提高课堂声音事件检测精度。

Patent Agency Ranking