Patent search ap:("华中科技大学") AND inv:"崔玉蕾" Page 1

1.

发明授权
一种基于音视频特征融合的课堂粗粒度声音事件检测方法有权

公开(公告)号：CN118016073B

公开(公告)日：2025-01-28

申请号：CN202311820919.0

申请日：2023-12-27

Applicant: 华中科技大学

Inventor： 许炜 , 崔玉蕾 , 周为

IPC: G10L17/00 , G10L17/18 , G10L15/26 , G06V40/20 , G06V40/16 , G06V10/82

Abstract: 本发明属于智慧课堂技术领域，具体涉及一种基于音视频特征融合的课堂粗粒度声音事件检测方法，包括：采用视频信息处理模型，对视频数据逐帧进行人脸检测，提取每帧中所有嘴部状态信息；对视频数据逐帧进行人体姿态检测，提取每帧中所有人姿态信息；按照时间序列对所有嘴部状态信息和所有人姿态信息拼接，作为视频动作特征；采用音频信息处理模型，对音频数据逐帧提取音频特征，将音频数据转换为文本以逐帧提取文本特征；按照时间序列对音频特征和文本特征进行拼接，作为音频信息特征；基于视频动作特征和音频信息特征，采用特征融合与分类模型，输出每帧说话角色的检测分类结果，得到粗粒度声音事件检测结果。本发明能提高课堂声音事件检测精度。

2.

发明授权
基于多模态信息的课堂视频分割及目录创建方法及系统有权

公开(公告)号：CN118055266B

公开(公告)日：2024-12-10

申请号：CN202410088780.3

申请日：2024-01-22

Applicant: 华中科技大学

Inventor： 张征 , 崔玉蕾 , 朱云昶 , 石子昂 , 董国庆

IPC: H04N21/234 , H04N21/44 , H04N21/233 , H04N21/439 , H04N21/845 , G06N3/0442 , G06N3/0464 , G06N3/09

Abstract: 本发明公开了一种基于多模态信息的课堂视频分割及目录创建方法及系统，属于智慧课堂领域，方法包括：获取课堂中产生的音频信息和视频信息，从音频信息中提取教师音频；将音频信息和视频信息输入课堂活动检测模型，得到视频信息中出现的课堂活动状态以及相应的视频片段，并将课堂活动状态为教师讲解的视频片段进行拼接得到课堂教学视频；将教师音频中与课堂教学视频对应的音频、以及课堂教学视频输入课堂视频分割模型，以按照知识点主题将课堂教学视频分割为不同的课堂教学视频段；生成各课堂教学视频段的知识点主题并进行组合，以创建课堂教学视频的教学目录。提高了实际课堂视频分割及目录创建精度。

3.

发明公开
基于多模态信息的课堂视频分割及目录创建方法及系统有权

公开(公告)号：CN118055266A

公开(公告)日：2024-05-17

申请号：CN202410088780.3

申请日：2024-01-22

Applicant: 华中科技大学

Inventor： 张征 , 崔玉蕾 , 朱云昶 , 石子昂 , 董国庆

IPC: H04N21/234 , H04N21/44 , H04N21/233 , H04N21/439 , H04N21/845 , G06N3/0442 , G06N3/0464 , G06N3/09

Abstract: 本发明公开了一种基于多模态信息的课堂视频分割及目录创建方法及系统，属于智慧课堂领域，方法包括：获取课堂中产生的音频信息和视频信息，从音频信息中提取教师音频；将音频信息和视频信息输入课堂活动检测模型，得到视频信息中出现的课堂活动状态以及相应的视频片段，并将课堂活动状态为教师讲解的视频片段进行拼接得到课堂教学视频；将教师音频中与课堂教学视频对应的音频、以及课堂教学视频输入课堂视频分割模型，以按照知识点主题将课堂教学视频分割为不同的课堂教学视频段；生成各课堂教学视频段的知识点主题并进行组合，以创建课堂教学视频的教学目录。提高了实际课堂视频分割及目录创建精度。

4.

发明公开
一种基于音视频特征融合的课堂粗粒度声音事件检测方法有权

公开(公告)号：CN118016073A

公开(公告)日：2024-05-10

申请号：CN202311820919.0

申请日：2023-12-27

Applicant: 华中科技大学

Inventor： 许炜 , 崔玉蕾 , 周为

IPC: G10L17/00 , G10L17/18 , G10L15/26 , G06V40/20 , G06V40/16 , G06V10/82

Abstract: 本发明属于智慧课堂技术领域，具体涉及一种基于音视频特征融合的课堂粗粒度声音事件检测方法，包括：采用视频信息处理模型，对视频数据逐帧进行人脸检测，提取每帧中所有嘴部状态信息；对视频数据逐帧进行人体姿态检测，提取每帧中所有人姿态信息；按照时间序列对所有嘴部状态信息和所有人姿态信息拼接，作为视频动作特征；采用音频信息处理模型，对音频数据逐帧提取音频特征，将音频数据转换为文本以逐帧提取文本特征；按照时间序列对音频特征和文本特征进行拼接，作为音频信息特征；基于视频动作特征和音频信息特征，采用特征融合与分类模型，输出每帧说话角色的检测分类结果，得到粗粒度声音事件检测结果。本发明能提高课堂声音事件检测精度。

Patent Agency Ranking