Patent search ap:("华中师范大学") AND inv:"李佳文" Page 1

1.

发明公开
一种课堂教学行为事件描述模型的构建方法及系统有权

公开(公告)号：CN113743250A

公开(公告)日：2021-12-03

申请号：CN202110939047.4

申请日：2021-08-16

Applicant: 华中师范大学

Inventor： 陈增照 , 李佳文 , 戴志诚 , 何秀玲 , 鲁圆圆 , 孟秉恒 , 朱胜虎

IPC: G06K9/00 , G06K9/62 , G06Q50/20

Abstract: 本发明公开了一种课堂教学行为事件描述模型的构建方法及系统。该构建方法包括如下步骤：获取待训练的课堂教学视频数据；利用语音活动检测技术，将待训练的课堂教学视频数据按照教师的话语划分成多个事件；利用多种人工智能技术对所有事件进行多模态识别，划分为多个维度下的子事件，根据子事件建立事件描述模型，对教师在课堂中的各项教学行为事件进行描述。本发明根据语音对课堂视频进行切割，能够最大程度上保证每一个事件中教师非言语行为的完整性；且通过提取不同事件之间的共性，建立统一描述所有事件的描述模型，不仅能完成对教师各项教学行为的描述，还能反映出事件与事件之间的关联性，使得事件不再是孤立的。

2.

发明授权
一种课堂教学行为事件描述模型的构建方法及系统有权

公开(公告)号：CN113743250B

公开(公告)日：2024-02-13

申请号：CN202110939047.4

申请日：2021-08-16

Applicant: 华中师范大学

Inventor： 陈增照 , 李佳文 , 戴志诚 , 何秀玲 , 鲁圆圆 , 孟秉恒 , 朱胜虎

IPC: G06V20/40 , G06V20/52 , G06F18/24 , G06V40/20 , G06V10/774 , G06Q50/20

Abstract: 本发明公开了一种课堂教学行为事件描述模型的构建方法及系统。该构建方法包括如下步骤：获取待训练的课堂教学视频数据；利用语音活动检测技术，将待训练的课堂教学视频数据按照教师的话语划分成多个事件；利用多种人工智能技术对所有事件进行多模态识别，划分为多个维度下的子事件，根据子事件建立事件描述模型，对教师在课堂中的各项教学行为事件进行描述。本发明根据语音对课堂视频进行切割，能够最大程度上保证每一个事件中教师非言语行为的完整性；且通过提取不同事件之间的共性，建立统一描述所有事件的描述模型，不仅能完成对教师各项教学行为的描述，还能反映出事件与事件之间的关联性，使得事件不再是孤立的。

3.

发明授权
一种说话者确认方法及系统有权转让

公开(公告)号：CN113345444B

公开(公告)日：2022-10-28

申请号：CN202110496856.2

申请日：2021-05-07

Applicant: 华中师范大学

Inventor： 陈增照 , 郑秋雨 , 何秀玲 , 戴志诚 , 张婧 , 孟秉恒 , 李佳文 , 吴潇楠 , 朱胜虎

IPC: G10L17/18 , G10L17/04 , G10L17/02 , G10L17/08 , G06N3/04 , G06N3/08

Abstract: 本发明提供一种说话者确认方法及系统，包括：对说话者的音频信息进行预处理，将所述音频信息转换为预设格式的数据；将说话者音频信息对应的预设格式的数据输入到训练好的基于空间注意力机制的深度嵌套残差神经网络，以得到帧级别的说话者向量；基于所述帧级别的说话者向量生成话语级别的说话者向量，并计算所述话语级别的说话者向量和目标说话者向量的余弦相似度，以判断所述说话者是否为目标说话者；所述目标说话者向量是预先获取的。本发明提出了一种基于空间注意力机制的深度嵌套残差神经网络，通过深度神经网络更准确地提取说话者声纹特征。

4.

发明公开
一种说话者确认方法及系统有权转让

公开(公告)号：CN113345444A

公开(公告)日：2021-09-03

申请号：CN202110496856.2

申请日：2021-05-07

Applicant: 华中师范大学

Inventor： 陈增照 , 郑秋雨 , 何秀玲 , 戴志诚 , 张婧 , 孟秉恒 , 李佳文 , 吴潇楠 , 朱胜虎

IPC: G10L17/18 , G10L17/04 , G10L17/02 , G10L17/08 , G06N3/04 , G06N3/08

Abstract: 本发明提供一种说话者确认方法及系统，包括：对说话者的音频信息进行预处理，将所述音频信息转换为预设格式的数据；将说话者音频信息对应的预设格式的数据输入到训练好的基于空间注意力机制的深度嵌套残差神经网络，以得到帧级别的说话者向量；基于所述帧级别的说话者向量生成话语级别的说话者向量，并计算所述话语级别的说话者向量和目标说话者向量的余弦相似度，以判断所述说话者是否为目标说话者；所述目标说话者向量是预先获取的。本发明提出了一种基于空间注意力机制的深度嵌套残差神经网络，通过深度神经网络更准确地提取说话者声纹特征。

Patent Agency Ranking