-
公开(公告)号:CN118552998A
公开(公告)日:2024-08-27
申请号:CN202410778438.6
申请日:2024-06-17
Applicant: 华中师范大学
IPC: G06V40/16 , G06V10/764 , G06V10/77 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于八元数正交ViT的表情识别方法和系统,包括:对输入层输入的原始表情图片进行预处理,然后将预处理后的图片输入到八元数正交特征分解模块中,得到七组正交子特征;八元数正交表示模块将七组正交子特征通过设计的八元数正交表示函数构造成一个八元数特征矩阵;八元数Vision Transformer模块中将上述八元数正交表示模块中生成的八元数特征矩阵,依次进行通道补丁编码、八元数多头自注意力机制、八元数卷积前馈网络和八元数多层感知机,以提取并处理八元数特征;将八元数特征矩阵通过全连接层得到最终的表情概率输出。本发明在保证模型低参数量的基础上,提升了自然条件下表情识别精度。
-
公开(公告)号:CN113591988B
公开(公告)日:2023-08-29
申请号:CN202110874755.4
申请日:2021-07-30
Applicant: 华中师范大学
IPC: G06F18/24 , G06F18/25 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本发明属于个性化学习技术领域,公开了一种知识认知结构分析方法、系统、计算机设备、介质、终端,以学习者的学习交互序列为基础,得到联合先验特征;设计分层卷积神经网络对学习者学习状态进行空间分析,提取包含学习者个性化学习能力的空间特征;输出学习者在给定异构特征下对练习的反应情况,构建学习过程中影响学习者知识认知结构及表现的学习者时空融合特征;引入双向门循环单元,构建基于长时间依赖和融合时空特征的知识认知结构分析模型去动态诊断学习者的知识认知结构,预测学习者的学习表现。本发明有利于提高知识认知结构分析模型在预测学习者在特定资源下的学习表现方面的预测精度,对个性化教学的发展具有一定的借鉴意义。
-
公开(公告)号:CN109545227B
公开(公告)日:2023-05-09
申请号:CN201810402685.0
申请日:2018-04-28
Applicant: 华中师范大学
Abstract: 本发明属于声纹识别技术领域,公开了一种基于深度自编码网络的说话人性别自动识别方法及系统,利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型;提取注册数据的i‑vector;提取测试数据的i‑vector;训练深度自编码网络;模式匹配与识别,并进行模型评估。本发明将深度自编码网络应用于说话人性别识别中,将深度自编码网络强大的学习能力用于表征不同性别的说话人特征,不仅实现了特征的再提取,同时降低了特征维数,从而降低了分类运算时的复杂度。本发明提出的方法可进一步推广应用于说话人识别,尝试提高说话人识别系统的鲁棒性。
-
公开(公告)号:CN110516116B
公开(公告)日:2022-12-02
申请号:CN201910796774.2
申请日:2019-08-27
Applicant: 华中师范大学
Abstract: 本发明属于教育数据挖掘技术领域,公开了一种多步分层的学习者认知水平挖掘方法及系统,结合布鲁姆认知领域目标分类及认知心理,构建试题‑知识认知水平矩阵P,综合学习者知识认知水平矩阵和试题‑知识认知水平矩阵构建学习者理想答题矩阵,利用极大似然估计挖掘学习者知识掌握候选集合;对候选集合内元素的全局期望进行综合判断,获取学习者最终的知识认知水平,并将结果使用雷达图可视化输出。本发明通过挖掘出学习者的知识认知水平后,利用雷达图反馈给学习者的挖掘结果将更加直观、通俗易懂,辅助学习者及时调整学习方案;模型挖掘出的试题隐参数可以评估组成此次测试的试题质量,提高了测试准确性与可信度。
-
公开(公告)号:CN107038424B
公开(公告)日:2019-12-24
申请号:CN201710263069.7
申请日:2017-04-20
Applicant: 华中师范大学
Abstract: 本发明属于手势识别技术领域,涉及一种手势识别方法,包括如下步骤:通过Kinect实时获取深度图像序列;通过Kinect实时获取手掌中心和手肘中心的位置,并根据每帧图像的深度信息提取手部轮廓;根据手掌中心位置、手肘中心位置和手部轮廓,计算指尖位置和指根位置,提取特征;将步骤3中提取的特征和模板库中的手势特征进行匹配,进入分类器,按分类器的分类标准选择出最接近的手势为识别出的手势,并将每一帧识别出的手势保存在队列Q中;分析队列Q中该帧和之前四帧的识别结果,选取出现数量最多的手势,作为最终识别结果。本发明使用Kinect获取深度信息,结合数字图像分析技术,能够快速准确的识别操控者的手势。
-
公开(公告)号:CN108831443A
公开(公告)日:2018-11-16
申请号:CN201810664855.2
申请日:2018-06-25
Applicant: 华中师范大学
Abstract: 本发明属于数字音频数据处理技术领域,公开了一种基于堆叠自编码网络的移动录音设备源识别方法,先提取纯净语音片段的RASTA-MFCC特征训练一个GMM-UBM模型,然后再基于特定设备源的语音片段提取RASTA-MFCC特征,进而调整GMM的参数,并提取特定设备源的语音片段的相关对数谱的特征;最后将提取到的特征用来训练深度自编码网络,达到自动识别分类的要求。本发明在司法、新闻、知识产权、科学发现等领域,可确认数字音频的来源,对数字音频资料的真实性、完整性进行验证。本发明在语音识别和说话人识别领域,可分别检测训练和测试语音的设备信道信息,建立训练和测试语音之间的信道映射函数,从而解决信道失配问题。
-
公开(公告)号:CN108538312A
公开(公告)日:2018-09-14
申请号:CN201810401376.1
申请日:2018-04-28
Applicant: 华中师范大学
Abstract: 本发明属于数字音频信号处理技术领域,公开了一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法,对待测篡改信号进行活动语音检测,确定语音信号中的静音段;静音段分帧后依次提取每帧的美尔频率倒谱系数特征,按时序对特征序列再进行长窗分帧;计算每个长时特征帧的BIC值;取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,并在静音段中以其为中点,前后分别截断;对每个包含可疑点的截断窗计算BIC值序列。本发明实现了数字音频篡改点的自动定位,相对于传统的篡改检测方法降低了计算量,减少了篡改点的漏检率,避免了阈值选择的问题,对使用噪声对篡改点进行掩盖的情况具有鲁棒性。
-
公开(公告)号:CN106782520A
公开(公告)日:2017-05-31
申请号:CN201710151497.0
申请日:2017-03-14
Applicant: 华中师范大学
Abstract: 本发明提供了一种复杂环境下语音特征映射方法,首先提取干净环境下的语音信号的特征;然后提取复杂环境下的语音信号的特征;接着利用特征映射方法对复杂环境下的语音信号进行特征映射,使得到的映射特征可近似视为干净环境下的语音信号特征;最后与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别。本发明利用特征映射函数对复杂环境下的语音信号进行映射,使得到的特征可以近似视为干净环境下的语音信号特征,通过映射函数的作用可使复杂环境下的语音特征的纯净度得到大幅度提升从而提升语音识别的准确度,提高语音识别系统的鲁棒性。
-
公开(公告)号:CN118470776A
公开(公告)日:2024-08-09
申请号:CN202410640054.8
申请日:2024-05-22
Applicant: 华中师范大学
IPC: G06V40/16 , G06V10/26 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0499 , G06N3/048
Abstract: 本发明公开了基于增强ViT的双流特征融合表情识别方法和系统,包括:将原始图片进行预处理操作;原始图片进入全局特征提取层,通过预训练的IR50模型提取全局特征;原始图片进入局部特征提取层,包括卷积层、最大池化层、QuadConv层、Channel‑spatial Modulator层和IR Block层,最终获得局部特征;将获得的全局和局部特征输送到ViT中,使用RKD‑MSA模块计算注意力权重;引入CB模块,增强非丢弃向量之间的联系;将注意力矩阵输入全连接层网络,获取表情识别结果。本发明提升了自然条件下表情识别精度。
-
-
-
-
-
-
-
-