-
公开(公告)号:CN119559413A
公开(公告)日:2025-03-04
申请号:CN202411625220.3
申请日:2024-11-14
Applicant: 哈尔滨理工大学
IPC: G06V10/762 , G06V10/77 , G06V10/82 , G06V40/16 , G06N3/0455 , G06N3/08
Abstract: 一种基于双对齐补全的缺失多视图人脸图像聚类方法,属于缺失多视图人脸图像数据中的数据聚类处理领域,本发明首先通过自编码器的编码网络获得缺失多视图人脸图像数据样本的低维嵌入表示,并将其通过解码网络获得重构样本特征,同时使用重构损失函数对缺失多视图人脸图像数据和重构样本特征进行约束。紧接着利用每个视图的潜在嵌入表示构建原型矩阵,并通过原型对比损失函数对齐视图间的同类簇原型。然后将每个视图的潜在嵌入表示和相应的同类簇原型输入注意力层,通过注意力矩阵增加视图内同类簇样本的紧密性,同时使用视图间的同类簇存在样本补全缺失视图。紧接着将补全后的视图通过实例对比学习获得视图间多视图人脸图像数据样本的一致性信息,随后通过特征融合层获得所有视图的公共低维嵌入表示。最后使用小批量随机梯度下降算法将基于双对齐补全的缺失多视图人脸图像聚类方法总体损失函数优化至收敛。当模型达到收敛后,使用k‑mean算法对公共低维嵌入表示进行聚类获得聚类结果,进而实现对缺失多视图人脸图像数据样本聚类的目的。
-
公开(公告)号:CN119537767A
公开(公告)日:2025-02-28
申请号:CN202411599499.2
申请日:2024-11-08
Applicant: 哈尔滨理工大学
IPC: G06F17/11 , G06N3/0464 , G06N3/08 , G06N3/0442
Abstract: 本发明属于轮式移动机器人状态估计领域,本发明公开了一种基于深度学习的轮式移动机器人滑转率预测方法,解决了传感器实时测量无法提前预测和轮地交互复杂性导致预测精度不足的问题。具体方法为:首先,构建轮式移动机器人相关运动数据的车轮滑转率数据集;然后,优化改进CNN‑LSTM的网络层数和结构,高效提取信息和捕捉特征;此外,设计的隐藏状态增强模块强化隐藏状态的更新,设计的改进注意力机制模块动态调整输入特征权重,突出最重要特征;最后,设计考虑力学约束的复合损失函数用以训练模型,对训练好的模型进行验证和性能评估。本发明使得轮式移动机器人在不同地形上有较好的适应能力,提升了滑转率预测的准确性和稳定性。
-
公开(公告)号:CN119033387A
公开(公告)日:2024-11-29
申请号:CN202411460789.9
申请日:2024-10-18
Applicant: 哈尔滨理工大学
IPC: A61B5/374 , A61B5/00 , G06F18/213 , G06N3/0464 , G06N3/08
Abstract: 本发明属于癫痫发作预测技术领域,公开了一种基于全局上下文感知生成网络的癫痫发作预测方法,包括:获取癫痫发作前期和间期的脑电信号;对脑电信号滤波和时间窗分割,得到时间窗信号片段;构建全局上下文感知生成网络,对时间窗信号片段进行全局依赖关系捕获与上下文信息整合,得到合成信号片段;构建多尺度时频特征深度卷积癫痫发作预测模型,对数据增强样本进行多尺度时频分析,深入挖掘癫痫脑电的关键特征。本发明采用上述一种基于全局上下文感知生成网络的癫痫发作预测方法,克服发作状态持续差异性的问题,保证脑电数据样本空间丰富性,提高预测精度,为癫痫发作预测领域提供新的思路和技术手段。
-
公开(公告)号:CN114639372B
公开(公告)日:2024-10-25
申请号:CN202210221484.7
申请日:2022-03-07
Applicant: 哈尔滨理工大学
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/45
Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法,解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段,先将训练集的声学特征做预处理,输入TDNN‑F网络;然后将网络中输出的embeddings根据半困难负样本挖掘策略,选择出正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练。在识别阶段,先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings;然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化;最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。
-
公开(公告)号:CN118782049A
公开(公告)日:2024-10-15
申请号:CN202410921668.3
申请日:2024-07-10
Applicant: 哈尔滨理工大学
Abstract: 基于通道加权的说话人确认方法、系统及设备,属于生物特征识别技术领域。为了解决基于语音信号直接识别方式存在语音信号特征利用不充分影响识别准确率的问题。本发明首先提取MFCC特征矩阵,再利用通道分段学习网络CSLN进行处理得到说话人低维特征向量,CSLN中的通道分段学习块学习特征权重;然后利用包括减性角边距损失和加性角边距损失的总损失函数进行训练模型。使用时利用CSLN得到两条语音的说话人低维特征向量,根据二者相似度判断第一语音与第二语音是否为同一说话人,进而最终用确定语音的说话人。
-
公开(公告)号:CN114461879B
公开(公告)日:2024-10-15
申请号:CN202210073662.6
申请日:2022-01-21
Applicant: 哈尔滨理工大学
IPC: G06F16/906 , G06Q50/00 , G06F40/30 , G06F40/216
Abstract: 本发明公开了一种基于文本特征整合的语义社交网络多视角社区发现方法,包括:抓取社交网络中用户发表语义信息;提取语义信息中预设数量的词频特征构建矩阵;对语义信息进行TF‑IDF值计算,提取预设数量的关键字特征构建矩阵;利用LDA主题模型获取语义信息的主题和每位用户的主题分布构建矩阵;利用Pearson相关系数求解上述矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络;利用基于图学习的多视角聚类算法对语义社交网络进行多视角社区发现,得到社区划分结果。该方法从多个视角考虑社交网络的语义信息再进行社区发现,保证社区结构划分结果的高质量、高准确度和高凝聚性。
-
公开(公告)号:CN117292675B
公开(公告)日:2024-09-17
申请号:CN202311388897.5
申请日:2023-10-24
Applicant: 哈尔滨理工大学
IPC: G10L15/00 , G10L15/06 , G10L15/16 , G10L21/02 , G06N3/0464 , G06N3/0499
Abstract: 基于深层时序特征表示的语种识别方法,本发明涉及一种基于深层时序特征表示的语种识别方法,属于语种识别技术领域。本发明的目的是为了解决现有方法对语种识别的精度低的问题。过程为:步骤1、获取不同语种的音频数据集;分别对不同语种的音频数据集进行数据增强;将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据,作为训练集;步骤2、构建深度学习模型,将步骤1的训练集输入深度学习模型进行训练,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述深度学习模型依次包括预训练模型、时间池和全连接层;步骤3、将待测音频数据输入训练好的深度学习模型,获得待测音频数据的语种类别。
-
公开(公告)号:CN118521784A
公开(公告)日:2024-08-20
申请号:CN202410602100.5
申请日:2024-05-15
Applicant: 哈尔滨理工大学
IPC: G06V10/26 , G06V10/82 , G06V10/77 , G06V10/46 , G06V10/52 , G06V10/80 , G06N3/0464 , G06N3/048 , G06N3/0442 , G06N3/08
Abstract: 本发明针对现有医学图像分割方法在处理包含小尺寸器官和复杂边缘的图像时存在边缘分割不准确的问题,提出了一种基于CNN和SwinTransformer混合编码的医学图像分割模型。设计了一种混合编码器进行特征提取,其中多尺度特征提取使模型能够更准确地分割包含小尺寸器官的医学图像,引用SwinTransformer模块使模型具备长距离依赖建模能力,可以学习图像中不同区域之间的联系,从而更好的约束不同类别的边界;通过在跳跃连接中使用注意力门控,有效的抑制语义差异,方便特征的进一步融合;在解码器阶段,模型通过级联上采样方式对来自编码器和注意力门控模块输出的特征进行特征重组及解码,最后输出预测结果。
-
公开(公告)号:CN117809694B
公开(公告)日:2024-08-09
申请号:CN202410024330.8
申请日:2024-01-08
Applicant: 哈尔滨理工大学
IPC: G10L25/51 , G10L25/30 , G10L21/0208 , G10L15/06
Abstract: 基于时序多尺度特征表示学习的伪造语音检测方法及系统,涉及一种伪造语音的检测方法及系统。为了解决没有充足利用语音各时序段特征信息的问题,以及现有的单一的深度神经网络进行伪造语音检测时存在的准确度较低的问题。本发明将预处理的语音信号输入wav2vec2.0提取初步特征,将初步特征矩阵输入基于多尺度时间序列的卷积网络提取特征矩阵,并将各组的输出进行拼接再通过一个最大池化层,然后将时序特征输入到SCG‑Res2Net50及分类器对语音进行打分,根据伪造语音的得分和真实语音得分进行真实语音与伪造语音的分类。
-
公开(公告)号:CN118409596A
公开(公告)日:2024-07-30
申请号:CN202410641516.8
申请日:2024-05-22
Applicant: 哈尔滨理工大学
Abstract: 本发明涉及一种有人驾驶的足式移动平台人机路径优选及协同方法,本发明通过人机协同的方式,采取足式移动平台路径规划和驾驶员路径规划相融合的方法,在保证全局路径最优的前提下,消除了足式移动平台路径与驾驶员路径选择时可能存在的冲突,解决了传统路径规划方法考虑因素有限的问题。本发明技术要点为:在已知地图基础上,利用路径规划算法得到足式移动平台路径;驾驶员通过外置设备绘制驾驶员路径;利用博弈理论将足式移动平台、驾驶员规划路径实时融合;通过路径评估函数实时评估路径,针对不可通过的局部路径,利用混合RRT‑APF算法进行局部路径重规划,直至足式移动平台抵达目标点完成任务。
-
-
-
-
-
-
-
-
-