-
公开(公告)号:CN115424621A
公开(公告)日:2022-12-02
申请号:CN202211349630.0
申请日:2022-10-31
Applicant: 北京科技大学
Abstract: 本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。
-
公开(公告)号:CN114781601A
公开(公告)日:2022-07-22
申请号:CN202210359937.2
申请日:2022-04-06
Applicant: 北京科技大学
Abstract: 本公开涉及一种图像超分辨率方法及装置,其包括:获取第一图像和第一参考图像;其中,所述第一参考图像的分辨率大于所述第一图像的分辨率;针对所述第一图像的特征,在所述第一图像和所述第一参考图像中挖掘第一组相似特征,并通过聚合挖掘到的第一组相似特征对所述第一图像的特征进行纹理增强,得到所述第一图像的增强特征图;以及,对所述增强特征图依次进行上采样和卷积处理,得到所述第一图像的超分辨率图像;其中,所述超分辨率图像的分辨率等于所述第一参考图像的分辨率。
-
公开(公告)号:CN109829042B
公开(公告)日:2021-04-20
申请号:CN201811623339.1
申请日:2018-12-28
Applicant: 北京科技大学
IPC: G06F16/332 , G06F16/33
Abstract: 本发明提供了一种基于生物医学文献的知识问答系统及方法,所述系统包括问题分析模块、文档检索模块和片段检索模块,所述问题分析模块通过所述文档检索模块与所述片段检索模块连接,所述方法首先进行问题分析,组合查询精炼和查询扩展技术,通过问题分析获取问题信息并生成查询条件,然后进行文档检索,利用检索方法查找相关医学文档,通过特定规则将N个排名靠前的文档的标题和摘要分割成句子合集,形成候选片段合集,最后进行片段检索,查找可以用来回答医学问题的相关句子并返回给用户,本发明融合了SDM,FSDM和PDFR检索方法,不仅对全局进行检索,还对不同文本域分配不同的权重进行检索,有效地提高了文档检索效果。
-
公开(公告)号:CN112446308A
公开(公告)日:2021-03-05
申请号:CN202011281029.3
申请日:2020-11-16
Applicant: 北京科技大学
Abstract: 本发明提供了一种基于语义增强的多尺度特征金字塔融合的行人检测方法,涉及计算机视觉技术领域,能够有效地提取和整合多尺度特征图以进行多尺度行人检测,明显提升多尺度行人检测的性能;该方法先采用梯形路径增强模型提取图片的多尺度特征,再通过多尺度特征融合模型进行特征融合;所述梯形路径增强模型为在现有特征金字塔的基础上加入更高层次的特征层来提取更高层次的语义特征信息;所述多尺度特征融合模型具体为通过相邻特征层的特征数据相加再级联的方式进行特征融合,以增强不同尺度下的特征信息,同时减少通道数。本发明提供的技术方案适用于行人检测的过程中。
-
公开(公告)号:CN109635083B
公开(公告)日:2020-11-17
申请号:CN201811426488.9
申请日:2018-11-27
Applicant: 北京科技大学
IPC: G06F16/332
Abstract: 本发明涉及信息检索技术领域,提供了一种用于搜索TED演讲中话题式查询的语义文档检索方法。利用现有的查询和文档对神经网络模型进行训练,学习神经网络模型参数;当用户输入查询,使用查询似然检索模型得到初步检索结果;将初步检索结果输入到固定参数的神经网络模型中再次排序,确定最终检索结果。本发明解决了话题式查询检索中传统检索方法由于查询和文档之间缺乏语义联系而无法取得较好效果的问题;通过引入神经网络对话题式查询和演讲文档分别进行建模,获取查询和文档之间在语义级别的相关性;在神经网络部分,串联了循环神经网络和卷积神经网络,另外,为了解决梯度消失问题,采用了当前流行的LSTM模块。
-
公开(公告)号:CN110458203A
公开(公告)日:2019-11-15
申请号:CN201910654454.3
申请日:2019-07-19
Applicant: 北京科技大学
Abstract: 本发明提供一种广告图像素材检测方法,能够实现精细的广告图像素材检测。所述方法包括:获取广告图像素材检测训练集;构建多尺度实例分割网络,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材。本发明涉及计算机视觉领域。
-
公开(公告)号:CN101630367A
公开(公告)日:2010-01-20
申请号:CN200910089147.1
申请日:2009-07-31
Applicant: 北京科技大学
IPC: G06K9/62
Abstract: 基于多分类器的手写体字符识别拒识方法,属于手写字符识别领域。将拒识方法引入手写体字符识别系统,可以有效提高识别系统的可靠性,从而提高识别系统的识别率。该发明提出了一种基于单分类器的拒识方法和一种基于多分类器的拒识方法。针对单个特征拒识方法存在的局限性,采用多分类器系统的思想为每一种特征设计单独的分类器,进而对各分类器的拒识结果进行集成,可以发挥各种特征的优势,进一步提高拒识的可靠性。该发明以单分类器拒识方法为基础,给出多分类器拒识方法。该方法可以更好的解决手写体识别系统的识别率和拒识率之间的矛盾,提高识别系统的可靠性。
-
公开(公告)号:CN119919699A
公开(公告)日:2025-05-02
申请号:CN202410851751.8
申请日:2024-06-27
Applicant: 北京科技大学
IPC: G06V10/764 , G06V10/774 , G06V10/26
Abstract: 本公开涉及一种整洁度检测模型的训练方法、装置及电子设备,其中,该方法包括:获取原始图像;利用图像分割模型,对所述原始图像进行预处理,得到处理图像;其中,所述处理图像为将不同类别物品对应的图像从所述原始图像中识别出来的图像;根据所述原始图像和所述处理图像生成训练样本;其中,所述训练样本中各图像标注有整洁度分类结果;将所述训练样本输入待训练的整洁度检测模型进行训练,得到训练好的整洁度检测模型。
-
公开(公告)号:CN118628876A
公开(公告)日:2024-09-10
申请号:CN202411115733.X
申请日:2024-08-14
Applicant: 珠海亿智电子科技有限公司 , 北京科技大学 , 中国科学院自动化研究所
IPC: G06V10/778 , G06V10/764 , G06V10/766 , G06V10/774
Abstract: 本发明适用计算机视觉感知领域和模型压缩技术领域,提供了一种目标检测模型的量化感知训练方法,该方法包括:构建待量化的目标检测模型的目标损失函数,该目标损失函数包括分类损失函数、回归损失函数以及任务和谐约束损失函数,基于目标损失函数,对目标检测模型进行量化感知训练,直至该目标损失函数收敛,从而使得分类任务和回归任务之间的关系变得越来越和谐,避免了不和谐的预测框的出现,提高了量化后目标检测模型在NMS后的检测性能。
-
公开(公告)号:CN118115541A
公开(公告)日:2024-05-31
申请号:CN202410360420.4
申请日:2024-03-27
Applicant: 北京科技大学
Abstract: 本发明涉及人机交互技术领域,特别是指一种多模态三维说话人追踪方法及装置,方法包括:利用麦克风阵列捕获的多通道音频信号和单目摄像机获取的视频流作为输入,通过音频和视频信息的互补融合提高定位性能,并建立广义标签多伯努利框架实现平滑跟踪。本发明使用麦克风阵列采集的多通道音频信号和视频流进行说话人跟踪,对视频估计的说话人位置进行精确修正,解决了逆境条件下确定说话人真实位置的困难。创造性地提出了基于广义标签多伯努利滤波器的说话人跟踪方法,为广义标签多伯努利滤波器提供了新的视频辅助多通道音频线性搜索功能,有效处理位置估计中的异常值,并在漏检期间保持跟踪。
-
-
-
-
-
-
-
-
-