-
公开(公告)号:CN113822265A
公开(公告)日:2021-12-21
申请号:CN202110958470.9
申请日:2021-08-20
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于深度学习的X光安检图像中非金属打火机检测方法,该方法的数据增强与多尺度训练使用3种不同的数据增强方法并以mix‑up的方式融合数据增强数据,提升对于非金属打火机的定位能力。应用X光安检图像非金属打火机识别模型,将真实场景下的X光安检图像输入的模型,模型的直接输出非金属打火机检出结果。三种数据增强方式以及多尺度训练提升了模型对于真实场景下X光安检图像非金属打火机检出的泛化能力。在特征提取网络种引入改进型通道注意力,提升模型对于非金属打火机有效特征的提取,在特征融合阶段设计了DO‑PAN网络结构,加强浅层特征与深层特征的融合,提高模型对于非金属打火机的识别能力,使用Focalloss损失函数代替交叉熵损失函数。
-
公开(公告)号:CN110852375A
公开(公告)日:2020-02-28
申请号:CN201911090621.2
申请日:2019-11-09
Applicant: 北京工业大学
Abstract: 本发明公开了基于深度学习的端到端乐谱音符识别方法,该方法一共分为三步:(1)数据预处理:需要从MuseScore中下载对应的数据集,重新编码音高和时值标签。(2)数据增强:对重新编码后的乐谱数据进行数据增强,本发明提出了4种不同的增强方法。(3)端到端模型:应用于端到端乐谱音符识别的深度卷积神经网络模型,将增强后的数据输入的模型,模型的输出为音符时值和音高。本发明在于针对打印体乐谱提出一个基于深度学习的乐谱音符识别模型,即输入整张乐谱图像到该模型,直接输出乐谱上音符的时值和音高,该模型完全端到端,能够精准识别多声部乐谱图像。
-
公开(公告)号:CN112686104A
公开(公告)日:2021-04-20
申请号:CN202011510003.1
申请日:2020-12-19
Applicant: 北京工业大学
Abstract: 本发明公开了基于深度学习的多声部乐谱识别方法,本发明针对印刷体多声部乐谱提出一个基于深度学习的乐谱识别模型,基于卷积神经网络、数据增强、迁移学习的端到端乐谱音符识别方法旨在解决多声部乐谱音符识别过程中存在精度低,音符遗漏等问题。该模型采用多任务学习,可同时学习音高、时值的分类任务和音符坐标的回归任务。在模型在训练上,使用了神经网络中的微调技术,目的是为了更好地检测到乐谱中的和弦音符,实验结果表明,该模型能精确地识别多声部乐谱中的音符,在和弦音符的识别上也表现出了良好的性能。
-
公开(公告)号:CN112686272B
公开(公告)日:2025-01-14
申请号:CN202011512328.3
申请日:2020-12-19
Applicant: 北京工业大学
Abstract: 本发明公开了基于深度学习的手写体乐谱谱线删除方法,本发明模型训练所用数据集为ICDAR/GREC 2013手写体五线谱谱线删除比赛数据集,并且对该数据集进行数据增强,本发明使用了3种不同的数据增强方法。本发明的手写体乐谱谱线删除深度卷积神经网络模型,将含有乐谱图像输入的模型,模型的直接输出不含谱线的乐谱图像的结果图。本方法引入了旋转,谱线间断,谱线加粗3种额外噪声来模拟自然场景下的乐谱,提升了模型的泛化能力。提出了手写体乐谱谱线删除模型,实现了99.3%的删除准确率,在实时性上完成一张1024*2048大小的乐谱图像仅需14.85秒,相较于前文所提模型在实时性上大幅提高。
-
公开(公告)号:CN112686104B
公开(公告)日:2024-05-28
申请号:CN202011510003.1
申请日:2020-12-19
Applicant: 北京工业大学
IPC: G06V30/304 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/082
Abstract: 本发明公开了基于深度学习的多声部乐谱识别方法,本发明针对印刷体多声部乐谱提出一个基于深度学习的乐谱识别模型,基于卷积神经网络、数据增强、迁移学习的端到端乐谱音符识别方法旨在解决多声部乐谱音符识别过程中存在精度低,音符遗漏等问题。该模型采用多任务学习,可同时学习音高、时值的分类任务和音符坐标的回归任务。在模型在训练上,使用了神经网络中的微调技术,目的是为了更好地检测到乐谱中的和弦音符,实验结果表明,该模型能精确地识别多声部乐谱中的音符,在和弦音符的识别上也表现出了良好的性能。
-
公开(公告)号:CN112686272A
公开(公告)日:2021-04-20
申请号:CN202011512328.3
申请日:2020-12-19
Applicant: 北京工业大学
Abstract: 本发明公开了基于深度学习的手写体乐谱谱线删除方法,本发明模型训练所用数据集为ICDAR/GREC 2013手写体五线谱谱线删除比赛数据集,并且对该数据集进行数据增强,本发明使用了3种不同的数据增强方法。本发明的手写体乐谱谱线删除深度卷积神经网络模型,将含有乐谱图像输入的模型,模型的直接输出不含谱线的乐谱图像的结果图。本方法引入了旋转,谱线间断,谱线加粗3种额外噪声来模拟自然场景下的乐谱,提升了模型的泛化能力。提出了手写体乐谱谱线删除模型,实现了99.3%的删除准确率,在实时性上完成一张1024*2048大小的乐谱图像仅需14.85秒,相较于前文所提模型在实时性上大幅提高。
-
-
-
-
-