-
公开(公告)号:CN114925238A
公开(公告)日:2022-08-19
申请号:CN202210849763.8
申请日:2022-07-20
Applicant: 山东大学
IPC: G06F16/783 , G06F16/78 , G06N3/04 , G06N3/08 , G06N20/00
Abstract: 本发明提供了一种基于联邦学习的视频片段检索方法及系统,属于联邦学习技术领域,所述方案通过采用基于串行学习策略的联邦学习方法,有效提高了视频检索模型的训练效率,解决了现有集中式进行模型训练花费巨大的数据传输成本和存储成本,以及容易造成隐私泄露的问题;所述方案在局部模型聚合阶段,通过客户端之间的验证集定量地测量局部模型的性能进而更好地指导模型聚合,提升了模型性能;所述方案通过将提出的分布差异损失引入到基于联邦学习的视频分析技术中,使局部模型的预测分布努力逼近总体样本的实际分布,能进一步提升模型性能。
-
公开(公告)号:CN114581906B
公开(公告)日:2022-08-05
申请号:CN202210483188.4
申请日:2022-05-06
Applicant: 山东大学
Abstract: 本发明涉及数据识别技术领域,本发明公开了自然场景图像的文本识别方法及系统,其中所述方法包括:获取待识别的自然场景图像;对待识别的自然场景图像,采用训练后的深度学习模型进行文本识别,得到识别的文本;其中,深度学习模型,首先对待识别的自然场景图像进行矫正处理,然后对矫正后的提取出图像的特征向量;再从图像的特征向量中,分别提取出视觉特征和语义特征,并对两种特征进行特征融合,最后对融合后的特征进行文本识别。本发明可以识别任意形状的场景文本,应用场景广泛,模型的泛化能力强,可以运用于多种文本识别的场景。
-
公开(公告)号:CN114581906A
公开(公告)日:2022-06-03
申请号:CN202210483188.4
申请日:2022-05-06
Applicant: 山东大学
Abstract: 本发明涉及数据识别技术领域,本发明公开了自然场景图像的文本识别方法及系统,其中所述方法包括:获取待识别的自然场景图像;对待识别的自然场景图像,采用训练后的深度学习模型进行文本识别,得到识别的文本;其中,深度学习模型,首先对待识别的自然场景图像进行矫正处理,然后对矫正后的提取出图像的特征向量;再从图像的特征向量中,分别提取出视觉特征和语义特征,并对两种特征进行特征融合,最后对融合后的特征进行文本识别。本发明可以识别任意形状的场景文本,应用场景广泛,模型的泛化能力强,可以运用于多种文本识别的场景。
-
公开(公告)号:CN113326289A
公开(公告)日:2021-08-31
申请号:CN202110878050.X
申请日:2021-08-02
Applicant: 山东大学
IPC: G06F16/2453 , G06N3/04
Abstract: 本发明提出了面向携带新类别的增量数据的快速跨模态检索方法及系统,包括:增量哈希学习步骤:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;哈希函数学习步骤:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型。可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码,从而可以满足快速训练的模式要求。
-
公开(公告)号:CN113255669A
公开(公告)日:2021-08-13
申请号:CN202110715820.9
申请日:2021-06-28
Applicant: 山东大学
Abstract: 本发明公开了任意形状自然场景文本检测方法及系统,包括:获取待文本检测图像;将待文本检测图像,输入到训练后的检测模型,得到最终的检测框;对得到的最终检测框进行后处理,形成文本区域;其中,检测模型,通过分类得分和掩码得分,对候选检测框进行筛选,得到最终的检测框。本发明设计了掩码注意力模块用于连接掩码生成过程和掩码质量评分过程,掩码注意力模块对于掩码得分的预测是有积极效果的。
-
公开(公告)号:CN111652332B
公开(公告)日:2021-05-11
申请号:CN202010526123.4
申请日:2020-06-09
Applicant: 山东大学
Abstract: 本公开公开了基于二分类的深度学习手写中文字符识别方法及系统,包括:将待识别图像输入到预训练好的基于二分类的深度学习手写中文字符识别模型中,其中,预训练好的基于二分类的深度学习手写中文字符识别模型,包括:主体识别网络模型和汉字标点二分类模型,主体识别网络模型和汉字标点二分类模型的输出端均与乘法器连接;主体识别网络模型对待识别图像进行字符识别,汉字标点二分类模型对待识别图像进行汉字标点二分类识别;乘法器将字符识别概率和二分类识别概率进行相乘后,输出最终的待识别图像的识别结果。
-
公开(公告)号:CN111639646B
公开(公告)日:2021-04-13
申请号:CN202010418152.9
申请日:2020-05-18
Applicant: 山东大学
Abstract: 本公开提供了一种基于深度学习的试卷手写英文字符识别方法及方法,属于图像识别技术领域,获取待识别试卷图像;对获取的图像进行切割,得到试卷图像中的单词图像,利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词;本公开采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了良好的分割效果,并有效提高了单词识别的准确率。
-
公开(公告)号:CN111639240B
公开(公告)日:2021-04-09
申请号:CN202010408302.8
申请日:2020-05-14
Applicant: 山东大学
IPC: G06F16/903 , G06F16/9035 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于注意力感知机制的跨模态哈希检索方法及系统,包括:对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;将跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;根据由优化后的哈希学习模型得到的待测数据的哈希码,在与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。将注意力机制应用于跨模态哈希检索任务中,提出注意力感知机制的新型注意力方法,实现对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强,提高哈希码的生成质量。
-
公开(公告)号:CN111639197B
公开(公告)日:2021-03-12
申请号:CN202010466838.5
申请日:2020-05-28
Applicant: 山东大学
IPC: G06F16/43
Abstract: 本发明公开了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中求取多媒体训练数据的哈希编码;根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;根据投影矩阵和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,从多媒体训练数据中获取与待检索样本相似的样本。
-
公开(公告)号:CN119360827A
公开(公告)日:2025-01-24
申请号:CN202411285109.4
申请日:2024-09-13
Applicant: 山东大学
Abstract: 本发明公开一种英语口语识别方法、系统、设备、介质及程序产品,涉及语音识别技术领域,包括:对音频特征提取时间特征和频率特征;对时间特征和频率特征通过维度变换并行计算时间维度和频率维度的依赖性,对时间依赖性特征和频率依赖性特征通过交叉注意力模块进行融合,采用三阶段编码器进行渐进式下采样处理,且第一阶段采用分组多头自注意力机制沿时间维度进行分组计算,最后经解码得到语音识别结果,关注语音特征的时频特性,提高模型计算效率。
-
-
-
-
-
-
-
-
-