基于多尺度的简易数学表达式检测方法

    公开(公告)号:CN114998590B

    公开(公告)日:2024-07-09

    申请号:CN202210684579.2

    申请日:2022-06-17

    申请人: 东南大学

    发明人: 朱启鹏 薛晖

    摘要: 本发明公开了一种基于多尺度的简易数学表达式检测方法,包括低消耗模式和高性能模式两种模式可供选择:低消耗模式采用轻量化模型,根据简易数学表达式的原始图像,提取语义特征并做尺度的特征融合,直接输出数学表达式检测矩形框,完成数学表达式的检测;高性能模式采用粗粒度高性能模型进行简易数学表达式的检测,对检测框的重叠区域进行过滤;再将检测结果输入细粒度高性能模型进行字符层级检测;最后聚合粗粒度高性能模型检测结果以及细粒度高性能检测结果,得到简易数学表达式以及字符检测的输出结果。本方法针对用户的不同需求,在低消耗需求下,能够尽量满足检测精度需求;在高性能需求下,输出更详细的检测结果。

    一种基于深度核映射网络的非对齐时序多模态情感分析方法

    公开(公告)号:CN114626456A

    公开(公告)日:2022-06-14

    申请号:CN202210246289.X

    申请日:2022-03-14

    申请人: 东南大学

    发明人: 李恒宇 薛晖

    IPC分类号: G06K9/62 G06N3/04

    摘要: 本发明公开了一种基于深度核映射网络的非对齐时序多模态情感分析的方法,包括如下步骤:1)利用深度核映射网络提取多模态数据的时序特征;2)利用DK‑Transformer模型进行多模态数据的细粒度语义对齐;3)利用双向门控循环单元融合多模态特征;4)将处理后的多模态特征输入情感分类器中,得到情感分类结果,深度核映射网络可以紧凑表示输入数据的动态特征和长程远距的时序关系,能够有效解决非对齐时序多模态情感分析问题中尚存的问题,提升了非对齐时序多模态情感分类的性能,可直接对新的多模态数据进行情感分类,有效地解决了这类问题中模态时序特征缺失、模型计算复杂的问题,提高了非对齐时序多模态情感分析的性能。

    一种基于不定核的多视图分类方法

    公开(公告)号:CN104809468A

    公开(公告)日:2015-07-29

    申请号:CN201510188546.9

    申请日:2015-04-20

    申请人: 东南大学

    发明人: 薛晖

    IPC分类号: G06K9/62

    摘要: 本发明公布了一种基于不定核的多视图分类方法,该方法包括如下步骤:1)获取用于训练的多视图图像集;2)利用多视图数据生成投影矩阵,将不同视图数据投影到统一的低维空间;3)利用不定核技术对低维投影空间中的样本进行训练,得到分类器;4)规范化新的多视图数据集,将数据集投影到训练得到的低维空间,并把投影后的数据集输入到训练得到的分类器中,得到分类结果。本发明将需要解决的标号不完整多视图分类问题转化为在统一低维空间中的单视图半监督分类问题,可实现在单视图上的标号完整;充分利用了有标号数据的判别信息以及无标号数据的结构信息,提升了分类器性能;并且可直接对新的多视图数据进行测试和分类。

    基于深度学习的小学生数学算式识别及自动批改方法

    公开(公告)号:CN115346221A

    公开(公告)日:2022-11-15

    申请号:CN202210783495.4

    申请日:2022-07-05

    申请人: 东南大学

    发明人: 罗卓彦 薛晖

    摘要: 本发明公开了一种基于深度学习的小学生数学算式识别及自动批改方法,首先对含算式图像进行预处理,滤除冗余的边框信息,其次利用基于数据增广训练的BTTR模型进行算式的识别,最后利用涵盖多种数学题目类型的批改模板对识别结果进行批改,完成多种题型的自动批改。本发明实现由数学算式输入到批改结果输出的过程,基于Transformer的序列模型能够解决识别时字符级噪音及长序列依赖的问题,结合数据增广的训练方式有效地提升模型的泛化能力,多样化的模板能够匹配不同类型的算式,最终实现一种功能强大的小学生数学作业自动识别与批改的方法。

    基于多尺度的简易数学表达式检测方法

    公开(公告)号:CN114998590A

    公开(公告)日:2022-09-02

    申请号:CN202210684579.2

    申请日:2022-06-17

    申请人: 东南大学

    发明人: 朱启鹏 薛晖

    摘要: 本发明公开了一种基于多尺度的简易数学表达式检测方法,包括低消耗模式和高性能模式两种模式可供选择:低消耗模式采用轻量化模型,根据简易数学表达式的原始图像,提取语义特征并做尺度的特征融合,直接输出数学表达式检测矩形框,完成数学表达式的检测;高性能模式采用粗粒度高性能模型进行简易数学表达式的检测,对检测框的重叠区域进行过滤;再将检测结果输入细粒度高性能模型进行字符层级检测;最后聚合粗粒度高性能模型检测结果以及细粒度高性能检测结果,得到简易数学表达式以及字符检测的输出结果。本方法针对用户的不同需求,在低消耗需求下,能够尽量满足检测精度需求;在高性能需求下,输出更详细的检测结果。

    面向复杂数据的混合范数多不定核分类方法

    公开(公告)号:CN106022382A

    公开(公告)日:2016-10-12

    申请号:CN201610356544.0

    申请日:2016-05-26

    申请人: 东南大学

    发明人: 薛晖

    IPC分类号: G06K9/62

    CPC分类号: G06K9/6227 G06K9/6267

    摘要: 本发明公开了一种面向复杂数据的混合范数多不定核分类方法,包括以下步骤:(1)获取用于训练分类器的复杂数据;(2)预处理:通过多个核函数将复杂数据转换成训练分类器所需要的核矩阵;(3)模型设计:通过约束多类核间隔和采用多类Hinge‑loss损失函数来设计分类器模型;(4)模型构建:在多类核间隔和多类Hinge‑loss损失函数的基础上,利用不定核技术构造一个更有效的核组合;通过引入类间差异性来提高模型的灵活性;利用混合范数lg,2‑范数(0<g≤1)的稀疏性来降低模型的复杂度;(5)将新的复杂数据输入训练得到的分类器中,得到最终的分类结果。本发明提升了分类器在面对复杂数据时的分类能力和效率。

    一种基于深度核映射网络的非对齐时序多模态情感分析方法

    公开(公告)号:CN114626456B

    公开(公告)日:2024-07-09

    申请号:CN202210246289.X

    申请日:2022-03-14

    申请人: 东南大学

    发明人: 李恒宇 薛晖

    摘要: 本发明公开了一种基于深度核映射网络的非对齐时序多模态情感分析的方法,包括如下步骤:1)利用深度核映射网络提取多模态数据的时序特征;2)利用DK‑Transformer模型进行多模态数据的细粒度语义对齐;3)利用双向门控循环单元融合多模态特征;4)将处理后的多模态特征输入情感分类器中,得到情感分类结果,深度核映射网络可以紧凑表示输入数据的动态特征和长程远距的时序关系,能够有效解决非对齐时序多模态情感分析问题中尚存的问题,提升了非对齐时序多模态情感分类的性能,可直接对新的多模态数据进行情感分类,有效地解决了这类问题中模态时序特征缺失、模型计算复杂的问题,提高了非对齐时序多模态情感分析的性能。

    基于自动检测筛查的场景文本检索方法、装置及存储介质

    公开(公告)号:CN117891967A

    公开(公告)日:2024-04-16

    申请号:CN202410055912.2

    申请日:2024-01-15

    申请人: 东南大学

    发明人: 薛晖 方骏 朱士鹏

    摘要: 本发明涉及一种基于自动检测筛查的场景文本检索方法、装置及存储介质,分别提取场景图像和查询文本的特征并计算特征相似度,总共包括图像分支模型、自动检测筛查模型和文本分支模型,首先使用图像分支模型检测出场景图像中的类文本实例并抽取特征,并用自动检测筛查模型删除类文本实例中所有的非文本实例,保留真文本特征,查询文本送入文本分支模型中抽取特征,利用分布相似度度量损失函数和多粒度文本预测损失函数共同指导上述模型的训练;在推理过程中使用图像分支模型生成的特征和文本分支模型生成的特征计算相似度,以相似度分数为依据检索出所需场景文本图像实例。与现有技术相比,本发明使用自动检测筛查模型删除干扰检索的非文本实例,并通过改进损失函数,加速相似度学习的过程,提升相似度计算的准确性,更加高效地实现场景文本检索。

    一种基于层间互信息的图对比学习方法及系统

    公开(公告)号:CN114662687B

    公开(公告)日:2024-04-16

    申请号:CN202210263886.3

    申请日:2022-03-15

    申请人: 东南大学

    发明人: 张璐 薛晖

    IPC分类号: G06N3/0895 G06N3/0464

    摘要: 本发明公开了一种基于层间互信息的图对比学习方法及系统。所述系统包括据预处理模块、网络模型模块、训练控制模块、性能验证模块,所述数据预处理模块用于将待解决非欧式集合输出抽象为图数据并符号化表示;所述网络模型模块代表图神经网络模型的前向传播计算过程;所述训练控制模块负责根据网络模型模块的生成结果计算对应的对比损失函数值,控制梯度下降和反向传播过程,以及设定训练模型中止条件;所述性能验证模块使用节点分类器通过图点分类任务评估和验证所发明的基于层间互信息的图对比学习方法的质量。本发明充分考虑了深度图神经网络的特性,根据提出的层间互信息概念,改进了传统框架中图增强过程存在的缺陷。

    一种基于层间互信息的图对比学习方法及系统

    公开(公告)号:CN114662687A

    公开(公告)日:2022-06-24

    申请号:CN202210263886.3

    申请日:2022-03-15

    申请人: 东南大学

    发明人: 张璐 薛晖

    IPC分类号: G06N3/08

    摘要: 本发明公开了一种基于层间互信息的图对比学习方法及系统。所述系统包括据预处理模块、网络模型模块、训练控制模块、性能验证模块,所述数据预处理模块用于将待解决非欧式集合输出抽象为图数据并符号化表示;所述网络模型模块代表图神经网络模型的前向传播计算过程;所述训练控制模块负责根据网络模型模块的生成结果计算对应的对比损失函数值,控制梯度下降和反向传播过程,以及设定训练模型中止条件;所述性能验证模块使用节点分类器通过图点分类任务评估和验证所发明的基于层间互信息的图对比学习方法的质量。本发明充分考虑了深度图神经网络的特性,根据提出的层间互信息概念,改进了传统框架中图增强过程存在的缺陷。