-
公开(公告)号:CN111967487A
公开(公告)日:2020-11-20
申请号:CN202010563289.3
申请日:2020-06-19
Applicant: 同济大学
IPC: G06K9/62 , G06F40/216 , G06F16/332 , G06N3/04
Abstract: 本发明涉及一种用于视觉问答模型训练的增量型数据增强方法,该方法包括:获取原始训练数据集,该数据集中的训练样本的形式为 ,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。与现有技术相比,本发明具有实现数据多样性、效率佳、简单等优点。
-
公开(公告)号:CN111814946A
公开(公告)日:2020-10-23
申请号:CN202010563287.4
申请日:2020-06-19
Applicant: 同济大学
Abstract: 本发明涉及一种基于多体进化的图像描述自动生成方法,该方法构建一图像描述模型种群,对待识别图像进行图像描述的自动生成,所述图像描述模型种群通过以下步骤获得:获得初始模型种群,种群中每个个体均为一图像描述模型;对所述初始模型种群进行迭代变异进化操作,每次迭代中选择个体适应度高的N个个体组成新种群,直至满足进化终止条件,获得最终的图像描述模型种群。与现有技术相比,本发明具有极大地降低了模型设计的人力和时间成本,准确度高等优点。
-
公开(公告)号:CN110176023A
公开(公告)日:2019-08-27
申请号:CN201910356481.2
申请日:2019-04-29
Applicant: 同济大学
Abstract: 本发明涉及一种基于金字塔结构的光流估计方法,包括以下步骤:构建空间金字塔孪生网络模型;构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;在光流训练集中获取一组图片对和对应的光流标签;采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;在光流测试集上,使用该空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。与现有技术相比,本发明具有准确度高、效率高等优点。
-
公开(公告)号:CN110033008A
公开(公告)日:2019-07-19
申请号:CN201910357364.8
申请日:2019-04-29
Applicant: 同济大学
Abstract: 本发明涉及一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。与现有技术相比,本发明具有准确度高等优点。
-
公开(公告)号:CN109815903A
公开(公告)日:2019-05-28
申请号:CN201910069977.1
申请日:2019-01-24
Applicant: 同济大学
Abstract: 本发明涉及一种基于自适应融合网络的视频情感分类方法,包括以下步骤:1)构建自适应融合网络模型;2)将输入的视频集人分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,并预测视频情感进行分类。与现有技术相比,本发明具有视频情感识别准确率高、描述视频情感准确、数据输入健壮、鲁棒性好等优点。
-
公开(公告)号:CN105488519B
公开(公告)日:2019-01-25
申请号:CN201510780201.2
申请日:2015-11-13
Applicant: 同济大学
IPC: G06K9/62
Abstract: 本发明涉及一种基于视频尺度信息的视频分类方法,包括步骤:1)将视频数据集划分为训练数据和测试数据,提取每个视频的特征点以及特征点的轨迹,并得到视频的空间尺度以及时间尺度;2)使用基于轨迹使用描述算法,通过计算特征点邻域的梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量,得到特征描述向量;3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半;4)生成视频数据集中每一个视频的费舍尔向量;5)训练得到线性支持向量机分类模型;6)使用线性支持向量机分类模型对测试数据中的视频进行分类。与现有技术相比,本发明具有鲁棒性好,准确度更高等优点。
-
公开(公告)号:CN108052512A
公开(公告)日:2018-05-18
申请号:CN201711073398.1
申请日:2017-11-03
Applicant: 同济大学
Abstract: 本发明涉及一种基于深度注意力机制的图像描述生成方法,所述方法包括:深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。与现有技术相比,本发明具有信息提取有效性强、深度表达能力高以及描述准确等优点。
-
公开(公告)号:CN104036287B
公开(公告)日:2017-05-24
申请号:CN201410208197.8
申请日:2014-05-16
Applicant: 同济大学
IPC: G06K9/62
CPC classification number: G06K9/4642 , G06K9/00342 , G06K9/6269
Abstract: 本发明涉及一种基于人类运动显著轨迹的视频分类方法,包括以下步骤:将视频集M划分成训练集Mt和测试集Mv,使用SIFT和稠密光流技术在多尺度空间上跟踪每一个视频中人类运动信息,获得每一个视频的运动显著轨迹;分别提取每个轨迹的特征描述向量;使用PCA方法消除特征描述向量中的冗余信息,对每一类特征描述向量进行降维;利用高斯混合模型对训练集Mt中的特征描述向量进行聚类,再使用Fisher Vector方法生成视频集M中每一个视频的Fisher向量;在训练集Mt上,构建线性SVM分类模型;在测试集Mv上,使用该线性SVM分类模型对测试集中的视频进行分类。与现有技术相比,本发明具有鲁棒性好、计算效率高等优点。
-
公开(公告)号:CN104794194A
公开(公告)日:2015-07-22
申请号:CN201510186094.0
申请日:2015-04-17
Applicant: 同济大学
IPC: G06F17/30
Abstract: 本发明涉及一种面向大规模多媒体检索的分布式异构并行计算系统,分布式异构计算机集群包括多个计算节点,每个计算节点中包括一种或多种类型的处理器,包括:性能估计模块,用于实时监测并更新不同计算模块在不同处理器上的计算性能;数据切分模块,用于根据用户提供的输入数据读写函数和性能估计模块的监测结果对输入的计算任务进行切分;分级动态调度模块,用于对切分后的计算任务进行调度及负载均衡处理;CHCF算法工具库,用于实现多种多媒体检索算法。与现有技术相比,本发明具有降低多媒体检索应用编写难度、提高分布式异构计算系统效率等优点。
-
公开(公告)号:CN104394405A
公开(公告)日:2015-03-04
申请号:CN201410663061.6
申请日:2014-11-19
Applicant: 同济大学
IPC: H04N17/00
Abstract: 本发明涉及一种基于全参考图像的客观质量评价方法,包括以下步骤:1)获取图库中参考图像r的图像信号sr和与其对应的不同失真类型的失真图像d的图像信号sd;2)根据获取的sr和sd,计算每幅参考图像和失真图像提取向量间的欧几里得距离DLLM;3)根据欧几里得距离DLLM计算得到初步客观评价分数MLLM;4)计算图库中多幅不同失真类型的失真图像的初步客观评价分数MLLM及其主观评价分数,绘制评分散点图;5)在评分散点图中建立基准线,计算每种失真类型图像的调整值offset(xk);6)调整得到待评价的图像的最终客观评价分数与现有技术相比,本发明具有人眼主观评价分高度一致,对各种失真类型有效,拟合曲线连续性良好等优点。
-
-
-
-
-
-
-
-
-