-
公开(公告)号:CN119862304A
公开(公告)日:2025-04-22
申请号:CN202411773122.4
申请日:2024-12-04
Applicant: 中山大学
IPC: G06F16/783 , G06F16/735 , G06F16/738 , G06V20/40 , G06V10/82 , G06N3/0464 , G06F18/25
Abstract: 本发明公布了一种视频时刻检索和高光片段检测方法,包括:使用预训练的特征提取网络提取视频中的原始特征,将其通过特征激活层和空洞卷积层,采用卷积驱动的多模态融合模块进行跨模态特征融合;利用给定的视频‑文本对生成负样本对,并借助正负样本之间的差异辅助训练;通过显著性预测头和特征解码器,计算时刻检索的区间与高光检测的显著性分数以计算损失,并生成模型整体损失函数;最后通过损失训练优化模型,生成预测结果。本发明充分利用了各模态之间的互补性,从而提高了模型对数据的理解和表征能力。与传统模型相比,本发明采用的方法显著地降低了计算量和参数量,能够充分利用模态互补性,提高了模型的精确度。
-
公开(公告)号:CN118471479A
公开(公告)日:2024-08-09
申请号:CN202410687922.8
申请日:2024-05-30
Applicant: 中山大学
Abstract: 本发明公开了一种基于区块链的健康数据联邦学习方法与系统。包括:初始化全局模型,部署智能合约,设定训练结束条件,并将初始化的全局模型发送给所有参与方;重复以下2步直到满足结束训练条件并将训练后的全局模型发送给参与方:一,参与方使用本地数据对初始化的本地模型进行训练并加密,将其上传到区块链;二,区块链对加密的本地模型执行验证任务、计算准确率并保留准确率高的本地模型,智能合约更新全局模型,发放激励,并将更新的全局模型发送给参与方,计算新的全局模型预测准确率;参与方应用训练后的全局模型。本发明能够降低单点故障风险,保护数据隐私,吸引更多训练参与方,使全局模型具有更高的准确性和泛化能力。
-
公开(公告)号:CN114896450B
公开(公告)日:2024-05-10
申请号:CN202210393679.X
申请日:2022-04-15
Applicant: 中山大学
IPC: G06F16/732 , G06F16/78 , G06F40/216 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades‑STA数据集筛选并输入视频片段和查询文本;提取视频特征和文本特征;利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征;利用Transformer将获取的各组特征分别进行对齐;修正全局的视频‑文本语义表示;将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络,回归目标视频片段的精确位置。本发明基于深度学习的方法,设计了一个多层次视频‑文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,能够很好地提高视频时刻检索的精度。
-
公开(公告)号:CN117789244A
公开(公告)日:2024-03-29
申请号:CN202311547191.9
申请日:2023-11-17
Applicant: 中山大学
Abstract: 本发明公开了一种基于知识蒸馏的人体解析方法,包括:对人体图像和解析图像进行数据增强与处理,利用边缘编码器、姿态编码器、解析编码器和异构非局部模块分别生成边缘标签、姿态特征、粗略的解析特征和精细化解析特征,利用上述解析特征分别计算学生模型的总解析损失和蒸馏损失,二者共同构成了学生模型的整体损失函数,利用该整体损失函数对学生模型参数进行训练和优化,输出训练好的学生模型和最终的解析预测图像。本发明还公开了一种基于知识蒸馏的人体解析系统。本发明将知识蒸馏和人体解析加以结合,充分利用了人体解析任务特有的人体姿态、边缘等先验信息,利用知识蒸馏的方法在确保精确度的前提下最大限度地提升了模型的解析速度。
-
公开(公告)号:CN112633241B
公开(公告)日:2023-06-30
申请号:CN202011638105.1
申请日:2020-12-31
Applicant: 中山大学
IPC: G06V20/40 , G06V10/25 , G06V10/774 , G06V10/764 , G06V10/80 , G06F40/289
Abstract: 本发明公开了一种基于多特征融合和随机森林模型的新闻故事分割方法。首先以新闻视频作为输入源,进行视觉特征提取和听觉特征提取,包括新闻主题字幕特征提取、直播间特征提取、镜头切换特征提取和静音区特征提取;其次对新闻视频进行语音识别,获得语音识别结果,确定具体候选边界点;接着将语音识别结果作为输入,进行语义特征提取,包括概要匹配特征提取、语义相似度特征提取和文本深度特征提取;再次手动标注新闻视频特征对随机森林模型进行训练,将提取的视频特征值和具体候选边界输入训练好的模型进行目标视频的二分类任务,归类结果为新闻故事单元边界和非边界;最后以归类结果对目标视频进行分割,获得最终的新闻视频故事单元。
-
公开(公告)号:CN113808039B
公开(公告)日:2023-06-27
申请号:CN202111053323.3
申请日:2021-09-09
Applicant: 中山大学
IPC: G06T5/00 , G06N3/0464 , G06N3/0455 , G06N3/096
Abstract: 本发明公开了基于高斯过程映射的迁移学习去雾方法与系统。包括:数据集收集和处理,搭建去雾网络包括编码器模块和解码器模块,通过将有雾图和无雾图输入,获得相应的编码器、解码器参数,进行高斯迁移计算,得到预测值,最终得到去雾图。本发明提供一种能够通过基于高斯过程的迁移学习进行去雾的框架,解决数据域漂移带来的在合成数据上训练模型存在偏差的问题,同时通过迁移学习以及在隐空间中建立函数关系来实现有雾图和无雾图在神经网络上的重建,神经网络的参数可以视为将两个数据域参数化,同时将隐空间中的特征以向量形式储存。在隐空间中建立映射,解决卷积的特征空间难以建立函数关系的问题。
-
公开(公告)号:CN113111817B
公开(公告)日:2023-06-27
申请号:CN202110427382.6
申请日:2021-04-21
Applicant: 中山大学
IPC: G06V40/16 , G06V10/26 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了语义分割的人脸完整度度量方法。包括:训练人脸检测深度神经网络模型与人脸语义分割深度神经网络模型,之后把待检测图像输入到人脸检测深度神经网络模型,得到待检测图像人脸区域;将人脸区域输入到人脸语义分割深度神经网络模型,得到人脸区域中每个像素的语义分类结果,并进行统计,用未遮挡人脸的像素点总数和遮挡物的像素点总数计算出人脸完整度。本发明还公开了语义分割的人脸完整度度量系统、计算机设备及计算机可读存储介质。本发明使用深度学习和图像语义分割技术,能够得到人脸部分图像精确的、像素级别的分类结果,使人脸遮挡检测结果更加准确,计算得到的遮挡比例能够很好地度量人脸完整度。
-
公开(公告)号:CN116011586A
公开(公告)日:2023-04-25
申请号:CN202211731714.0
申请日:2022-12-30
Applicant: 中山大学
Abstract: 本发明涉及跨媒介数据处理技术领域,公开了一种基于跨媒介数据的联合学习方法,包括如下步骤:S1、获取跨媒介数据,输出对应的多种单模态数据Token序列;S2、根据多种单模态数据Token序列,生成多种单模态语义表示特征;S3、根据多种单模态数据Token序列,生成多模态语义表示特征;S4、将多种单模态语义表示特征和多模态语义表示特征直接拼接,输出多模态混合表示矩阵;S5、将多模态混合表示矩阵进行聚合,输出最终的跨媒介联合表示特征;S6、建立跨媒介联合学习模型,对跨媒介联合学习模型进行训练;S7、将待表达的跨媒介数据输入训练好的跨媒介联合学习模型,输出跨媒介联合表达特征。本发明可更好地利用跨媒介数据之间的差异性以及减少计算成本。
-
公开(公告)号:CN112004164B
公开(公告)日:2023-02-21
申请号:CN202010628371.X
申请日:2020-07-02
Applicant: 中山大学
IPC: H04N21/8549 , H04N21/234 , H04N21/44 , H04N21/2343 , H04N21/4402 , G10L15/26 , G06V20/40 , G06V10/762 , G06V10/56
Abstract: 本发明公开了一种视频海报自动生成方法。本发明从视频中提取必要的视频内容信息,包括:视频标题、音频文本、视频帧、视觉文本;对所述音频文本进行主题分割得到视频正文,将所述音频文本结合所述视觉文本提取视频关键词,利用所述音频文本生成视频梗概,对所述视频帧进行关键帧提取得到视频图;根据所述视频标题、所述视频梗概、所述视频关键词、所述视频正文、所述视频图,根据布局排版方法,生成一张视频海报。本发明可以将每个视频都转换成视频海报,上面不但有着视频的完整内容,还有能概括视频内容的梗概和关键词,将极大地提高人们获取视频内容的速度,方便人们的日常生活。另外,还可以仅仅根据视频就生成报纸。
-
公开(公告)号:CN115358985A
公开(公告)日:2022-11-18
申请号:CN202210985010.X
申请日:2022-08-17
Applicant: 中山大学
IPC: G06T7/00 , G06V10/764 , G06V10/774 , G06V10/42 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多尺度冗余卷积的肺部结节假阳性鉴别方法与系统。首先从肺部结节CT影像数据库中得到训练集;将训练集中的数据输入多尺度冗余卷积神经网络的冗余卷积层、Maxout模块得到关键特征图;将关键特征图输入到多尺度卷积层,得到多尺度特征图;将多尺度特征图依次输入激活函数、池化层、全连接层,经过Softmax函数的处理得出样本为假阳性样本以及阳性样本的概率;概率即可判断是否为肺部结节假阳性样本。本发明可以自动对不同种类的肺部结节的输入数据筛选关键特征,从而更加有效地从混合数据集中训练出预测网络;本发明可以自适应不同实际大小肺部结节的输入数据,在提高准确率的同时,不需要按照不同的样本尺寸训练多个网络模型。
-
-
-
-
-
-
-
-
-