-
公开(公告)号:CN111967533B
公开(公告)日:2022-09-23
申请号:CN202010913017.1
申请日:2020-09-03
Applicant: 中山大学
IPC: G06V10/75 , G06V10/764 , G06V10/44 , G06V10/56 , G06T7/13 , G06T11/00 , G06T11/80 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于场景识别的草图图像翻译方法。用户在所选取的场景图背景上交互式的逐步绘制草图,系统根据场景识别网络识别出的场景图类别对轮廓草图进行语义匹配得到对象类别,再根据对象类别与草图,利用部分草图形状完成网络与完整图像外观生成网络进行轮廓与外观合成,经过交互式的绘制最终生成需要的前景对象图像。本发明可以允许用户不用进行整个场景级别的草图绘制,只需在现有的场景背景图上描绘前景部分的对象草图,系统会自动进行与背景场景图语义匹配的对象完成,使得最终生成的图像质量与清晰度更高。
-
公开(公告)号:CN114911930A
公开(公告)日:2022-08-16
申请号:CN202210393827.8
申请日:2022-04-15
Applicant: 中山大学
IPC: G06F16/35 , G06F16/332 , G06F16/783 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种全局与局部互补的双向注意的视频问答方法与系统。包括:首先对数据集进行预处理,利用多头自注意力层和卷积层获取具有全局和局部上下文信息的特征,然后利用图注意机制进行聚合,最后通过将获取的特征输入答案预测模块,进行模型训练和预测。本发明利用多头自注意力机制提取完整的全局上下文信息,利用一维卷积神经网络网络提取精确的局部上下文信息,实现更加完整和精确的特征提取。同时,本发明以不同的顺序堆叠多头自注意力层和一维卷积层,使全局信息和局部信息相互补充与融合,实现了特征表示的多步推理过程。本发明通过对答案预测模块的修改,能够在多项视频问答任务中发挥作用,提高精确度,也拓展了应用场景。
-
公开(公告)号:CN114896450A
公开(公告)日:2022-08-12
申请号:CN202210393679.X
申请日:2022-04-15
Applicant: 中山大学
IPC: G06F16/732 , G06F16/78 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades‑STA数据集筛选并输入视频片段和查询文本;提取视频特征和文本特征;利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征;利用Transformer将获取的各组特征分别进行对齐;修正全局的视频‑文本语义表示;将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络,回归目标视频片段的精确位置。本发明基于深度学习的方法,设计了一个多层次视频‑文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,能够很好地提高视频时刻检索的精度。
-
公开(公告)号:CN114461890A
公开(公告)日:2022-05-10
申请号:CN202111531155.4
申请日:2021-12-15
Applicant: 中山大学 , 广东融谷创新产业园有限公司
IPC: G06F16/9532 , G06F16/35 , G06F16/583 , G06F40/194 , G06F40/247 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种分层多模态的知识产权搜索引擎方法。包括:预处理输入图像;将输入图像输入到分层深度图像检索模型,得到图像检索结果;将数据集中文本字段输入道文本语义检索模型,得到文本检索结果;将所述文本检索结果输入到相似知识产权推荐模型,得到相似推荐结果;将上述所述图像检索结果,文本检索结果与相似推荐结果进行多模态结果融合,得到融合文本结果,将融合文本结果与用户输入的查询文本进行重新排序,得到最终的检索结果。本发明还公开了分层多模态的知识产权搜索引擎系统。本发明通过分层深度图像检索模型,文本语义检索模型提高检索的速度又保持检索的精度,相对于论文的搜索方法,该方案能更好表达用户检索需求。
-
公开(公告)号:CN108427738B
公开(公告)日:2022-03-25
申请号:CN201810171374.8
申请日:2018-03-01
Applicant: 中山大学
IPC: G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明实施例公开了一种基于深度学习的快速图像检索方法,其中,该方法包括:从图像数据库中随机生成两张图像作为网络的输入,一张作为查询图像,一张作为样本图像,其中每张图片都包括对应的类别标签;构建卷积神经网络,该网络包括三组卷积池化层和两组全连接层;利用训练样本集随机组合成数据对根据卷积网络进行训练,得到相应的哈希编码并计算两者之间的欧几里得距离;计算卷积网络输出值的误差函数,对卷积神经网络进行训练,利用反向传播算法和随机梯度下降法更新网络参数;获得训练数据集的二值编码后,对其按欧几里得距离从小到大排序,按顺序输出检索结果。在本发明实施例中,能够解决现有技术检索速度慢、占用内存空间大、检索结果不精确的问题,大大提高了图像检索的时空效率。
-
公开(公告)号:CN109344280B
公开(公告)日:2021-09-17
申请号:CN201811192651.X
申请日:2018-10-13
Applicant: 中山大学
IPC: G06F16/532 , G06F16/51
Abstract: 本发明实施例公开了一种基于图模型的流程图检索方法及系统,其中,该方法包括:建立流程图存储数据库,对其流程图进行检测,获得对应的图形化元素及文本信息,进行计算,获得带权无向图的图模型;根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图进行检测,获取对应的图形化元素及文本信息进行转换处理,获得所述用户输入的流程图的带权无向图作为图模型;结合数据库中的图模型进行计算出最优匹配矩阵,获得两者之间的相似度;根据相似度的高低,将结果排序输出给用户。实施本发明实施例,能够提升和扩展了流程图本身的内部的语义内容及其关系,提高了流程图相似性度量方法的精度。当考虑图像所蕴含的上下文语境信息时,可以在信息检索领域,为流程图的检索提供有益的帮助,增强检索的准确度与效率。
-
公开(公告)号:CN113111817A
公开(公告)日:2021-07-13
申请号:CN202110427382.6
申请日:2021-04-21
Applicant: 中山大学
Abstract: 本发明公开了语义分割的人脸完整度度量方法。包括:训练人脸检测深度神经网络模型与人脸语义分割深度神经网络模型,之后把待检测图像输入到人脸检测深度神经网络模型,得到待检测图像人脸区域;将人脸区域输入到人脸语义分割深度神经网络模型,得到人脸区域中每个像素的语义分类结果,并进行统计,用未遮挡人脸的像素点总数和遮挡物的像素点总数计算出人脸完整度。本发明还公开了语义分割的人脸完整度度量系统、计算机设备及计算机可读存储介质。本发明使用深度学习和图像语义分割技术,能够得到人脸部分图像精确的、像素级别的分类结果,使人脸遮挡检测结果更加准确,计算得到的遮挡比例能够很好地度量人脸完整度。
-
公开(公告)号:CN112040313B
公开(公告)日:2021-04-09
申请号:CN202011217518.2
申请日:2020-11-04
Applicant: 中山大学深圳研究院
Inventor: 周凡
IPC: H04N21/44 , H04N21/439 , H04N21/234 , H04N21/233 , G10L15/26 , G10L15/04 , G10L25/57 , G06K9/62 , G06K9/46
Abstract: 本申请适用于视频处理技术领域,提供了一种视频内容结构化方法、装置、终端设备及介质,所述方法包括:获取目标视频的视觉通道信息,基于所述视觉通道信息将所述目标视频划分为多个场景单元,所述多个场景单元包括多个场景边界;将所述目标视频的语音转换为语音文本,并将所述语音文本分割为多个文本块;基于所述多个文本块,将所述目标视频划分为多个语音单元,所述多个语音单元包括多个语音边界;根据所述多个场景边界和所述多个语音边界,确定所述目标视频的视频主题边界;根据所述视频主题边界,将所述目标视频划分为多个主题单元。通过上述方法,能够提高视频内容结构化的准确性。
-
公开(公告)号:CN111260560B
公开(公告)日:2020-12-22
申请号:CN202010098595.4
申请日:2020-02-18
Applicant: 中山大学
Abstract: 本发明公开了一种融合注意力机制的多帧视频超分辨率方法,包括:采集视频数据并采用视频增强技术对视频数据进行训练以生成训练集及测试集;连接变形卷积特征对齐模块及特征重建模块以构成多帧超分辨率网络,采用训练集对多帧超分辨率网络进行训练;将3D卷积特征对齐模块加入多帧超分辨率网络中,采用训练集对多帧超分辨率网络进行训练;将特征融合模块加入多帧超分辨率网络中,采用训练集对多帧超分辨率网络进行训练;采用训练集对多帧超分辨率网络进行微调以生成多帧超分辨率模型;采用测试集对多帧超分辨率模型进行测试。本发明可通过对大数据的分析有效提高超分辨率效果。
-
公开(公告)号:CN112040313A
公开(公告)日:2020-12-04
申请号:CN202011217518.2
申请日:2020-11-04
Applicant: 中山大学深圳研究院
Inventor: 周凡
IPC: H04N21/44 , H04N21/439 , H04N21/234 , H04N21/233 , G10L15/26 , G10L15/04 , G10L25/57 , G06K9/62 , G06K9/46
Abstract: 本申请适用于视频处理技术领域,提供了一种视频内容结构化方法、装置、终端设备及介质,所述方法包括:获取目标视频的视觉通道信息,基于所述视觉通道信息将所述目标视频划分为多个场景单元,所述多个场景单元包括多个场景边界;将所述目标视频的语音转换为语音文本,并将所述语音文本分割为多个文本块;基于所述多个文本块,将所述目标视频划分为多个语音单元,所述多个语音单元包括多个语音边界;根据所述多个场景边界和所述多个语音边界,确定所述目标视频的视频主题边界;根据所述视频主题边界,将所述目标视频划分为多个主题单元。通过上述方法,能够提高视频内容结构化的准确性。
-
-
-
-
-
-
-
-
-