-
公开(公告)号:CN120086651A
公开(公告)日:2025-06-03
申请号:CN202510228414.8
申请日:2025-02-28
Applicant: 中国科学技术大学
IPC: G06F18/24 , G06N3/042 , G06N3/045 , G06N3/0442 , G06N3/048 , G06N3/044 , G06N3/0499 , G06N3/08 , G06Q50/00 , G06F17/16 , G06F17/18
Abstract: 本发明涉及账号检测技术领域,公开了一种基于图混合专家和记忆增强路由的网暴账号检测方法;包括:利用自注意力机制动态构建账号关系图;通过多层图神经网络提取账号关系图的节点特征,并在每层引入专家网络,通过注意力模块生成全局历史时序特征和引入账号标签信息的对齐特征;将时序行为数据组成记忆矩阵,将全局历史时序特征与历史的记忆矩阵拼接,通过多头注意力和门机制更新记忆矩阵并生成路由权重;通过路由权重调整专家网络输出的对齐特征,得到最终的专家特征;将专家特征输入分类模型,通过深度神经网络输出账号的判定结果。本发明通过引入混合专家模型,全面捕捉图结构信息,自适应地处理不同层次的节点特征和历史已探明幕后账号表征,捕捉用户之间复杂的互动关系;引入记忆增强路由模块,有效聚合历史和当前特征。
-
公开(公告)号:CN119832579A
公开(公告)日:2025-04-15
申请号:CN202510311103.8
申请日:2025-03-17
Applicant: 中国科学技术大学
IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种MTU数据解耦合成与模型训练方法、系统、设备及介质,它们是相互对应的方案,方案中:MTU数据合成过程被解耦为表格图像渲染和表格问答对生成两个独立步骤,可以结合收集到的表格数据合成准确的MTU数据,具有成本低、效率高、鲁棒性高的优点,并且,生成的问答对更准确、更连贯,幻觉也明显减少;在此基础上,用于训练MTU模型,可以大大幅度提升多模态表格理解的性能,通过实验表明,本发明使用合成的MTU数据来训练MTU模型,在多个测试集上都取得了最先进的表现,证明了本发明的有效性和泛化性。
-
公开(公告)号:CN119723096A
公开(公告)日:2025-03-28
申请号:CN202510227653.1
申请日:2025-02-27
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种开放词汇图像语义分割方法、系统、设备及存储介质,它们是一一对应的方案,相关方案与传统的方法不同,不仅能够生成准确且多样的识别结果,涵盖了属性和多层次语义信息,并且,通过视觉到语言的学习,具有更强的泛化能力,能够更灵活地处理不同的视觉内容,并能够有效识别开放场景中的目标;通过实验结果表明,本发明的方案可以在多个数据集上提升开放词汇图像语义分割性能,此外,本发明的方案也具有高可扩展性,其有潜力作为一个自动化系统,用于自动化的标注。
-
公开(公告)号:CN119693390A
公开(公告)日:2025-03-25
申请号:CN202411762779.0
申请日:2024-12-03
Applicant: 中国科学技术大学
IPC: G06T7/11 , G06T7/00 , G06V10/40 , G06V10/26 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于大模型的工业异常图像分割方法及系统,涉及人工智能技术领域,包括如下步骤:获取工业异常图像;基于多模态模型获取工业异常图像对应的文本提示;将工业异常图像与文本提示输入到掩码生成器,生成多个分割掩码图像和对应的置信度分数;基于自局部感知器对分割掩码图像进行处理,从而调整掩码编码器,并基于调整后的掩码编码器生成异常分割掩码候选集;基于CLIP文本编码器和CLIP图像编码器得到文本特征和视觉特征,基于文本特征和视觉特征得到最终的异常图;该工业异常图像分割方法及系统,提高了异常图像的检测质量和效率。
-
公开(公告)号:CN118379668A
公开(公告)日:2024-07-23
申请号:CN202410816209.9
申请日:2024-06-24
Applicant: 中国科学技术大学
IPC: G06V20/40 , G06V20/00 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 本发明公开了一种针对时间伪造的定位分析方法、系统、设备及存储介质,它们是一一对应的方案,该方案是一种基于弱监督学习的时间伪造定位方案,可以利用收集到的只有视频级标签的视频数据进行训练,训练完毕后,在测试集上具备伪造片段定位功能,可以节约收集帧级标签所消耗的大量资源,同时,模型中引入的特征优化模块可以提升定位性能,因此,本发明不仅有效地实现了弱监督时间伪造定位,还可以保证时间伪造定位性能。
-
公开(公告)号:CN118378102A
公开(公告)日:2024-07-23
申请号:CN202410815052.8
申请日:2024-06-24
Applicant: 中国科学技术大学
IPC: G06F18/22 , G06F18/2323 , G06F18/25 , G06N3/0455 , G06N3/084 , G06Q50/00
Abstract: 本发明公开了基于网络特性和传播信息联合建模的扩散传播方法,涉及人工智能技术领域,节点动态偏好计算模块在交互图上随时间连续传播和演化的节点偏好变化机理,构建动态节点偏好,然后基于节点动态偏好和图结构使用社区发现算法将节点划分为不同层次,接着利用内容挖掘模块从传播信息内容的多模态信息中提取特征并融合获得信息属性特征表达,再利用自编码器将节点群的节点特征和信息属性特征映射到同一空间并计算节点‑信息匹配度,最后根据节点‑信息匹配度找到每个节点群中的最初始传播节点构建信息传播主干网络,从而实现传播信息内容在社交网络中的高效扩散。
-
公开(公告)号:CN117909535B
公开(公告)日:2024-05-31
申请号:CN202410301227.3
申请日:2024-03-15
Applicant: 中国科学技术大学
IPC: G06F16/583 , G06F40/126 , G06F40/194 , G06F40/30 , G06T9/00
Abstract: 本发明公开了一种基于视觉语言模型的组合理解方法、系统、设备与介质,它们是一一对应的方案,方案中:利用纯视觉大模型与纯语言大模型强大的表示能力提升细粒度视觉编码器和多样化文本编码器表示的细粒度与多样性,显著提升了细节特征的挖掘能力与鲁棒性,随后引入基于采样的去噪项改进对比损失,有效抑制假性负例噪声,同时引入模态内与模态间对比损失,增强模态内一致性与模态间的对齐,有效抑制噪声,提升了表示向量的鲁棒性,因此,可以,显著提升了视觉语言模型的组合理解能力,在多个组合理解数据集上达到了先进水平。
-
公开(公告)号:CN118097798A
公开(公告)日:2024-05-28
申请号:CN202410202737.5
申请日:2024-02-23
Applicant: 中国科学技术大学
IPC: G06V40/40 , G06V20/40 , G06V10/764 , G06V40/16 , G06V10/40
Abstract: 本公开提供了一种多模态人脸篡改视频检测方法和多模态人脸篡改视频检测器训练方法,可以应用于人工智能技术领域。该多模态人脸篡改视频检测方法包括:将待检测视频解码为多个帧图像,得到待检测视频的帧图像集合;将帧图像集合输入至预先训练好的多模态人脸篡改视频检测器,得到待检测视频为真实人脸视频的第一分类概率和待检测视频为篡改人脸视频的第二分类概率,其中,多模态人脸篡改视频检测器包括多模态特征提取器和分类器,多模态特征提取器用于基于帧图像集合提取待检测视频的多模态特征,分类器用于基于多模态特征确定第一分类概率和第二分类概率;基于第一分类概率和第二分类概率,确定待检测视频的人脸篡改视频检测结果。
-
公开(公告)号:CN117912005A
公开(公告)日:2024-04-19
申请号:CN202410313466.0
申请日:2024-03-19
Applicant: 中国科学技术大学
IPC: G06V20/62 , G06V30/164 , G06V30/18 , G06V30/186 , G06V30/19 , G06V10/766 , G06V10/82
Abstract: 本发明公开了一种利用单个标记解码的文本识别方法、系统、设备及介质,它们是一一对应的方案,方案中:在语义特征提取阶段,可以从图像中提取和压缩关键语义特征的有效性,同时过滤掉噪声或不相关的细节;并且设计了一种新颖的向量到序列范式,从全局语义特征中解码出字符预测(即文本识别结果),与传统方法在二维空间框架内分析特征不同,本发明使用全局语义特征,并在通道维度上解码字符信息,此外,将引入了序列语言建模。得益于上述改进,本发明显著提升了模型的场景文本识别性能,在多个数据集上达到了先进水平,特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。
-
公开(公告)号:CN113469197B
公开(公告)日:2024-03-22
申请号:CN202110730062.8
申请日:2021-06-29
Applicant: 北京达佳互联信息技术有限公司 , 中国科学技术大学
IPC: G06V30/18 , G06V30/19 , G06F40/126
Abstract: 本公开提供一种图文匹配方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以至少解决现有技术中无法准确图文匹配结果的问题。该方法包括:获取待分析图像和待分析文本;将待分析图像和待分析文本输入到预先训练好的图文匹配模型,获取图像模态内特征序列和图像短语序列,以及文本模态内特征序列和文本短语序列;图像模态内特征序列包括待分析图像中多个区域的图像模态内特征;文本模态内特征序列包括与待分析文本中每个词语的文本模态内特征;对图像模态内特征序列、图像短语序列、文本模态内特征序列和文本短语序列进行对齐处理,确定待分析图像和待分析文本的匹配结果。
-
-
-
-
-
-
-
-
-