-
公开(公告)号:CN114170099B
公开(公告)日:2025-01-28
申请号:CN202111461936.0
申请日:2021-12-02
Applicant: 中国科学技术大学 , 北京京东尚科信息技术有限公司
Abstract: 本发明公开了一种任意形状场景文字擦除方法、系统、设备与存储介质,相关方法包括:构建级联若干擦除模块的网络结构,渐进式地对文字图像中文字区域进行擦除;其中,第一级擦除模块输入原始图像,后一级擦除模块输入为前一级擦除模块输出的图像以及原始图像,结合原始图像对前一级擦除模块输出的图像进行优化;通过级联的擦除模块迭代的进行文字区域擦除操作,由最后一级擦除模块最终输出文字擦除后的图像。上述方案通过迭代地擦除操作,文字的字迹能够逐步地被擦除,保证了场景文字擦除的彻底性。同时只对文字区域的像素进行修改,有效地保护了背景纹理的完整性。
-
公开(公告)号:CN118428359B
公开(公告)日:2024-09-27
申请号:CN202410885707.9
申请日:2024-07-03
Applicant: 中国科学技术大学
IPC: G06F40/284 , G06F18/214 , G06N3/0499 , G06N3/0895 , G06N3/098
Abstract: 本发明涉及自然语言生成技术领域,公开了一种基于组合采样与联合优化的多属性可控文本生成方法,将属性组合输入不同的可控文本生成方法的生成式语言模型中,生成满足给定的属性的文本;训练过程包括:随机采样训练数据一,计算在生成式语言模型上的损失,得到中间模型;再从训练数据集中采样训练数据二,训练数据二中任意一个属性均在训练数据一中出现,且训练数据二中的属性组合与训练数据一的任意一个属性组合均不相同;计算训练数据二在中间模型上的损失:基于总损失对中间模型进行一步优化,得到最终输出的生成式语言模型。提升了模型面对新属性组合作为控制条件时的泛化能力,进而实现提升多属性可控文本生成方法的组合泛化能力。
-
公开(公告)号:CN118296414B
公开(公告)日:2024-09-27
申请号:CN202410729803.4
申请日:2024-06-06
Applicant: 中国科学技术大学
IPC: G06F18/231 , G06F18/20 , G06F40/284 , G06F40/216 , G06N3/0455 , G06N3/0895 , G06F18/23213 , G06F40/295
Abstract: 本发明涉及自然语言理解技术技术领域,公开了一种基于层级聚类和属性挖掘的可计算价值体系构建方法,包括:层级节点挖掘,将语料数据聚类为四个类别的语料,提取关键词,将所有关键词汇总并去重后得到的关键词作为词节点;基于软硬权重融合的节点关系属性构建;多层级综合知识匹配计算,初始化测试文本的价值分数,提取测试文本中的实体,根据实体对应的词节点的相邻词节点的层级属性,以及词节点间的边对应的权值,计算实体的价值分数,将测试文本中所有实体的价值分数求和,得到测试文本的价值分数。本发明从多层次知识判别的角度提出了基于层级聚类和属性挖掘的可计算价值体系构建方法,按照由粗到细的粒度对输入文本进行价值计算。
-
公开(公告)号:CN118379401B
公开(公告)日:2024-08-20
申请号:CN202410824832.9
申请日:2024-06-25
Applicant: 中国科学技术大学
IPC: G06T13/20 , G06T13/40 , G06V40/16 , G06V10/26 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0475
Abstract: 本发明公开了一种说话人视频合成方法、系统、设备及存储介质,它们是一一对应的方案,方案中:首先,将静态人物肖像图的前景与背景进行了分离,从而能够更多地关注运动范围较大的关键领域;其次,通过金字塔形结构的面部扭曲流场与掩码提高了关键点引导的面部运动的精度,并且通过将身份表征引入合成过程进一步提高了视频中的身份一致性;最后,基于扩散模型无缝地将前景区域与粗糙的背景融合到说话人视频中,实现了更好的生成效果。本发明上述方案成功地缓解了边界伪影问题并提升了说话人视频合成结果中的身份一致性。
-
公开(公告)号:CN118153684B
公开(公告)日:2024-07-30
申请号:CN202410565104.0
申请日:2024-05-09
Applicant: 中国科学技术大学
Abstract: 本发明公开了基于知识驱动的大模型情绪溯源及传播路径分析方法,涉及人工智能技术领域,将事件和用户情绪输送到溯源路径模型中,以输出事件与用户情绪之间的因果关系以及用户情绪传播的最短路径;溯源路径模型的训练过程如下:构建训练集,训练集中包括事件和用户情绪;将事件和用户情绪输送到因果关系模型中,生成事件与用户情绪之间是否存在因果关系以及因果关系的强弱;将因果关系以及因果关系的强弱输送到传播路径模型中,以预测用户情绪传播的最短路径,基于所生成的用户情绪传播的最短路径调整溯源路径模型中的模型参数;该情绪溯源及传播路径分析方法提升了事件和用户情绪的因果预测的准确性以及有效地实现对用户情绪的溯源。
-
公开(公告)号:CN117992615B
公开(公告)日:2024-06-18
申请号:CN202410396721.2
申请日:2024-04-03
Applicant: 中国科学技术大学
IPC: G06F16/35 , G06N3/0455
Abstract: 本发明涉及文本情绪识别技术领域,公开了一种基于组合范畴语法与大模型记忆插件的情绪识别方法,通过情绪识别模型识别出给定的文本的情绪标签,包括:利用嵌入编码器提取文本的文本特征;利用知识提取模块提取文本的组合范畴语法知识向量;基于知识向量和编码后的文本特征,通过记忆机制控制插件与大模型进行交互,驱动大模型融合插件携带的知识,将插件与大模型进行参数级融合,得到增强后的文本表征;将增强后的文本表征输入到分类器进行标签预测,生成情绪标签。本发明通过充分利用组合范畴语法信息知识,从而更全面地把握文本的结构和含义,让模型更全面地理解情绪表达,有助于提高情绪分析的准确性。
-
公开(公告)号:CN118155022A
公开(公告)日:2024-06-07
申请号:CN202410393692.4
申请日:2024-04-02
Applicant: 中国科学技术大学
IPC: G06V10/774 , G06N3/0464 , G06V10/74 , G06V10/82 , G06V10/42 , G06T7/73 , G06V10/75
Abstract: 本公开提供了一种对象位姿估计模型的训练方法、对象位姿估计方法及其装置。该方法包括:获取位姿训练集合,位姿训练集合包括多个目标对象训练图像和与每个目标对象训练图像对应的对象先验向量;针对每个目标对象训练图像,利用第一二维卷积模型对目标对象训练图像进行卷积处理,得到对象全局特征;利用形变网络处理对象全局特征和对象先验向量,得到形变点云信息;利用卷积神经网络处理对象全局特征和形变点云信息,得到二维特征向量和三维特征向量;对二维特征向量和三维特征向量进行多层级特征匹配处理,得到三维对应性参数;根据三维对应性参数和三维关键点热力图迭代地调整初始位姿估计模型的网络参数,得到经训练的对象位姿估计模型。
-
公开(公告)号:CN117633239B
公开(公告)日:2024-05-17
申请号:CN202410090128.5
申请日:2024-01-23
Applicant: 中国科学技术大学
IPC: G06F16/35 , G06F18/2415 , G06N3/0442 , G06N3/084
Abstract: 本发明涉及情感识别技术领域,公开了一种结合组合范畴语法的端到端方面情感识别方法,通过完成训练的情感识别模型识别出给定的文本的情感标签;情感识别模型的训练过程包括:通过编码器提取文本的文本特征;通过词汇范畴标签解码模块对文本特征进行处理,预测得到词汇范畴标签;应用注意力模块对文本特征进行处理得到加权和向量,进而得到平衡后的文本隐藏向量;将平衡后的文本隐藏向量输入到标签预测模块,生成情感标签;基于总体损失和反向传播算法更新情感识别模型的参数。本发明利用组合范畴语法包含的句法和语义信息,明确区分并相应地利用重要的上下文信息;通过门控模块,情感识别模型可以提高对语义信息的处理能力。
-
公开(公告)号:CN114947883B
公开(公告)日:2024-05-14
申请号:CN202210678510.9
申请日:2022-06-15
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种时频域特征融合的深度脑电降噪方法,包括:1、将采集到的多通道含噪脑电信号通过通道分割和随机窗切片的方式构建训练集和测试集;2、建立时频域特征融合网络,该网络利用时域特征提取单元和频域特征提取单元提取脑电信号和伪影信号的判别性特征,之后将不同域的判别性特征通过自适应多域特征融合模块进行特征融合,将融合后的特征通过特征解码模块获得降噪后的脑电信号;3、利用训练好的模型实现脑电伪影降噪任务。本发明同时考虑了脑电信号和伪影信号在不同域的信号差异,通过融合时域和频域的判别性特征,提高了深度神经网络的降噪能力,对脑机接口和医疗健康等领域具有重要意义。
-
公开(公告)号:CN117992927A
公开(公告)日:2024-05-07
申请号:CN202410405242.2
申请日:2024-04-07
Applicant: 中国科学技术大学
Abstract: 本发明涉及目标检测技术领域,公开了一种基于控制噪声扩散网络的目标检测方法,对输入信息进行目标检测,得到目标检测结果,包括:对数据集中的输入信息进行预处理,得到一系列无关信息,将无关信息记作输入信息的噪声信号;对数据集中的所有输入信息重复上述过程,得到噪声信号总集合;对噪声信号总集合进行随机采样,得到噪声信号;将噪声信号转换成噪声表征;对各噪声表征进行线性加权和归一化操作,得到综合噪声信号;利用目标检测网络提取输入信息的关键信息;将与无关信息相链接的综合噪声信号以及关键信息作为扩散网络的输入,计算得到强化的数字化表征;通过综合考虑噪声和目标检测,提高了模型在感兴趣目标物体的识别和定位能力。
-
-
-
-
-
-
-
-
-