-
公开(公告)号:CN117669698A
公开(公告)日:2024-03-08
申请号:CN202311555818.5
申请日:2023-11-21
Applicant: 中国科学院信息工程研究所
IPC: G06N3/098 , G06N3/096 , G06N3/0464 , G06N3/045 , G06V10/82 , G06V10/94 , G06V10/776 , G06V10/74
Abstract: 本发明公开了种主动定向式数据蒸馏的联邦学习方法、装置及系统,该方法包括:从服务器获取全局模型w(t)的当前参数;判断当前通信轮数t是否大于一设定的早期通信轮数T′;在t≤T′的情况下,基于本地数据集优化全局模型w(t),并利用全局模型w(t)对本地数据集进行蒸馏后,将得到的局部模型和蒸馏数据返回至服务器,以使该服务器基于所有客户端返回的所述局部模型和所述蒸馏数据生成全局模型w(t+1);在t>T′的情况下,基于本地数据集优化全局模型后,将得到的局部模型返回至服务器,以使该服务器基于所有客户端返回的所述局部模型 生成全局模型w(t+1)。本发明可以有效改善全局模型因数据异质性性能下降问题。
-
公开(公告)号:CN111753827B
公开(公告)日:2024-02-13
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V30/164 , G06V30/18 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
公开(公告)号:CN112347756B
公开(公告)日:2023-12-22
申请号:CN202011051087.7
申请日:2020-09-29
Applicant: 中国科学院信息工程研究所
IPC: G06F40/205 , G06F40/216 , G06N3/0442 , G06N3/045
Abstract: 本发明涉及一种基于序列化证据抽取的推理阅读理解方法及系统。该方法训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;利用训练完成的基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果,将证据句子之间的相关关系考虑进去,逐步推理得到相关证据,同时覆盖问题中的重要信息。本发明从原来的独立预测每个证据句子变为序列化抽取证据句子,从而建模证据之间的相关性认证,从而提高了网络的安全可靠性。
-
公开(公告)号:CN116910467A
公开(公告)日:2023-10-20
申请号:CN202310691596.3
申请日:2023-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F18/20 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向复杂混部扰动的在线运行时环境预测方法及装置,该方法包括:针对训练集中的算子,分别收集每一算子和多个算子在空节点上运行时的环境关键指标Ts和环境关键指标Tm;基于该关键指标Ts和环境关键指标Tm,分别建立算子的算子画像和多个算子的画像;基于算子的算子画像和多个算子的画像,训练环境预测模型;获取待检测的混部算子中每一算子的算子画像,并将每一算子的算子画像输入训练后的环境预测模型,以得到待检测的混部算子在空节点上运行时的环境关键指标。本发明可以实时恶意流量检测,有效缓解、过滤和防御针对恶意流量的攻击。本发明能够准确预测复杂混部算子运行时环境。
-
公开(公告)号:CN108021540B
公开(公告)日:2023-05-02
申请号:CN201711095981.2
申请日:2017-11-09
Applicant: 中国科学院信息工程研究所
IPC: G06F40/126
Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。
-
公开(公告)号:CN112883216B
公开(公告)日:2022-09-16
申请号:CN202110226266.8
申请日:2021-03-01
Applicant: 中国科学院信息工程研究所
IPC: G06F16/55 , G06F16/583 , G06K9/62 , G06V10/774 , G06N3/08
Abstract: 本发明公开了一种基于扰动一致性自集成的半监督图像检索方法及装置,包括将图像输入训练后的半监督图像特征提取模型,得到该图像的特征,其中所述半监督图像特征提取模型包括:一卷积神经网络、一哈希层和一扰动一致性自集成模块;将图像的特征转换为图像离散的二值哈希码;依据二值哈希码进行检索,得到图像检索结果。本发明通过集成同一个样本在不同数据增强条件下的特征,能够发现每个类别的判别特征;通过设计的扰动一致性损失函数最大化无标记数据的哈希层输出与对应的集成特征的相似性,充分的利用了无标记数据提升网络的泛化能力;能够取得更好的检索效果。
-
公开(公告)号:CN112256982B
公开(公告)日:2022-08-16
申请号:CN202010967453.7
申请日:2020-09-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9537 , G06F16/9536 , G06F16/2458
Abstract: 本发明提供一种基于稀疏采样时空数据的目标同行关系分析方法及电子装置,包括采集目标用户E0各关联设备Uk的时空数据,依据各关联设备Uk出现记录,计算与其他设备Vj的两两同行组合集合,选取符合设定的其他设备Vj组成关联设备Uk的候选设备集合Sk;通过候选设备集合Sk中各其他设备Vj时空数据获取的出现记录,计算与相应设备Ul的两两同行组合集合,选取符合设定的相应设备Vl组成若干设备集合S′k,j;若设备集合S′k,j包含关联设备Uk,则目标用户E0与用户Ej存在同行行为,得到关联设备Uk同行设备列表Qk;依据各同行设备列表Qk,得到同行用户列表Y。本发明通过多种过滤与排序机制,可以挖掘出有效的目标同行关系,同时支持不同类型数据之间的融合使用。
-
公开(公告)号:CN112163238B
公开(公告)日:2022-08-16
申请号:CN202010940180.7
申请日:2020-09-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种多方参与数据不共享的网络模型训练方法,其步骤包括:1)参与数据共享的各参与方利用所选隐私数据集训练各自所选网络模型,分别得到一教师网络模型;2)采用步骤a)~b)对学生网络模型S进行多轮训练,得到最终的公开网络模型M;a)选出一个教师网络模型Ti指导学生网络模型S更新:首先将训练数据Xi输入模型Ti,得到标签在中加入噪声N得到Yi,将Xi输入学生网络模型S,输出S(Xi);然后最小化S(Xi)与Yi之间的相似距离训练学生网络模型S;b)利用学生网络模型S对公开的未标记数据进行部分标记,然后使用部分标注的数据通过半监督知识蒸馏的方法将学生网络模型S中的知识蒸馏到一公开网络模型M中。
-
公开(公告)号:CN114842277A
公开(公告)日:2022-08-02
申请号:CN202210398479.3
申请日:2022-04-15
Applicant: 中国科学院信息工程研究所
IPC: G06V10/771 , G06V10/774 , G06V10/778
Abstract: 本发明公开了一种基于伪增益类别再平衡的半监督目标检测方法及平台,所述方法包括:建立训练数据集S0,所述训练数据集S0包括:标注样本和若干未标注样本;基于所述标注样本进行监督学习,得到目标检测器M0;根据目标检测器Mi对训练数据集Si中未标注样本的推理结果,计算训练数据集Si中各未标注样本的伪增益分数,以在训练数据集Si中选取K个未标注样本进行人工标注,得到训练数据集Si+1;直至标注完所有未标注样本后,获取目标检测器M;基于所述目标检测器M对待检测图片进行目标检测。本发明基于伪增益的样本挖掘策略获得分布均衡且信息含量丰富的数据集,使得未标注数据中的信息利用程度最大化。
-
公开(公告)号:CN110059194B
公开(公告)日:2022-04-08
申请号:CN201910155583.8
申请日:2019-03-01
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种融合表示学习和分治策略的大规模本体合并方法,其步骤包括:1)对于待合并的两本体,学习每一本体的组成要素在假设的公共语义空间中的语义表示;2)根据本体层级结构将每一本体中的所有类别划分为若干不相交的类别簇;然后根据同一类别簇中的类别在本体中的层级结构,恢复该类别簇中类别之间的关系,得到该本体的块集合;3)根据两待合并本体的块集合生成两本体之间的块映射,并基于本体的组成要素的语义表示对块进行对齐;4)将对齐后的本体区分为源本体和目标本体,将源本体和目标本体之间等价的类别合并成一个公共的类别放入一合并本体中,然后将源本体中剩余的类别信息放入该合并本体中,完成两本体合并。
-
-
-
-
-
-
-
-
-