-
公开(公告)号:CN117131189A
公开(公告)日:2023-11-28
申请号:CN202310294820.5
申请日:2023-03-23
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/35 , G06F16/31 , G06F16/332 , G06F40/35 , G06N3/0499 , G06N3/08
摘要: 本发明提出一种基于语义的开放域网页知识抽取方法,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果。本发明还提出一种基于语义的开放域网页知识抽取系统,以及一种用于开放域网页知识抽取的数据处理装置。
-
公开(公告)号:CN113392139B
公开(公告)日:2023-10-20
申请号:CN202110624648.6
申请日:2021-06-04
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/2458 , G06F16/901 , G06N3/0442 , G06N3/045 , G06N3/08
摘要: 本发明提出一种基于关联融合的环境监测数据补全方法和系统,包括:获取数据存在缺失的环境监测数据及其对应的标记矩阵;根据环境监测数据中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;通过将图G和待补全矩阵按位相乘,得到中间矩阵,通过神经网络对中间矩阵进行时序处理,得到环境监测数据中各时间点的隐藏状态;根据各时间点的隐藏状态,计算环境监测数据的时间关联性系数;通过将时间关联性系数和各时间点的隐藏状态按位相乘,得到环境监测数据中各时间点的中间状态;在环境监测数据中,对中间状态采用生成式的非线性变换,得到环境监测数据的重构补全数据。
-
公开(公告)号:CN113190733B
公开(公告)日:2023-09-12
申请号:CN202110459851.2
申请日:2021-04-27
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/951 , G06N3/0464 , G06N3/0442 , G06N3/08
摘要: 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个流行度历史序列形成网络事件的流行度联合历史序列;利用生成式对抗网络将流行度联合预测序列与流行度联合历史序列进行对齐,得到网络事件的流行度最终预测序列。
-
公开(公告)号:CN116595407A
公开(公告)日:2023-08-15
申请号:CN202310388963.2
申请日:2023-04-12
申请人: 中国科学院计算技术研究所
IPC分类号: G06F18/24 , G06F18/214 , G06F18/25 , G06F40/289 , G06N3/0455 , G06N3/08
摘要: 本发明提出一种基于标签序列一致性建模的事件论元检测方法及系统。主要包括词序列语义编码、词标签序列标注、易错标签序列生成、对比学习正则化。词序列语义编码对预处理后的词采用BERT与训练语言模型进行语义表示学习,并将事件类型信息融入表示向量中;词标签序列标注使用全连接网络来对每个词对应的标签概率分布做出预估;易错标签序列生成则是根据一定策略按照词标签序列概率分布生成易错标签序列;对比学习正则化则是基于易错标签序列和正确标签序列的对比学习构建正则化损失,提高词序列标签的一致性。
-
公开(公告)号:CN112287272B
公开(公告)日:2023-05-23
申请号:CN202011161424.8
申请日:2020-10-27
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/0464 , G06N3/08
摘要: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN115687638A
公开(公告)日:2023-02-03
申请号:CN202211199819.6
申请日:2022-09-29
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/36 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/048 , G06N3/047 , G06N3/08
摘要: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
-
公开(公告)号:CN111966826B
公开(公告)日:2023-01-24
申请号:CN202010709070.X
申请日:2020-07-22
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F18/2415
摘要: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。
-
公开(公告)号:CN114581230A
公开(公告)日:2022-06-03
申请号:CN202210044130.X
申请日:2022-01-14
申请人: 中国科学院计算技术研究所
IPC分类号: G06Q40/04 , G06Q20/40 , G06N20/00 , G06F16/901
摘要: 本发明提出一种流式图中的洗钱行为检测方法、装置、介质,所述方法包括获取洗钱场景中的资金交易信息作为图数据通过有向图表示;在每一条所述资金流到达时,判断所述发生源账户是否在转出资金后达到资金平衡状态,且所述目标账户是否在转入资金后到达资金平衡状态;分别统计当前时刻时所述发生源账户与目标账户达到资金平衡状态的次数以及从初始时刻到当前时刻最近一次达到资金平衡状态之间累积的资金有效转入次数,作为统计特征输入至异常账户评估模型进行异常评估。该方法能够快速并且准确地检测出不同模式的洗钱行为,并且找到可疑的洗钱账户。
-
公开(公告)号:CN109213583B
公开(公告)日:2022-03-29
申请号:CN201810825619.4
申请日:2018-07-25
申请人: 中国科学院计算技术研究所
摘要: 本发明涉及一种基于Linux内核技术通过软硬件协同支持读写性能隔离的I/O调度器,该I/O调度器是在Linux内核的现有I/O调度器中增加了四个单元,即包括有队列分配单元(10)、优先级设置单元(20)、队列延迟时间对比单元(30)和队列深度调节单元(40),同时将Linux内核现有的I/O软件队列(50)和I/O硬件队列(60)中的I/O优先级进行对接;旨在不修改上层应用的前提下,降低应用业务混部带来的性能干扰,即最大程度的做到混部应用的资源隔离。采用本发明设计的I/O调度器处理后能够在数据处理系统中的在线读负载和批量写负载混部,即读写I/O混部的情况下,保持写I/O性能不变的同时,将读I/O的性能提升。
-
公开(公告)号:CN114185885A
公开(公告)日:2022-03-15
申请号:CN202111307991.4
申请日:2021-11-05
申请人: 中国科学院计算技术研究所
IPC分类号: G06F16/22 , G06F16/2453 , G06F16/2455 , G06F16/2458 , G06F16/901 , G06F16/31 , G06F16/33 , G06F16/51 , G06F16/53
摘要: 本发明提出一种基于列存数据的流式数据处理方法和系统,包括:获取待处理的列存流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,根据预设窗口模式为该批式数据块中每条数据分配窗口序号;将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出任务执行结果,作为流式数据处理结果。本发明通过使用列存存储及计算引擎,结合预聚合技术,在保持较低延迟的前提下,提升数据分析场景的吞吐量。
-
-
-
-
-
-
-
-
-