-
公开(公告)号:CN118332101A
公开(公告)日:2024-07-12
申请号:CN202410400400.5
申请日:2024-04-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F40/30 , G06N3/0442 , G06N3/08 , G06F16/35
Abstract: 本发明属于文本信息抽取领域,涉及一种基于分层迭代的长文本抽取式摘要生成方法和装置。该方法包括:获取文本中字符的词向量、位置向量以及结构子标题向量,将其相加作为语义编码的输入,采用长文本预训练语言模型作为语义编码器,进行语义编码;将语义编码之后的向量送入各个层级编码器中,将语义信息沿着文本结构路线由句子层级至文档层级进行分层传递,然后从文档层级至句子层级再次进行分层传递,实现迭代更新,得到各个层级的隐层表示;通过融合各个层级的隐层表示全面地对每个句子进行评价,选出最优的摘要句。本发明能够克服现有抽取式摘要面向长文本时计算资源消耗大,存在语义损失以及长文本结构建模缺失的问题。
-
公开(公告)号:CN117149795A
公开(公告)日:2023-12-01
申请号:CN202311197360.0
申请日:2023-09-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于混合内存的自适应图计算更新方法及系统。本发明首先将有向图数据以出边方式进行存储时,按照顶点区间均匀划分得到顶点区间及其对应的出边数据块;以入边方式进行存储时,按照顶点区间均匀划分得到顶点区间及其对应的入边数据块;构建子图时,直接利用对应入边数据块、出边数据块,从而避免遍历所有数据块;为提高子图数据的访问效率,本发明将图数据的入边数据、出边数据分别存储在两个NUMA节点中;其次,采用一种基于数据驱动的推‑拉自适应的数据更新策略,以优化迭代图计算过程中消息更新的流程。本发明解决了混合内存图计算模型存在的子图构建和更新模式问题,大大提升了图计算的效率。
-
公开(公告)号:CN116886327A
公开(公告)日:2023-10-13
申请号:CN202310469489.6
申请日:2023-04-27
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511
Abstract: 本发明公开了一种基于异质图自监督学习的恶意域名检测方法和系统。所述方法包括:将DNS场景建模为一个原始异质图;其中,所述原始异质图中的节点包括:域名、客户端和IP地址;在数据层面上引入轻微的扰动来生成所述原始异质图的轻微扰动图;根据域名级的对比损失和图级的相似性损失,获取所述原始异质图中域名的节点表示;其中,所述域名级的对比损失是对原始异质图和轻微扰动图中域名的节点表示进行相似性对比得到,所述图级的相似性损失是对原始异质图和轻微扰动图的图嵌入表示进行相似性对比得到;基于所述原始异质图中域名的节点表示,得到所述DNS场景的恶意域名检测结果。本发明可以在域名标签稀疏的困境下解决恶意域名模型过拟合的问题。
-
公开(公告)号:CN116663532A
公开(公告)日:2023-08-29
申请号:CN202310312449.0
申请日:2023-03-28
Applicant: 中国科学院信息工程研究所
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本发明公开一种基于核对齐推理的对比自蒸馏BERT加速方法及装置。所述方法包括:构建推理模型;其中,所述推理模型是每一transformer层之后额外添加一个早退分类器的BERT模型;基于分类损失、对比损失和蒸馏损失,训练推理模型;使用训练后的推理模型进行任务预测,并基于核对齐的退出机制输出所述任务的预测结果。本发明实现了高加速比情况下优越的模型性能。
-
公开(公告)号:CN116108101A
公开(公告)日:2023-05-12
申请号:CN202111319629.9
申请日:2021-11-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种多源异构数据智能分拣方法及装置,包括提取数据源中的目标数据;利用设置数据接入分拣路由规则的智能路由器,将目标数据分配至相应的数据闸机通道,并利用数据闸机通道中设定的预处理规则对目标数据进行预处理;利用设置数据分发分拣的智能路由器,将预处理后的目标数据分发至下游业务。本发明实现对多源、异构数据的统一规范化的接入、汇聚与分发处理,提升数据处理的自动化程度、易用性、适用性及可扩展性,降低人工操作错误率,从而提高了数据处理效率和数据质量。
-
公开(公告)号:CN115424025A
公开(公告)日:2022-12-02
申请号:CN202210927391.6
申请日:2022-08-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种稠密子图抽取方法和系统,属于计算机软件技术领域。该方法包括:对原图采用Mas策略进行子图分割,得到节点序列L;对节点序列L进行合并检查,无法通过合并检查的结点重新回到原图做后续的分割;对通过合并检查的子图结点进行合并,构成K边联通子图。本发明在图分解框架中使用了最大S‑T流解决路径数搜索问题,对现有Mas策略的不足提出了改进方法,使得本方法在K‑ECC抽取工作中提高了现有工作的准确率。
-
公开(公告)号:CN109614520B
公开(公告)日:2021-06-04
申请号:CN201811228936.4
申请日:2018-10-22
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901
Abstract: 本发明公开了一种面向多模式图匹配的并行加速方法。本方法为:1)生成目标领域的模式图集的多模式图索引;2)对所述多模式图索引采用逐层分组策略,即对所述多模式图索引中每一层出现的模式图进行评估,得到该层中每个模式图的匹配代价,然后根据匹配代价对该层的模式图进行分组;3)对不同分组分别分配一线程同时进行匹配计算。本发明通过采用PatternTree索引构建算法挖掘模式图间存在的结构相关性,对于结构相关性较弱的模式图设计并行匹配策略进一步提升匹配性能。
-
公开(公告)号:CN111753144A
公开(公告)日:2020-10-09
申请号:CN202010412343.4
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/903
Abstract: 本发明提出一种基于Warshall方法加速epsilon闭包计算的方法及系统,针对传统闭包计算整体消耗时间长的缺陷,涉及计算机领域,为了优化闭包算法,利用Warshall方法,在NFA构造DFA的过程中对现有的方法进行了优化,加速了DFA的构造过程。
-
公开(公告)号:CN111581368A
公开(公告)日:2020-08-25
申请号:CN201910121716.X
申请日:2019-02-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/335 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于卷积神经网络的面向智能专家推荐的用户画像方法。本方法为:1)利用选定的专家个人信息,获取一专家信息数据集;2)对该专家信息数据集中的每一条专家信息处理为一个由词语序列构建而成的句子;3)将使用词向量对步骤2)处理后的专家信息进行文本表示;4)将专家信息对应的词向量训练卷积神经网络;5)根据待构建画像专家的文本信息生成该待构建画像专家的词向量,利用训练后的卷积神经网络对该待构建画像专家的词向量进行分类,生成该待构建画像专家的用户画像。本发明勾画用户画像准确性高。
-
公开(公告)号:CN110943936A
公开(公告)日:2020-03-31
申请号:CN201911086763.1
申请日:2019-11-08
Applicant: 中国科学院信息工程研究所
IPC: H04L12/861
Abstract: 本发明涉及一种高效的基于动态数组的网络流量处理方法及系统。该方法为每个线程分配一个缓存管理器,所述缓存管理器申请以超级块为单位的内存块,每个超级块包含多个基本块;设置动态数组,通过所述动态数组将网络流的扫描结果存储在所属线程的缓存管理器申请的超级块中。在初始化阶段创建所需线程,初始化缓存管理器、线程中的网络流以及动态数组;在内存使用阶段进行申请内存、获取下一元素以及归还内存的操作。本发明能够减少内存空间的浪费,满足在线系统的高效处理性能与较低空间消耗的需求。
-
-
-
-
-
-
-
-
-