-
公开(公告)号:CN111291229B
公开(公告)日:2023-10-31
申请号:CN202010071390.7
申请日:2020-01-21
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06F16/9035 , G06Q40/04
Abstract: 本发明提出一种基于稠密多部子图的检测方法及系统,包括:步骤1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;步骤2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的权重为约束条件,生成该稠密子图中节点子集的异常值;步骤3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异常行为检测结果。本发明通过具有有效性和鲁棒性和良好的可扩展性。
-
公开(公告)号:CN111738004B
公开(公告)日:2023-10-27
申请号:CN202010546972.6
申请日:2020-06-16
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295
Abstract: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT‑CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。
-
公开(公告)号:CN110781367B
公开(公告)日:2023-10-20
申请号:CN201910909270.7
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/955
Abstract: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。
-
公开(公告)号:CN116664226A
公开(公告)日:2023-08-29
申请号:CN202310504694.1
申请日:2023-05-06
Applicant: 中国科学院计算技术研究所
IPC: G06Q30/0601 , G06F16/9536 , G06F16/9535 , G06F18/214 , G06N7/01 , G06N3/094
Abstract: 本发明提供一种推荐系统流行度去偏方法和系统、存储介质,包括:数据集处理步骤,对商品i的交互记录进行随机采样划分,得到所述的训练集验证集和测试集推荐模型预训练步骤,使用该训练集预训练基于协同过滤模型的推荐模型,预训练选用协同过滤推荐系统常用的训练损失函数;推荐模型去偏训练步骤,对预训练完成的推荐模型,使用去偏损失函数完成去偏训练;推荐步骤,对于系统中的任意用户,模型预测该用户对系统中全部商品的偏好分数,并在该用户未交互过的商品中选择预测的偏好分数最高的若干个商品,作为给该用户的推荐结果。
-
公开(公告)号:CN111967258B
公开(公告)日:2023-07-21
申请号:CN202010667443.1
申请日:2020-07-13
Applicant: 中国科学院计算技术研究所
IPC: G06F40/289 , G06F40/216
Abstract: 本发明实施例提供了一种构建共指消解模型的方法、共指消解的方法和介质,所述方法包括A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。本发明实施例的技术方案可以提升共指消解过程对于长距离依赖的共指关系的判断性能。
-
公开(公告)号:CN115759103A
公开(公告)日:2023-03-07
申请号:CN202211527749.2
申请日:2022-11-30
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295
Abstract: 本发明提供一种小样本命名实体识别模型训练方法,包括:S1、获取训练集、训练集类型描述集合以及支持集、支持集类型描述集合;S2、分别在训练集和支持集上挖掘每个样本中的线索词并进行线索词标注以分别获得包含命名实体标签和线索词标签的训练集和支持集;S3、采用经步骤S2处理后的训练集和训练集类型描述集合对基础命名实体识别模型进行多轮迭代训练至收敛;S4、采用经步骤S2处理后的支持集和支持集类型描述集合对经步骤S3训练后的基础命名实体识别模型进行迁移训练直至收敛,获得由编码器和最近邻分类器组成的小样本命名实体识别模型。
-
公开(公告)号:CN115658881A
公开(公告)日:2023-01-31
申请号:CN202211215316.3
申请日:2022-09-30
Applicant: 中国科学院计算技术研究所
IPC: G06F16/34 , G06N3/0455 , G06N3/08
Abstract: 本发明提出一种基于因果关系的序列到序列文本摘要生成方法和系统,属于自然语言处理和自动文本摘要生成领域。本方法受到因果理论的启发,从数据生成的角度研究了摘要任务中各要素的因果关系。该方法首先引入两个不可观测变量,得出摘要任务的结构因果模型;然后根据结构因果模型得出相应的序列到序列生成框架,用于建模原文和摘要的生成过程。该框架包含三个核心模块:双隐变量变分编码器、原文重构解码器和摘要预测解码器。此方法不仅比现有的端到端深度文本摘要方法具备更强的可解释性,还具备更好的摘要性能和更强的泛化能力。该方法是一个具备强适用性的序列到序列框架,因此可以迁移到更多模型主体、生成任务和不同数据集上。
-
公开(公告)号:CN111259658B
公开(公告)日:2022-08-19
申请号:CN202010080710.5
申请日:2020-02-05
Applicant: 中国科学院计算技术研究所
IPC: G06F40/279 , G06F40/216 , G06K9/62
Abstract: 本发明提出一种基于类别稠密向量表示的通用文本分类方法及系统,包括:获取包括以标记类别文本的训练数据,使用全连接网络处理该训练数据,得到各类别的类别稠密向量;将待分类文本输入至深度神经网络,得到该待分类文本中每个词的词稠密向量,并集合该词稠密向量得到该待分类文本的文本稠密向量;将该文本稠密向量和该类别稠密向量输入至匹配度测量模型,得到该待分类文本属于各类别的概率分布,将该待分类文本与该概率分布中概率最大的类别相匹配,作为该待分类文本的分类结果。本发明基于类别稠密向量表示,将文本分类问题转化为文本匹配问题,通过计算输入文本与每个类别之间的匹配程度,将文本分到匹配程度最大的类别之中。
-
公开(公告)号:CN114021566A
公开(公告)日:2022-02-08
申请号:CN202111268377.1
申请日:2021-10-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F16/36 , G06F16/35 , G06N3/08
Abstract: 本发明提出一种开放域文本的实体关系抽取方法和系统,包括:获取已标注的文本作为训练数据,实体识别抽取训练数据中所有命名实体和名词短语,并对其进行数据增强;以增强后的数据为输入,训练神经网络模型,得到实体关系分类模型;统计增强后的数据中各命名实体和名词短语出现的词频,并将词频大于预设值的命名实体和名词短语标记为过滤词汇;获取开放域文本及其对应的头实体,抽取开放域文本中除过滤词汇以外的命名实体和名词短语并输入实体关系分类模型,得到开放域文本的实体关系。通过有效的数据增强策略,无需增加额外的成本,有效解决由于候选尾实体带来的噪音问题导致的实体关系识别在实际应用中效果不佳的问题。
-
公开(公告)号:CN110287378B
公开(公告)日:2021-10-19
申请号:CN201910441015.4
申请日:2019-05-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06F16/2458
Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。
-
-
-
-
-
-
-
-
-