-
公开(公告)号:CN117764077A
公开(公告)日:2024-03-26
申请号:CN202311613359.1
申请日:2023-11-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/30 , G06F18/22 , G06N3/0455 , G06N3/0499 , G06F40/126
Abstract: 本发明提出一种基于提示学习的零样本可解释性立场检测方法、装置,所述方法包括:获取相关零样本立场检测的文本数据集并进行预处理;针对文本中的任一主题构造提示语,所述提示语中包含一立场标签,所述立场标签包含支持、反对和中立其中之一;将预处理的文本数据集以及所述提示语输入到预训练语言模型中进行编码,获得上下文表示向量和token词表示向量;使用上下文表示向量和token词表示向量进行相似度交互,计算出基于上下文的第一相似度和基于立场标签的第二相似度;利用所述第一相似度、第二相似度,对文本的立场标签进行预测。该方法提高了零样本立场检测的可解释性与检测精度。
-
公开(公告)号:CN110705597B
公开(公告)日:2022-11-11
申请号:CN201910833900.7
申请日:2019-09-04
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62 , G06F16/953
Abstract: 本发明提出一种基于事件因果关系抽取的网络苗头事件检测方法及系统,包括:将苗头因果事件对中原因事件作为苗头事件,存入苗头事件样本库,以苗头事件样本库的数据作为训练集,训练基于机器学习的第一苗头事件分类器,并将苗头因果事件对的因果联系作为苗头事件判定规则,存入苗头事件判定规则库,以苗头事件判定规则库构建基于规则的第二苗头事件分类器;对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指代同一个事件的结构化事件统一为一个共指事件,并对共指事件进行泛化,得到网络平台的抽象事件,使用第一苗头事件分类器和第二苗头事件分类器分别处理抽象事件,综合两者的结果作为网络平台苗头事件的检测结果。
-
公开(公告)号:CN110705597A
公开(公告)日:2020-01-17
申请号:CN201910833900.7
申请日:2019-09-04
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62 , G06F16/953
Abstract: 本发明提出一种基于事件因果关系抽取的网络苗头事件检测方法及系统,包括:将苗头因果事件对中原因事件作为苗头事件,存入苗头事件样本库,以苗头事件样本库的数据作为训练集,训练基于机器学习的第一苗头事件分类器,并将苗头因果事件对的因果联系作为苗头事件判定规则,存入苗头事件判定规则库,以苗头事件判定规则库构建基于规则的第二苗头事件分类器;对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指代同一个事件的结构化事件统一为一个共指事件,并对共指事件进行泛化,得到网络平台的抽象事件,使用第一苗头事件分类器和第二苗头事件分类器分别处理抽象事件,综合两者的结果作为网络平台苗头事件的检测结果。
-
公开(公告)号:CN104346425B
公开(公告)日:2017-10-31
申请号:CN201410363667.8
申请日:2014-07-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
Abstract: 本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
-
公开(公告)号:CN1464405A
公开(公告)日:2003-12-31
申请号:CN02122474.9
申请日:2002-06-05
Applicant: 中国科学院计算技术研究所
IPC: G06F13/14
Abstract: 一种集群系统的系统结构,包括多个节点系统,每个节点系统中包括为网络用户提供网络服务的应用系统和为集群系统提供系统服务的网络系统;互连交换网络,集群系统中的所有节点系统分布式的通过互连网络连接。本发明高效地支持传统集群服务,降低集群服务给主机系统所带来的负载;提高集群系统软件的可移植性;强有力地支持异构的集群系统;支持新型集群服务的增删、升级,以及动态查询和服务绑定功能,使得集群系统具有很强的延展性;提出了服务集中器的概念,将集群系统中节点系统相互隔离,从而使集群系统的部署及升级更为简单;灵活地支持集群系统中资源(存储资源、计算资源等)的表述方式,使每个节点机可以充分、简单地利用系统中的资源。
-
公开(公告)号:CN114021566A
公开(公告)日:2022-02-08
申请号:CN202111268377.1
申请日:2021-10-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F16/36 , G06F16/35 , G06N3/08
Abstract: 本发明提出一种开放域文本的实体关系抽取方法和系统,包括:获取已标注的文本作为训练数据,实体识别抽取训练数据中所有命名实体和名词短语,并对其进行数据增强;以增强后的数据为输入,训练神经网络模型,得到实体关系分类模型;统计增强后的数据中各命名实体和名词短语出现的词频,并将词频大于预设值的命名实体和名词短语标记为过滤词汇;获取开放域文本及其对应的头实体,抽取开放域文本中除过滤词汇以外的命名实体和名词短语并输入实体关系分类模型,得到开放域文本的实体关系。通过有效的数据增强策略,无需增加额外的成本,有效解决由于候选尾实体带来的噪音问题导致的实体关系识别在实际应用中效果不佳的问题。
-
公开(公告)号:CN104182482B
公开(公告)日:2018-05-22
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
公开(公告)号:CN103870506B
公开(公告)日:2017-02-08
申请号:CN201210548678.4
申请日:2012-12-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。
-
公开(公告)号:CN104346425A
公开(公告)日:2015-02-11
申请号:CN201410363667.8
申请日:2014-07-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
-
公开(公告)号:CN104182482A
公开(公告)日:2014-12-03
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30873 , G06F17/30867 , G06F17/30876
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
-
-
-
-
-
-
-
-