-
公开(公告)号:CN113139098B
公开(公告)日:2023-12-12
申请号:CN202110308958.7
申请日:2021-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种同质关系大图的摘要提取方法及系统,包括:获取待摘要提取的关系图数据作为当前图数据,且该关系图数据为同质关系大图,并将该当前图数据中每个节点均看作超点;根据该当前图数据的邻接矩阵,通过局部敏感哈希对该当前图数据中节点进行分组;从组中随机选择多个超点对,分别计算该超点对若合并后和该关系图数据之间的差距,选择差距最小的超点对进行合并,得到重构图数据;输出该重构图数据作为摘要提取结果。
-
公开(公告)号:CN117194672A
公开(公告)日:2023-12-08
申请号:CN202310896725.2
申请日:2023-07-20
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/211 , G06F40/258 , G06F40/30 , G06N5/025
Abstract: 本发明提出一种角色感知的篇章主题事件论元抽取方法、装置,方法包括:根据已知篇章主题事件的事件类型获得该事件类型的篇章主题事件的论元角色信息;对目标文章分别进行分句、提取标题,得到分句集合、事件标题,所述论元角色信息、事件类型、以及事件标题构成事件相关信息;利用所述事件相关信息、以及分句集合构建论元角色感知图,进行事件相关句检测,得到篇章主题事件相关句子集合;将所述篇章主题事件相关句子集合作为输入,对每个论元角色构建问题,预测出所述篇章主题事件相关句子集合中的所有候选论元,从所述候选论元中筛选出目标论元。该方法提升了模型效果的同时保持了模型的灵活性。
-
公开(公告)号:CN116580265A
公开(公告)日:2023-08-11
申请号:CN202310604430.3
申请日:2023-05-26
Applicant: 中国科学院计算技术研究所
IPC: G06V10/774
Abstract: 本发明提供一种目标检测模型对抗训练方法,所述方法包括:S1、获取目标图像数据集和初始对抗图案,所述目标图像数据集包括多个图像样本,且每个图像样本中设置有目标边界框标注;S2、对初始对抗图案进行分形变换以获得目标对抗图案;S3、将步骤S2得到的目标对抗图案注入所述目标图像数据集中每一图像样本的目标边界框内得到对抗训练集,并采用对抗训练集训练目标检测模型至收敛。本发明引入了引入分形变换损失对对抗图案进行迭代更新,使得生成的对抗图案具有一定的自相似性,采用具有自相似性的对抗图案对目标检测模型进行对抗训练,能够提升目标检测模型的鲁棒性,使得模型具有较强的对抗能力。
-
公开(公告)号:CN116341551A
公开(公告)日:2023-06-27
申请号:CN202310320934.2
申请日:2023-03-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/211 , G06F40/242 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明实施例提供一种基于依存分析和指代消解的实体言论抽取方法,包括:步骤S1、基于依存分析规则对待测文本进行解析得到依存分析结果,从依存分析结果中得到待测文本中的主语和谓语;步骤S2、识别待测文本中的主语是否为实体,以及识别待测文本中的谓语是否为触发词;步骤S3、在待测文本中的主语为实体且对应谓语为触发词时,提取待测文本中的触发词之后的言论,以得到包含主语、触发词和言论的实体言论,其中,当主语为指代词时,采用指代消解方式从指代词的前文中提取指代词所指代的真实实体名称作为所述实体言论中的主语。本发明实施例通过提取文本中真正的言论以及该言论对应的真实实体,使用户清楚快速地掌握各方的言论、观点和立场。
-
公开(公告)号:CN111897908B
公开(公告)日:2023-05-02
申请号:CN202010398752.3
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04
Abstract: 本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
-
公开(公告)号:CN115934953A
公开(公告)日:2023-04-07
申请号:CN202211199328.1
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/30 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。
-
公开(公告)号:CN115577068A
公开(公告)日:2023-01-06
申请号:CN202210974839.X
申请日:2022-08-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明实施例提供一种实体召回方法,包括:S1、获取待查询实体,利用预先训练的第一编码神经网络对待查询实体进行编码,得到待查询实体的多维浮点值查询向量;S2、将多维浮点值查询向量中每个维度的浮点值按照预设规则映射为非浮点的第一数值或者第二数值,得到多维二值查询向量;S3、根据待查询实体的多维二值查询向量在实体知识库选取部分规范实体生成召回的候选实体集合,其中所述实体知识库包括规范化命名的多个规范实体及按照与每个规范实体对应的多维二值实体向量。本发明将浮点值形式的向量转换为二值形式的向量,降低存储空间占用并提高计算效率。
-
公开(公告)号:CN115511073A
公开(公告)日:2022-12-23
申请号:CN202210991280.1
申请日:2022-08-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种语义匹配模型的训练方法,包括:A1、获取训练集,其包括多个样本,每个样本包含预定文本以及每个预定文本对应的两个待匹配文本,每个样本分别对应有弱标签和权重,弱标签指示对应样本所含两个待匹配文本中的哪一个待匹配文本与预定文本更具相关性,初始权重的数值与指示对应样本的难度的难度指标相关,难度相对越大的样本赋予相对越小的初始权重;A2、利用训练集中的样本对语义匹配模型进行多次迭代训练,使其根据预定文本分别和每个待匹配文本形成的文本对输出两者的相关性得分,根据相关性得分、弱标签以及权重确定加权损失值以更新语义匹配模型,样本的权重根据当前已完成训练的次数进行动态调整。
-
公开(公告)号:CN109815382B
公开(公告)日:2022-07-12
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN114491157A
公开(公告)日:2022-05-13
申请号:CN202210132296.7
申请日:2022-02-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/90 , G06F16/901 , G06F16/903
Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。
-
-
-
-
-
-
-
-
-