-
公开(公告)号:CN111966826B
公开(公告)日:2023-01-24
申请号:CN202010709070.X
申请日:2020-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F18/2415
Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。
-
公开(公告)号:CN111967258A
公开(公告)日:2020-11-20
申请号:CN202010667443.1
申请日:2020-07-13
Applicant: 中国科学院计算技术研究所
IPC: G06F40/289 , G06F40/216
Abstract: 本发明实施例提供了一种构建共指消解模型的方法、共指消解的方法和介质,所述方法包括A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。本发明实施例的技术方案可以提升共指消解过程对于长距离依赖的共指关系的判断性能。
-
公开(公告)号:CN118551761A
公开(公告)日:2024-08-27
申请号:CN202310176248.2
申请日:2023-02-24
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/30 , G06N5/02 , G06F16/35 , G06N3/084 , G06N3/047 , G06N3/0464
Abstract: 本发明提出一种基于主动学习的文本关系抽取方法和系统,包括:从文档库中筛选出所有和知识库中实体对相异的新实体对;使用噪声预测模型筛除所有新实体对中的噪声数据,得到中间实体对,使用关系预测模型对所有中间实体对进行打分,为得分高于阈值的中间实体打标注,形成新关系数据集;合并新关系数据集、重标注数据集和清洁数据集,形成远程监督关系抽取数据集;使用K个具有不同噪声转换矩阵的句子编码器分别拟合句子的向量表示在各标签类型上的噪声分布,以将真实标签的语义表征映射到噪声标签的语义表征空间中,得到句子的预测标签,其中K为标签类型总数;基于训练完成后的K个句子编码器产生的预测结果,得到目标句子中实体对的文本关系。
-
公开(公告)号:CN116541569A
公开(公告)日:2023-08-04
申请号:CN202310539720.4
申请日:2023-05-15
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9035 , G06Q50/00 , G06F16/901
Abstract: 本发明提供了一种社交网络图的处理方法,包括:获取包括第一社交网络图和第二社交网络图的待处理网络图,以及两个图对应的初始锚点对集合;针对所述第一社交网络图和所述第二社交网络图分别提取两个图的节点结构信息;根据所述两个图的节点结构信息采用启发式的过滤规则基于多种相似度计算方式从所述初始锚点对集合中筛选出满足预设相似性要求的初始锚点对,得到经过滤的初始锚点对集合,其中,至少部分相似度计算方式依据两个图中能表征邻居结构的相关特征来计算相似度;基于所述节点结构信息和所述经过滤的初始锚点对集合确定所述第一社交网络图和所述第二社交网络图中节点间的关联关系。
-
公开(公告)号:CN111738003B
公开(公告)日:2023-06-06
申请号:CN202010541415.5
申请日:2020-06-15
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06N3/0464 , G06N3/08
Abstract: 本发明实施例提供了命名实体识别模型训练方法、命名实体识别方法和介质,本发明考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练,基于第一训练模型的参数设置第二训练模型,再用目标领域标记数据集对第二训练模型进行微调,从而得到最终的命名实体识别模型,由此,避免了需要大量标记目标领域的样本用于训练的问题。
-
公开(公告)号:CN112883171B
公开(公告)日:2023-02-03
申请号:CN202110142917.5
申请日:2021-02-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F16/953 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。
-
公开(公告)号:CN111062214B
公开(公告)日:2021-11-19
申请号:CN201911166642.8
申请日:2019-11-25
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于深度学习的集成实体链接方法及系统。首先选取某一个局部相似度模型,对待链接文档给出初步的链接结果。随后,根据每个指称词相应候选实体集合的局部相似度得分,候选实体集合生成方法本发明不加以限制,可采用现有任意候选实体生成方法;局部相似度得分即所选用的局部相似度模型对每个候选实体计算出来的相似度得分,按照下述方法计算每个指称词的有效候选实体集合表达向量。结合全局推断算法,利用指称词所在的文档的文本信息和同一文档中指称词之间的相互关联性完成实体链接任务。本发明利用同一文档中指称词之间的相互关联丰富指称词的语义信息,能够更好地辨别指称词的含义,达到良好的实体链接性能。
-
公开(公告)号:CN111062214A
公开(公告)日:2020-04-24
申请号:CN201911166642.8
申请日:2019-11-25
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于深度学习的集成实体链接方法及系统。首先选取某一个局部相似度模型,对待链接文档给出初步的链接结果。随后,根据每个指称词相应候选实体集合的局部相似度得分,候选实体集合生成方法本发明不加以限制,可采用现有任意候选实体生成方法;局部相似度得分即所选用的局部相似度模型对每个候选实体计算出来的相似度得分,按照下述方法计算每个指称词的有效候选实体集合表达向量。结合全局推断算法,利用指称词所在的文档的文本信息和同一文档中指称词之间的相互关联性完成实体链接任务。本发明利用同一文档中指称词之间的相互关联丰富指称词的语义信息,能够更好地辨别指称词的含义,达到良好的实体链接性能。
-
公开(公告)号:CN114997177B
公开(公告)日:2025-01-24
申请号:CN202210561797.7
申请日:2022-05-23
Applicant: 中国科学院计算技术研究所
IPC: G06F40/30 , G06F40/289 , G06F18/2433 , G06N3/0455 , G06N3/088 , G06N3/048
Abstract: 本发明提供一种基于多标签序列标注的指代消解方法,包括:S1、将待处理文本分割成预设长度且不重合的多个文本片段;S2、采用预训练模型对每个文本片段进行编码得到每个字符的语义表达;S3、基于每个字符的语义表达分别判断每个字符是否属于B I E标签;S4、基于每个字符对应的标签,在连续I标签序列中,基于预设的组合策略组合任意的BE标签对应的字符构成短语,其中,连续I标签序列表示一个连续的字符序列中的每个字符均具有I标签;S5、计算任意两个短语之间的相似性得分,为每个短语保留与其相似性得分排名靠前的预设个数的短语作为其前置候选短语;S6、采用排序模型将每个短语的前置候选短语进行排序并将得分第一的前置候选短语作为其互指对象。
-
公开(公告)号:CN119066217A
公开(公告)日:2024-12-03
申请号:CN202310643813.1
申请日:2023-06-01
Applicant: 中国科学院计算技术研究所
IPC: G06F16/53 , G06N3/0455 , G06N3/084
Abstract: 本发明提供了一种基于模态对比学习的跨模态实体召回方法和装置,所述方法包括以下步骤:T1、获取待查询实体,利用经训练的多模态编码神经网络和预设的归一化方式提取待查询实体的多维待查询实体向量,其中,多模态编码神经网络包括用于对文本模态的输入实体提取向量的文本编码模型以及用于对图像模态的输入实体提取向量的图像编码模型并且根据同模态的对比学习和跨模态的对比学习得到;T2、计算多维待查询实体向量与索引库中存储的各库内实体的多维库内实体向量的相似度,所述各库内实体的多维库内实体向量预先基于所述经训练的多模态编码神经网络和预设的归一化方式提取得到;T3、基于相似度,从索引库中召回多个库内实体作为候选实体。
-
-
-
-
-
-
-
-
-