-
公开(公告)号:CN114997177A
公开(公告)日:2022-09-02
申请号:CN202210561797.7
申请日:2022-05-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于多标签序列标注的指代消解方法,包括:S1、将待处理文本分割成预设长度且不重合的多个文本片段;S2、采用预训练模型对每个文本片段进行编码得到每个字符的语义表达;S3、基于每个字符的语义表达分别判断每个字符是否属于B I E标签;S4、基于每个字符对应的标签,在连续I标签序列中,基于预设的组合策略组合任意的BE标签对应的字符构成短语,其中,连续I标签序列表示一个连续的字符序列中的每个字符均具有I标签;S5、计算任意两个短语之间的相似性得分,为每个短语保留与其相似性得分排名靠前的预设个数的短语作为其前置候选短语;S6、采用排序模型将每个短语的前置候选短语进行排序并将得分第一的前置候选短语作为其互指对象。
-
公开(公告)号:CN111428519B
公开(公告)日:2022-03-29
申请号:CN202010151246.4
申请日:2020-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于熵的神经机器翻译动态解码方法及系统,通过分析句子的熵值与BLEU值之间的关系,发现BLEU值高的句子中单词的平均熵值比BLEU值低的句子中单词的平均熵值小,且熵值低的句子的BLEU值普遍比熵值高的句子的BLEU值高。通过计算句子的熵值与BLEU值之间的Pearson系数,发现两者之间存在相关性。因此,本发明提出在训练过程解码阶段的每个时间步,不仅要以一定的概率采样选择真实单词或预测单词获取上下文信息,还要根据上一个时间步的预测结果计算熵值,然后根据熵值动态调整上下文信息的权重。解决了神经机器翻译模型在解码过程中因训练和推断之间的上下文信息差异而导致的错误累积问题。
-
公开(公告)号:CN111897908A
公开(公告)日:2020-11-06
申请号:CN202010398752.3
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04
Abstract: 本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
-
公开(公告)号:CN111259658A
公开(公告)日:2020-06-09
申请号:CN202010080710.5
申请日:2020-02-05
Applicant: 中国科学院计算技术研究所
IPC: G06F40/279 , G06F40/216 , G06K9/62
Abstract: 本发明提出一种基于类别稠密向量表示的通用文本分类方法及系统,包括:获取包括以标记类别文本的训练数据,使用全连接网络处理该训练数据,得到各类别的类别稠密向量;将待分类文本输入至深度神经网络,得到该待分类文本中每个词的词稠密向量,并集合该词稠密向量得到该待分类文本的文本稠密向量;将该文本稠密向量和该类别稠密向量输入至匹配度测量模型,得到该待分类文本属于各类别的概率分布,将该待分类文本与该概率分布中概率最大的类别相匹配,作为该待分类文本的分类结果。本发明基于类别稠密向量表示,将文本分类问题转化为文本匹配问题,通过计算输入文本与每个类别之间的匹配程度,将文本分到匹配程度最大的类别之中。
-
公开(公告)号:CN119669398A
公开(公告)日:2025-03-21
申请号:CN202411658765.4
申请日:2024-11-20
Applicant: 中国科学院计算技术研究所
IPC: G06F16/3329 , G06F40/211 , G06F40/284 , G06N5/04
Abstract: 本发明提供了一种基于查询引导的上下文压缩方法,包括:将查询信息和待压缩的上下文填入对话模板;分别计算所述对话模板的所述上下文中若干词元的第一注意力数值;根据所述若干词元对应的所述第一注意力数值将所述上下文进行注意力重构;将注意力重构后的所述上下文压缩到预定的目标压缩率之内。本发明还提供一种基于查询引导的上下文压缩系统、存储介质及电子设备。借此,本发明能够更高效地保留关键信息,将更短的上下文输入给生成模型,提高长上下文推理场景下生成模型的推理效率,降低推理成本。
-
公开(公告)号:CN111897908B
公开(公告)日:2023-05-02
申请号:CN202010398752.3
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04
Abstract: 本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
-
公开(公告)号:CN115577068A
公开(公告)日:2023-01-06
申请号:CN202210974839.X
申请日:2022-08-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明实施例提供一种实体召回方法,包括:S1、获取待查询实体,利用预先训练的第一编码神经网络对待查询实体进行编码,得到待查询实体的多维浮点值查询向量;S2、将多维浮点值查询向量中每个维度的浮点值按照预设规则映射为非浮点的第一数值或者第二数值,得到多维二值查询向量;S3、根据待查询实体的多维二值查询向量在实体知识库选取部分规范实体生成召回的候选实体集合,其中所述实体知识库包括规范化命名的多个规范实体及按照与每个规范实体对应的多维二值实体向量。本发明将浮点值形式的向量转换为二值形式的向量,降低存储空间占用并提高计算效率。
-
公开(公告)号:CN115511073A
公开(公告)日:2022-12-23
申请号:CN202210991280.1
申请日:2022-08-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种语义匹配模型的训练方法,包括:A1、获取训练集,其包括多个样本,每个样本包含预定文本以及每个预定文本对应的两个待匹配文本,每个样本分别对应有弱标签和权重,弱标签指示对应样本所含两个待匹配文本中的哪一个待匹配文本与预定文本更具相关性,初始权重的数值与指示对应样本的难度的难度指标相关,难度相对越大的样本赋予相对越小的初始权重;A2、利用训练集中的样本对语义匹配模型进行多次迭代训练,使其根据预定文本分别和每个待匹配文本形成的文本对输出两者的相关性得分,根据相关性得分、弱标签以及权重确定加权损失值以更新语义匹配模型,样本的权重根据当前已完成训练的次数进行动态调整。
-
公开(公告)号:CN112883171A
公开(公告)日:2021-06-01
申请号:CN202110142917.5
申请日:2021-02-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F16/953 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。
-
公开(公告)号:CN111966826A
公开(公告)日:2020-11-20
申请号:CN202010709070.X
申请日:2020-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06K9/62
Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。
-
-
-
-
-
-
-
-
-