-
公开(公告)号:CN114048395B
公开(公告)日:2024-07-05
申请号:CN202111305785.X
申请日:2021-11-05
Applicant: 中国科学院信息工程研究所
IPC: G06F18/25 , G06F18/15 , G06F18/22 , G06F40/194 , G06F40/30 , G06N3/0455 , G06N3/0442 , G06F16/9536 , G06Q50/00 , G06F123/02 , G06N3/048
Abstract: 本发明涉及一种基于时间感知与关键信息抽取的用户转发预测方法和系统。该方法的步骤包括:根据用户与目标推文的原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示;使用Topk‑Mask机制动态地抽取用户的朋友圈信息关键词,使用Tweet‑Mask机制学习用户的每条朋友圈推文的权重,并将两种机制输出的结果合并,得到用户的朋友圈特征表示;根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示,以及用户的朋友圈特征表示,预测用户是否会对目标推文进行转发。本发明能够有效提高用户转发预测的准确率。
-
公开(公告)号:CN112380835B
公开(公告)日:2024-02-20
申请号:CN202011078614.3
申请日:2020-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06F40/205 , G06F40/295 , G06F40/30 , G06N3/042
Abstract: 本发明提供一种融合实体和句子推理信息的问题答案提取方法及电子装置,包括:将一问题与若干目标文档拼接,输入预训练语言模型,得到问题表示Q与文档上下文表示C;获取融合文档信息的问题表示Q0与融合问题信息的文档表示C0;依据问题表示Q(t‑1)与文档表示Ct‑1,获取实体图节点集合E(t‑1)与句子图节点集合#imgabs0#并采用图注意力网络对实体图与句子图更新,获取问题表示Q(t)与文档表示Ct;对实体图节点集合E(t)与句子图节点集合#imgabs1#融合并与文档表示Ct交互;依据推理更新后上下文表示C′(t),获取问题答案预测结果。本发明提出引入句子节点的图神经网络,通过门机制将实体表示与句子表示融合,利用句子级别推理信息弥补实体推理信息的缺失,提升推理阅读理解任务的性能。
-
公开(公告)号:CN112256861B
公开(公告)日:2023-09-26
申请号:CN202010929737.7
申请日:2020-09-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/284 , G06F16/953 , G06N3/045 , G06N3/0442 , G06N3/08
Abstract: 本发明提供一种基于搜索引擎返回结果的谣言检测方法及电子装置,包括:依据一原文的内容,检索得到若干文档及相应发布来源,并从每一所述文档中选取若干单词组成一证据文档;拼接原文、原文发布人与每一证据文档及相应发布来源,得到一文本集合,并将所述文本集合输入到预训练语言模型,得到原文和证据文档之间的相关性特征;依据相关性特征对原文进行分类,判断原文是否为谣言。本发明未使用特征工程和领域知识,从外部证据文章中捕获对谣言检测有帮助的词句,训练数据获得难度极低,准确率优于现有方法。
-
公开(公告)号:CN110569338B
公开(公告)日:2022-05-03
申请号:CN201910660759.5
申请日:2019-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种生成式对话系统解码器训练方法及解码方法。本方法为:1)对于问句编码集合中的每一问句编码,使用前向、后向神经网络对该问句编码进行预测分别得到一向量表示结果;2)计算前向、后向神经网络每一步预测结果的差异,作为生成式对话系统编码器的损失函数;3)计算前向、后向神经网络每一步状态的差异,作为二者的局部差异;4)计算前向、后向神经网络所生成向量表示结果的句子向量表示,并计算两句子向量表示的差异,作为二者的整体性差异;5)将局部差异和整体性差异作为惩罚项函数加入损失函数中,得到整体惩罚函数作为生成式对话系统编码器的损失函数;6)采用训练后的前向神经网络对问句编码进行预测,生成回复内容。
-
公开(公告)号:CN114049234A
公开(公告)日:2022-02-15
申请号:CN202111305784.5
申请日:2021-11-05
Applicant: 中国科学院信息工程研究所
IPC: G06Q50/00 , G06N3/04 , G06N3/08 , G06K9/62 , G06F16/9536
Abstract: 本发明涉及基于用户行为与社交关系的用户成长值打分方法和系统。该方法的步骤包括:根据用户原始数据学习不同时间级别的用户行为时序特征,并根据用户发表的内容的影响力得到内容影响力特征,通过将内容影响力特征与用户行为时序特征交互得到融合时序行为的用户特征;使用注意力机制学习用户的不同邻居用户的权值,进而得到用户的权值矩阵;将融合时序行为的用户特征和用户的权值矩阵输入图卷积神经网络,得到用户成长值。本发明解决了社交关系在用户特征学习中利用不充分的问题,提高了用户成长值打分的准确率。
-
公开(公告)号:CN112380835A
公开(公告)日:2021-02-19
申请号:CN202011078614.3
申请日:2020-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06F40/205 , G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明提供一种融合实体和句子推理信息的问题答案提取方法及电子装置,包括:将一问题与若干目标文档拼接,输入预训练语言模型,得到问题表示Q与文档上下文表示C;获取融合文档信息的问题表示Q0与融合问题信息的文档表示C0;依据问题表示Q(t‑1)与文档表示Ct‑1,获取实体图节点集合E(t‑1)与句子图节点集合 并采用图注意力网络对实体图与句子图更新,获取问题表示Q(t)与文档表示Ct;对实体图节点集合E(t)与句子图节点集合 融合并与文档表示Ct交互;依据推理更新后上下文表示C′(t),获取问题答案预测结果。本发明提出引入句子节点的图神经网络,通过门机制将实体表示与句子表示融合,利用句子级别推理信息弥补实体推理信息的缺失,提升推理阅读理解任务的性能。
-
公开(公告)号:CN112380326A
公开(公告)日:2021-02-19
申请号:CN202011079727.5
申请日:2020-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/36 , G06N3/04
Abstract: 本发明提供一种基于多层感知的问题答案抽取方法,其步骤包括:将一问题与若干目标文档拼接,输入到预训练语言模型中,得到问题的表示Q与目标文档的上下文表示P,将表示Q与上下文表示P交互,得到文档相关的问题表示u与融合问题信息的文档表示h;对问题表示u进行多层感知分类,获取问题的推理类型,并根据推理类型、问题表示u、文档表示h及通过表示Q生成的子问题ct,得到所述问题在目标文档中的答案注意力分布,其中t为生成子问题的次数;依据答案注意力分布,获取该问题的答案预测结果。本发明以子问题拆分的形式递进回答问题,引入推理类别分类器控制拆分,对问题的回答进行共享,提升推理阅读理解效果。
-
公开(公告)号:CN112380326B
公开(公告)日:2022-07-08
申请号:CN202011079727.5
申请日:2020-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/36 , G06N3/04
Abstract: 本发明提供一种基于多层感知的问题答案抽取方法,其步骤包括:将一问题与若干目标文档拼接,输入到预训练语言模型中,得到问题的表示Q与目标文档的上下文表示P,将表示Q与上下文表示P交互,得到文档相关的问题表示u与融合问题信息的文档表示h;对问题表示u进行多层感知分类,获取问题的推理类型,并根据推理类型、问题表示u、文档表示h及通过表示Q生成的子问题ct,得到所述问题在目标文档中的答案注意力分布,其中t为生成子问题的次数;依据答案注意力分布,获取该问题的答案预测结果。本发明以子问题拆分的形式递进回答问题,引入推理类别分类器控制拆分,对问题的回答进行共享,提升推理阅读理解效果。
-
公开(公告)号:CN110569499A
公开(公告)日:2019-12-13
申请号:CN201910648554.5
申请日:2019-07-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于多模态词向量的生成式对话系统编码方法及编码器。本方法为:1)根据当前语料与单词的上下文语境训练多模态词向量,其中每个单词生成多个词向量;2)使用双向LSTM神经网络与词向量对问句进行编码,然后将每个单词对应的前向神经网络的隐层状态与后向神经网络的隐层状态进行拼接作为该单词的上下文表示;3)将该单词的上下文表示与该单词的每一词向量分别计算相关度得分,取得分最高的词向量作为该单词的词向量;4)使用LSTM与该问句的各单词词向量对该问句进行编码,得到该问句的分布表示;5)对该问句的分布进行随机采样得到该问句的编码。本发明提高了句子编码的精准性。
-
公开(公告)号:CN115640374A
公开(公告)日:2023-01-24
申请号:CN202211073407.8
申请日:2022-09-02
Applicant: 国网江苏省电力有限公司 , 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于深度特征融合的句子级关系抽取方法及装置,所述方法包括:基于Bert预训练语言模型,得到每一个词项对应的语义特征;结合语义特征,获取关系m下注意力机制计算的词项间的关联矩阵Lm;基于关联矩阵Lm,预测词项间在关系m下的关联矩阵Am;基于关联矩阵Lm与语义特征,计算词项作为主体元素的客体特征以及作为客体元素的主体特征;将语义特征分别与客体特征、主体特征拼接;对拼接结果进行序列标注,得到对应的词在关系m下的主体标注特征和客体标注特征,以判断该词为主体实体、客体实体或非实体;基于句子中的主体实体、客体实体与关联矩阵Am,得到在关系m下的关系三元组。本发明可以解决SEO、EPO、以及SOO三类关系重叠问题。
-
-
-
-
-
-
-
-
-