-
公开(公告)号:CN110688479B
公开(公告)日:2022-06-17
申请号:CN201910764862.4
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F16/33 , G06F16/35 , G06F40/295
Abstract: 本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。
-
公开(公告)号:CN109783696B
公开(公告)日:2021-06-04
申请号:CN201811466997.4
申请日:2018-12-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/2458
Abstract: 本发明公开了一种面向弱结构相关性的多模式图索引构建方法及系统。本方法为:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;2)构建模式图同构树:对各模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到模式图集合的模式图同构树;3)对模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到模式图同构树中;4)当模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算模式图同构树的最小生成树,并对其进行深度优先遍历,得到模式图集的最优匹配顺序。本发明能够大大提高匹配效率。
-
公开(公告)号:CN110233938B
公开(公告)日:2020-12-22
申请号:CN201910398052.1
申请日:2019-05-14
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于可疑性度量的团伙诈骗电话识别方法,采用无监督的方式,利用电话号码之间的呼叫记录信息,为每个电话号码定义可疑性度量,采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果,不仅能避免主观判断带来的缺陷,还能在较短时间内完成模型训练与线上使用,为用户遭受团体诈骗提供了一种简单、实用的识别方法,有效地缓解了滞后性所带来的问题。
-
公开(公告)号:CN112000818A
公开(公告)日:2020-11-27
申请号:CN202010663328.7
申请日:2020-07-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/432 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种面向文本和图像的跨媒体检索方法及电子装置,提取一设定长度语音信息的g维MFCC特征,并将长度为m的g维MFCC特征转换为一维语音特征;对一设定文本进行编码,获取词级别文本表示,并将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征;提取每一图片的区域特征,计算区域特征与语音引导文本特征的相似性分数,判断该图片是否包含设定语音信息及设定文本信息,得到检索结果。本发明利用语音信息的停顿信息,以及语音信息与图像和文本间的关联关系来提升图像-文本匹配任务的性能,建模了融合语音信息的文本特征表示,引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合,提升图文匹配效果。
-
公开(公告)号:CN111753150A
公开(公告)日:2020-10-09
申请号:CN202010412344.9
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9032
Abstract: 本发明公开一种基于图搜索方法加速epsilon闭包计算的方法及系统,涉及计算机领域,针对传统闭包计算整体消耗时间长的缺陷,为了优化闭包算法,利用图搜索的方法,在NFA构造DFA的过程中对现有的方法进行优化,加速了DFA的构造过程。
-
公开(公告)号:CN111597330A
公开(公告)日:2020-08-28
申请号:CN201910129637.3
申请日:2019-02-21
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种基于支持向量机的面向智能专家推荐的用户画像方法,其步骤包括:1)利用设定专家的个人信息,获取一专家信息数据集;2)对该专家信息数据集中的每一条专家信息处理为一个由词语序列构建而成的句子;3)计算每篇文档中的每个词语的TF-IDF值,构成TF-IDF权重矩阵tdm;4)利用该TF-IDF权重矩阵tdm生成TF-IDF特征空间;然后在该TF-IDF特征空间中构建并训练支持向量机模型;5)根据待构建画像专家的文本信息生成对应TF-IDF值,然后在该TF-IDF特征空间中利用训练后的支持向量机模型对该TF-IDF值进行分类,生成该待构建画像专家的用户画像。本方法用户画像准确性高。
-
公开(公告)号:CN106980858B
公开(公告)日:2020-08-18
申请号:CN201710112377.X
申请日:2017-02-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法,该系统包括:一特征提取网络,用于从待检测图像中提取底层的CNN特征,得到若干不同的特征图;至少三个区域建议网络,用于分别对上述不同的特征图进行二分类以及边界框回归,然后根据包含文本的特征图产生文本候选区域;一过渡区域,用于连接多个上述文本候选区域,并根据上述包含文本的特征图及文本候选区域产生区域卷积特征图;一文本检测网络,用于根据上述区域卷积特征图产生文本区域边界框偏置信息,并对上述偏置信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息。
-
公开(公告)号:CN107451433B
公开(公告)日:2020-05-22
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F21/16 , G06F40/211 , G06F40/284 , G06N3/04
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
公开(公告)号:CN110929029A
公开(公告)日:2020-03-27
申请号:CN201911064089.7
申请日:2019-11-04
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于图卷积神经网络的文本分类方法及系统。本方法为:1)对于目标领域的文本训练集中的每一已类别标注文本,根据该文本中词的词频、逆文档率生成该文本的文本特征向量;将各文本特征向量组合生成一文本特征矩阵,即TF-IDF矩阵,并根据词的词向量相似度构建一该文本训练集的图结构;2)利用所述图结构及文本特征矩阵训练图卷积神经网络;3)对于该目标领域的一待分类文本a,将该文本a的文本特征向量输入训练后的图卷积神经网络,得到该文本a的类别。本发明不仅考虑到文本的语义结构信息,而且从另一个角度捕捉文本的隐藏特征,分类准确性高。
-
公开(公告)号:CN110704606A
公开(公告)日:2020-01-17
申请号:CN201910764261.3
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于图文融合的生成式摘要生成方法,其步骤包括:1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。本发明生成的摘要可以有效地调整文本中实体的权重,在一定程度缓解未登录词的问题。
-
-
-
-
-
-
-
-
-