-
公开(公告)号:CN115630145A
公开(公告)日:2023-01-20
申请号:CN202211175448.8
申请日:2022-09-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06N5/04
Abstract: 本发明公开了一种基于多粒度情感的对话推荐方法及系统。本方法为:1)利用对话推荐系统中的编码器对历史对话上下文语句进行语义编码;其中,所述语义编码包括历史对话上下文语义向量编码和多粒度情感感知向量编码;所述历史对话上下文语义向量编码方法为:使用词向量嵌入矩阵和位置嵌入矩阵将历史对话上下文中的每个文本单元表示为对应的文本单元语义向量,得到历史对话上下文的语义表示向量;所述多粒度情感感知向量编码方法为:对历史对话上下文中的情感词进行编码得到历史对话上下文的多粒度情感感知向量;2)对语义编码进行线性变换映射,并将映射结果与历史对话上下文进行拼接后输入对话推荐系统中的解码器,得到推荐的回复语句。
-
公开(公告)号:CN108492200B
公开(公告)日:2022-06-17
申请号:CN201810124041.X
申请日:2018-02-07
Applicant: 中国科学院信息工程研究所
IPC: G06Q50/00 , G06F16/9535 , G06N3/04
Abstract: 本发明涉及一种基于卷积神经网络的用户属性推断方法和装置。该方法根据用户节点的属性和好友关系,建立自中心网络;然后采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。针对好友关系无法直接获取或获取难度较大的社交网络,采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。本发明可以很好的避免人为定义相似度函数的局限性,而且通过卷积核的卷积操作能够更好的表现出不同属性间以及不同的属性维度间的关系,从而能够高效、准确地进行用户缺失属性推断。
-
公开(公告)号:CN108090115B
公开(公告)日:2022-05-17
申请号:CN201711070628.9
申请日:2017-11-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/174 , H04L67/02 , H04L67/06
Abstract: 本发明提出一种针对Gzip压缩数据的过滤方法,根据Gzip压缩数据的特点,并结合KR多模式匹配算法,提升Gzip压缩数据的过滤速度,同时提高处理的实时性和安全性。本发明还提出一种针对Gzip压缩数据的过滤系统,用于执行该方法。
-
公开(公告)号:CN108073679B
公开(公告)日:2021-09-28
申请号:CN201711103789.3
申请日:2017-11-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/903
Abstract: 本发明涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。该方法包括以下步骤:1)获取基于字符出现的频率建立的基于马尔可夫链的模型;2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合。该设备包括接收器、处理器、存储器和发送器。本发明生成的随机模式串集合符合现实世界的概率分布特征,能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合,从而用于串匹配算法的功能测试和性能测试。
-
公开(公告)号:CN107016053B
公开(公告)日:2020-05-22
申请号:CN201710121255.7
申请日:2017-03-02
Applicant: 中国科学院信息工程研究所
IPC: G06F16/174 , G06F9/38
Abstract: 本发明提供一种并行的数据差分方法,步骤包括:(1)文件预处理:将源文件和目标文件初始化,生成源文件的后缀数组,创建补丁文件并初始化;(2)目标文件切分:根据线程数目切分目标文件,为切分后的每一部分目标文件增加一个线程进行独立处理;(3)线程处理过程:在每一线程中,初始化切分后的目标文件,创建patch文件,通过上述后缀数组比较源文件与目标文件生成差分数据,将该差分数据写入该patch文件;(4)主进程合并处理:将上述各线程的已写入差分数据的patch文件一起写入上述补丁文件。本方法采用多线程并行技术,来提高生成补丁的速度。
-
公开(公告)号:CN110688479A
公开(公告)日:2020-01-14
申请号:CN201910764862.4
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F16/33 , G06F16/35 , G06F40/295
Abstract: 本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。
-
公开(公告)号:CN110362818A
公开(公告)日:2019-10-22
申请号:CN201910489380.2
申请日:2019-06-06
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27 , G06N3/04 , G06F16/951
Abstract: 本发明涉及一种基于用户关系结构特征的微博谣言检测方法和系统。该方法包括以下步骤:1)根据用户行为信息构造用户关系结构图,对所述用户关系结构图进行建模得到用户向量;2)根据微博话题流数据的传播路径构造传播树,对所述传播树进行编码得到传播树向量;3)将所述用户向量和所述传播树向量进行级联,并输入神经网络来判断微博话题是否为谣言。该系统包括用户编码器、传播树编码器和集成器。本发明对谣言传播过程中参与的用户进行建模,得到微博数据流中所有用户的向量表示,在谣言检测过程中增加了有用的检测因素,即体现了用户特征的作用,提高了谣言检测系统的正确率和F1值。
-
公开(公告)号:CN110097074A
公开(公告)日:2019-08-06
申请号:CN201910207855.4
申请日:2019-03-19
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
Abstract: 本发明公开了一种基于序列相似度的车辆轨迹压缩方法。本方法为:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。本发明大大节约了存储开销。
-
公开(公告)号:CN109710725A
公开(公告)日:2019-05-03
申请号:CN201811524302.3
申请日:2018-12-13
Applicant: 中国科学院信息工程研究所
IPC: G06F16/31
Abstract: 本发明涉及一种基于文本分类的中文表格列标签恢复方法和系统。该方法的步骤包括:1)从表格中的每一行中提取实体,在网络百科知识平台中搜索提取的实体,获取实体对应的信息详情页面;2)对实体的每一个属性,在实体的信息详情页面中抽取包含属性值的句子,组成属性值的相关文本;3)将属性值的相关文本输入文本分类器中,获取属性值所属的类别,即为属性值所在单元格的类别;4)对于表格的属性列,根据属性列中各单元格所属的类别,使用多数投票的规则确定该属性列的列标签。本发明能够有效的对网络表格进行列标签恢复,恢复列标签后的表格可用于中文知识图谱的构建和扩展,也可用于数据抽取和表格搜索等应用。
-
公开(公告)号:CN108492200A
公开(公告)日:2018-09-04
申请号:CN201810124041.X
申请日:2018-02-07
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于卷积神经网络的用户属性推断方法和装置。该方法根据用户节点的属性和好友关系,建立自中心网络;然后采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。针对好友关系无法直接获取或获取难度较大的社交网络,采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。本发明可以很好的避免人为定义相似度函数的局限性,而且通过卷积核的卷积操作能够更好的表现出不同属性间以及不同的属性维度间的关系,从而能够高效、准确地进行用户缺失属性推断。
-
-
-
-
-
-
-
-
-