-
公开(公告)号:CN108595706A
公开(公告)日:2018-09-28
申请号:CN201810443084.4
申请日:2018-05-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。
-
公开(公告)号:CN103716182B
公开(公告)日:2016-08-31
申请号:CN201310681028.1
申请日:2013-12-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向实时云平台的故障检测与容错方法及系统,包括发送命令,提交任务,并将分配给工作节点的任务存储在相应路径下的客户端;用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错,执行故障节点中任务的迁移的全局状态监控模块;用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息的全局状态存储模块;用于执行任务,运行守护进程来守护工作进程,并执行程序级故障检测与容错的工作节点;本发明中使整个集群的状态信息全部存储在Zookeeper系统中,实现节点的无状态架构,节点故障不会造成状态丢失,具有完善的故障检测与容错机制,实现多级容错,保障实时业务的不间断运行。
-
公开(公告)号:CN102855473B
公开(公告)日:2016-03-02
申请号:CN201210299415.4
申请日:2012-08-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于相似性度量的图像多目标检测方法,该方法具体步骤:步骤一:提取目标样本库中每幅图像的特征点,计算出每幅图像的BOF词袋向量,从而构成所述目标样本库的BOF向量集合;步骤二:利用目标样本库的BOF向量集合构建所述目标样本库的M-Tree索引;步骤三:将待检测图像在M-tree索引中进行多目标检测,并将检测果返回给用户;该方法利用BOF向量进行目标检测,具有很好的鲁棒性,对目标形变,遮挡,光照变化不敏感;可以一次检测多个目标,不需要重复检测,可以实现高效的在线多目标检测;该方法可广泛用于网络信息安全、图像多目标检测,视频多目标跟踪等多个领域。
-
公开(公告)号:CN103716182A
公开(公告)日:2014-04-09
申请号:CN201310681028.1
申请日:2013-12-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向实时云平台的故障检测与容错方法及系统,包括发送命令,提交任务,并将分配给工作节点的任务存储在相应路径下的客户端;用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错,执行故障节点中任务的迁移的全局状态监控模块;用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息的全局状态存储模块;用于执行任务,运行守护进程来守护工作进程,并执行程序级故障检测与容错的工作节点;本发明中使整个集群的状态信息全部存储在Zookeeper系统中,实现节点的无状态架构,节点故障不会造成状态丢失,具有完善的故障检测与容错机制,实现多级容错,保障实时业务的不间断运行。
-
公开(公告)号:CN102855473A
公开(公告)日:2013-01-02
申请号:CN201210299415.4
申请日:2012-08-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于相似性度量的图像多目标检测方法,该方法具体步骤:步骤一:提取目标样本库中每幅图像的特征点,计算出每幅图像的BOF词袋向量,从而构成所述目标样本库的BOF向量集合;步骤二:利用目标样本库的BOF向量集合构建所述目标样本库的M—Tree索引;步骤三:将待检测图像在M-t ree索引中进行多目标检测,并将检测果返回给用户;该方法利用BOF向量进行目标检测,具有很好的鲁棒性,对目标形变,遮挡,光照变化不敏感;可以一次检测多个目标,不需要重复检测,可以实现高效的在线多目标检测;该方法可广泛用于网络信息安全、图像多目标检测,视频多目标跟踪等多个领域。
-
公开(公告)号:CN108595706B
公开(公告)日:2022-05-24
申请号:CN201810443084.4
申请日:2018-05-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。
-
公开(公告)号:CN109062899B
公开(公告)日:2021-10-15
申请号:CN201810857156.X
申请日:2018-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。
-
公开(公告)号:CN107885705B
公开(公告)日:2020-12-15
申请号:CN201710930206.8
申请日:2017-10-09
Applicant: 中国科学院信息工程研究所
IPC: G06F40/126 , G06F16/93
Abstract: 本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi‑GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。
-
公开(公告)号:CN103812949B
公开(公告)日:2016-09-07
申请号:CN201410080647.X
申请日:2014-03-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向实时云平台的任务调度与资源分配方法及系统,包括全局状态存储模块获取云平台的运行状况,将运行状况上报给全局状态监控模块;全局状态监控模块根据运行状况,利用任务分配矩阵、任务邻接矩阵和掩码矩阵制定相应的调度策略;根据调度策略在实时云平台中进行节点驱动型和/或任务驱动型任务调度与资源分配,本发明分配任务时充分考虑任务之间的关系、降低节点之间的通信量、减少带宽压力,从而提高平台性能;能很好的适应云平台动态调度的各种情况,保证云平台在运行过程中时刻保持较高的计算性能和资源利用率;且时间复杂度低,适合在具有大规模节点和大任务量的云环境中部署使用。
-
公开(公告)号:CN103346901B
公开(公告)日:2016-01-20
申请号:CN201310227114.5
申请日:2013-06-07
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向数据流处理的元组跟踪方法及系统,该系统包括元组生成器、元组跟踪器和若干个元组处理器,元组生成器生成根元组并处理产生新的元组,然后,将新的元组发送给不同的元组处理器,元组处理器对接收的元组进行处理产生新的元组,每个根元组经过处理后会产生一个元组树,在每个元组树生成过程中,元组生成器向元组跟踪器发送该根元组的相关信息,供元组跟踪器构建该根元组的跟踪记录,元组跟踪器为每个根元组选择一个元组跟踪单元;每个元组处理器处理元组的过程中向元组跟踪器发送元组的相关信息来对跟踪记录的标识位进行更新,本发明可以实现大大降低内存开销,实现元组跟踪单元的负载均衡,提高元组处理的可靠性。
-
-
-
-
-
-
-
-
-