-
公开(公告)号:CN105488092B
公开(公告)日:2018-05-22
申请号:CN201510408490.3
申请日:2015-07-13
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。
-
公开(公告)号:CN107315734A
公开(公告)日:2017-11-03
申请号:CN201710308896.3
申请日:2017-05-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于时间窗口和语义的变体词规范化的方法和系统。本方法为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。本系统包括采集模块、过滤模块、获取模块和规范词获取模块。本发明使得社交网络的文本变的更加规范,便于舆情分析、热点时间追踪。
-
公开(公告)号:CN109818743B
公开(公告)日:2020-08-28
申请号:CN201910067468.5
申请日:2019-01-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种椭圆曲线公钥文本化传递方法及系统。本方法为:1)对公钥P进行压缩,得到压缩后的公钥P’;2)选取2k个汉字组成数组C,根据公钥P’的长度确定编码公钥P所需汉字个数n;3)设置一保留位OP,然后根据该公钥P’与该保留位OP生成一比特串M;4)将比特串M以每块k位按序拆分为n块,对于每一块中的k位比特串,将其转化为十进制数i,取出数组C中第i个字符C[i]表示该块数据,于是依次将代表n块数据的n个字符拼接后形成新的字符串S;5)将该字符串S与设定的附加信息拼接为字符串L分享给目标接收端。本发明提供了一种对用户友好的、简单易用的密钥传输方法,为使用公钥密码保密通信奠定基础。
-
公开(公告)号:CN110362807A
公开(公告)日:2019-10-22
申请号:CN201810252275.2
申请日:2018-03-26
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于自编码器的变体词识别方法,其步骤包括:将与变体词有关的语料作为数据集,进行分词和向量化;从数据集中生成批量样本,输入到自编码器的各自编码单元中进行非监督的预训练,得到各自编码单元神经网络的神经元参数;从数据集中生成批量正样本和负样本,输入到基于上述各自编码单元神经网络的神经元参数的自编码器中进行监督训练,得到整个神经网络的各神经元参数;将文档中包含的某已知变体词及其上下文向量化,再输入到基于上述整个神经网络的各神经元参数的自编码器中,识别出与该已知变体词关联的候选词。本发明还提供一种基于自编码器的变体词识别系统。
-
公开(公告)号:CN109933707A
公开(公告)日:2019-06-25
申请号:CN201811285020.2
申请日:2018-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。
-
公开(公告)号:CN109905241A
公开(公告)日:2019-06-18
申请号:CN201910067861.4
申请日:2019-01-24
Applicant: 中国科学院信息工程研究所
IPC: H04L9/30
Abstract: 本发明公开了一种椭圆曲线公钥的短汉字编码、解码方法。本发明编码方法为:1)使用椭圆曲线上点压缩方法对公钥P进行压缩,得到压缩后的公钥P’;2)选取2k个汉字组成数组C,根据公钥P’的长度确定编码公钥P所需汉字个数n;3)设置一保留位OP,然后根据该公钥P’与该保留位OP生成一比特串M;4)将比特串M以每块k位按序拆分为n块,对于每一块中的k位比特串,将其转化为十进制数i,取出数组C中第i个字符C[i]表示该块数据,于是依次将代表n块数据的n个字符拼接后形成新的字符串S;5)用该字符串S表示该公钥P。本发明公开的方法使得公钥信息可以以短汉字文本的形式方便地传递,为使用公钥密码保密通信奠定基础。
-
公开(公告)号:CN108415900A
公开(公告)日:2018-08-17
申请号:CN201810112596.2
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。本发明还提供一种基于多级共现关系词图的可视化文本信息发现系统,包括文档预处理模块、关键词提取模块、多级词图构建模块、词-文档索引构建模块及可视化信息发现模块。
-
公开(公告)号:CN108399213A
公开(公告)日:2018-08-14
申请号:CN201810112624.0
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对所有局部簇进行聚类,生成全局簇。本发明还提供一种面向用户个人文件的聚类系统,包括聚类计算单元、聚类结果存储单元和聚类结果查找单元,其中聚类计算单元包括批量文件聚类计算单元和增量文件聚类计算单元。
-
公开(公告)号:CN109933707B
公开(公告)日:2022-10-14
申请号:CN201811285020.2
申请日:2018-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。
-
公开(公告)号:CN109560966B
公开(公告)日:2020-05-22
申请号:CN201811466080.4
申请日:2018-12-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于社会传感器优化的网络级联传播早期发现方法。本方法为:对于目标领域的网络图G,设置一目标函数,并对该目标函数进行求解,得到一社会传感器集合S;其中,社会传感器集合S中的每一社会传感器对应于该目标领域的网络中的一节点;将该网络中该社会传感器集合S对应的节点作为信息采集节点,然后根据各所述信息采集节点采集的信息识别该网络中的级联信息。本方法重点在于区别对待网络中不同重要性的级联信息,减弱重要性低的级联信息对方法的影响,从而使用高效利用网络中的社会传感器更快、更全的发现重要的级联信息。
-
-
-
-
-
-
-
-
-