-
公开(公告)号:CN110519219A
公开(公告)日:2019-11-29
申请号:CN201910610724.0
申请日:2019-07-08
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于格的口令认证密钥交换方法及系统。本发明通过使用错误协调机制AKC,当两个参与方交换完信息seed,yC和yS,并根据这些信息分别计算出两个近似的值σC和σS时,可以从中协调出相同的协调值,用于后续的验证和会话密钥的派生。AKC生成的信号值独立于协调值,且协调值均匀分布,即使敌手获取到信号值,也无法从中推断出协调值的信息,保证了方案的安全性。本发明大大提高了服务器的响应效率,使方案能更适用于大量客户端同时连接服务器的高并发情况。
-
公开(公告)号:CN109948015A
公开(公告)日:2019-06-28
申请号:CN201710880652.2
申请日:2017-09-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/958
Abstract: 本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。
-
公开(公告)号:CN107315734A
公开(公告)日:2017-11-03
申请号:CN201710308896.3
申请日:2017-05-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于时间窗口和语义的变体词规范化的方法和系统。本方法为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。本系统包括采集模块、过滤模块、获取模块和规范词获取模块。本发明使得社交网络的文本变的更加规范,便于舆情分析、热点时间追踪。
-
公开(公告)号:CN109818743B
公开(公告)日:2020-08-28
申请号:CN201910067468.5
申请日:2019-01-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种椭圆曲线公钥文本化传递方法及系统。本方法为:1)对公钥P进行压缩,得到压缩后的公钥P’;2)选取2k个汉字组成数组C,根据公钥P’的长度确定编码公钥P所需汉字个数n;3)设置一保留位OP,然后根据该公钥P’与该保留位OP生成一比特串M;4)将比特串M以每块k位按序拆分为n块,对于每一块中的k位比特串,将其转化为十进制数i,取出数组C中第i个字符C[i]表示该块数据,于是依次将代表n块数据的n个字符拼接后形成新的字符串S;5)将该字符串S与设定的附加信息拼接为字符串L分享给目标接收端。本发明提供了一种对用户友好的、简单易用的密钥传输方法,为使用公钥密码保密通信奠定基础。
-
公开(公告)号:CN110362807A
公开(公告)日:2019-10-22
申请号:CN201810252275.2
申请日:2018-03-26
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于自编码器的变体词识别方法,其步骤包括:将与变体词有关的语料作为数据集,进行分词和向量化;从数据集中生成批量样本,输入到自编码器的各自编码单元中进行非监督的预训练,得到各自编码单元神经网络的神经元参数;从数据集中生成批量正样本和负样本,输入到基于上述各自编码单元神经网络的神经元参数的自编码器中进行监督训练,得到整个神经网络的各神经元参数;将文档中包含的某已知变体词及其上下文向量化,再输入到基于上述整个神经网络的各神经元参数的自编码器中,识别出与该已知变体词关联的候选词。本发明还提供一种基于自编码器的变体词识别系统。
-
公开(公告)号:CN109933707A
公开(公告)日:2019-06-25
申请号:CN201811285020.2
申请日:2018-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。
-
公开(公告)号:CN109905241A
公开(公告)日:2019-06-18
申请号:CN201910067861.4
申请日:2019-01-24
Applicant: 中国科学院信息工程研究所
IPC: H04L9/30
Abstract: 本发明公开了一种椭圆曲线公钥的短汉字编码、解码方法。本发明编码方法为:1)使用椭圆曲线上点压缩方法对公钥P进行压缩,得到压缩后的公钥P’;2)选取2k个汉字组成数组C,根据公钥P’的长度确定编码公钥P所需汉字个数n;3)设置一保留位OP,然后根据该公钥P’与该保留位OP生成一比特串M;4)将比特串M以每块k位按序拆分为n块,对于每一块中的k位比特串,将其转化为十进制数i,取出数组C中第i个字符C[i]表示该块数据,于是依次将代表n块数据的n个字符拼接后形成新的字符串S;5)用该字符串S表示该公钥P。本发明公开的方法使得公钥信息可以以短汉字文本的形式方便地传递,为使用公钥密码保密通信奠定基础。
-
公开(公告)号:CN108415900A
公开(公告)日:2018-08-17
申请号:CN201810112596.2
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。本发明还提供一种基于多级共现关系词图的可视化文本信息发现系统,包括文档预处理模块、关键词提取模块、多级词图构建模块、词-文档索引构建模块及可视化信息发现模块。
-
公开(公告)号:CN108399213A
公开(公告)日:2018-08-14
申请号:CN201810112624.0
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对所有局部簇进行聚类,生成全局簇。本发明还提供一种面向用户个人文件的聚类系统,包括聚类计算单元、聚类结果存储单元和聚类结果查找单元,其中聚类计算单元包括批量文件聚类计算单元和增量文件聚类计算单元。
-
公开(公告)号:CN109933707B
公开(公告)日:2022-10-14
申请号:CN201811285020.2
申请日:2018-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/955 , G06F16/958
Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。
-
-
-
-
-
-
-
-
-