-
公开(公告)号:CN109241483B
公开(公告)日:2021-10-12
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN104714938A
公开(公告)日:2015-06-17
申请号:CN201310683961.2
申请日:2013-12-12
Applicant: 联想(北京)有限公司 , 中国科学院计算技术研究所
Abstract: 本发明公开了一种信息处理方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。通过该方法,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
-
公开(公告)号:CN101499277A
公开(公告)日:2009-08-05
申请号:CN200810117244.2
申请日:2008-07-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种服务智能导航方法,包括:对用户所提出查询语句的分词结果进行基于元数据的文法匹配;根据分词结果找出相匹配的词模模式,得到所述相匹配的词模模式所在的服务分类;将分词结果与描述性信息或业务性信息进行匹配查找,得到第一候选服务分类列表;对只有一个候选服务分类的第一候选服务分类列表,从唯一的候选服务分类中获取服务并返回给用户,若候选服务分类大于或等于两个,则对查询语句中的未登录串进行模糊理解,得到第二候选服务分类列表;根据第一候选服务分类列表与第二候选服务分类列表作融合操作,得到公共的候选服务分类,若其唯一,则返回服务给用户,若所述公共的候选服务分类不存在或多于一个,则导航失败。
-
公开(公告)号:CN101499277B
公开(公告)日:2011-05-04
申请号:CN200810117244.2
申请日:2008-07-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种服务智能导航方法,包括:对用户所提出查询语句的分词结果进行基于元数据的文法匹配;根据分词结果找出相匹配的词模模式,得到所述相匹配的词模模式所在的服务分类;将分词结果与描述性信息或业务性信息进行匹配查找,得到第一候选服务分类列表;对只有一个候选服务分类的第一候选服务分类列表,从唯一的候选服务分类中获取服务并返回给用户,若候选服务分类大于或等于两个,则对查询语句中的未登录串进行模糊理解,得到第二候选服务分类列表;根据第一候选服务分类列表与第二候选服务分类列表作融合操作,得到公共的候选服务分类,若其唯一,则返回服务给用户,若所述公共的候选服务分类不存在或多于一个,则导航失败。
-
公开(公告)号:CN118445392A
公开(公告)日:2024-08-06
申请号:CN202410577965.0
申请日:2024-05-10
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F40/284 , G06F40/30
Abstract: 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信息表示;获取网页中的提示词,利用该提示词对初始问题文本进行信息增强,得到目标问题文本;将该逻辑结构信息表示与该空间结构信息表示融合,输入到网页阅读理解模型中;以及将该目标问题文本与该网页内容文本拼接,输入到该网页阅读理解模型中,获取答案。该方法提升了模型的网页理解能力,进而提高答案的准确性和相关性。
-
公开(公告)号:CN104714938B
公开(公告)日:2017-12-29
申请号:CN201310683961.2
申请日:2013-12-12
Applicant: 联想(北京)有限公司 , 中国科学院计算技术研究所
Abstract: 本发明公开了一种信息处理方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。通过该方法,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
-
公开(公告)号:CN104714939B
公开(公告)日:2017-09-29
申请号:CN201310685298.X
申请日:2013-12-13
Applicant: 联想(北京)有限公司 , 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明公开了一种信息处理方法,用以提高确定出的无关语的准确性。该方法包括:在至少一个初始信息中,确定M个第一标识信息和N个第二标识信息;分别根据每个第一标识信息按预定规则进行搜索,获得相应的M’搜索信息组,且所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;分别根据每个第二标识信息在所述待处理信息中进行扩展,获得相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合。本发明还公开了相应的电子设备。
-
公开(公告)号:CN104714939A
公开(公告)日:2015-06-17
申请号:CN201310685298.X
申请日:2013-12-13
Applicant: 联想(北京)有限公司 , 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明公开了一种信息处理方法,用以提高确定出的无关语的准确性。该方法包括:在至少一个初始信息中,确定M个第一标识信息和N个第二标识信息;分别根据每个第一标识信息按预定规则进行搜索,获得相应的M’搜索信息组,且所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;分别根据每个第二标识信息在所述待处理信息中进行扩展,获得相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合。本发明还公开了相应的电子设备。
-
-
-
-
-
-
-
-
-