-
公开(公告)号:CN111859979A
公开(公告)日:2020-10-30
申请号:CN202010549940.1
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/953 , G06N3/04
Abstract: 本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
-
公开(公告)号:CN111047448A
公开(公告)日:2020-04-21
申请号:CN201911392756.4
申请日:2019-12-30
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了多通道数据融合的分析方法,包括:根据恶意数字货币地址为种子,从暗网中爬取交易数据,所述交易数据包括交易地址及交易内容;将具有相同身份标识的交易地址的交易内容合并;结合区块链交易流分析和明网数据分析,对交易地址的身份标识进行信息补充。本发明还提供了多通道数据融合的分析装置。本发明通过对互联网和暗网信息进行关联分析,能有效弥补主被动分析方法的问题。
-
公开(公告)号:CN110443476A
公开(公告)日:2019-11-12
申请号:CN201910667446.2
申请日:2019-07-23
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于知识标注评价的任务分配方法,其特征在于,包括:对标注员往期标注任务进行评分,并按任务完成时段及按任务类型将综合分数存储于标注员人物库中;根据待分配任务的类型和任务发布时间所属时段检索标注员人物库,筛选综合分数高于预定阈值的标注员,并从中选出已分配任务量最少的标注员,向其下发待分配任务。本发明公开了一种基于知识标注评价的任务分配系统。本发明在任务分配时综合利用标注员评价结果,根据知识库类型、业务方向、标注效果等维度建立任务分配策略,将新的标注任务自动分配给合适的标注员,提升任务分配的效率及知识标注的整体质量。
-
公开(公告)号:CN110083699A
公开(公告)日:2019-08-02
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN114357290B
公开(公告)日:2024-10-15
申请号:CN202111635132.8
申请日:2021-12-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明通过网络技术处理领域的方法,公开了一种多视角社交媒体用户立场检测方法与装置,分为两个模块执行:多视角话题表征模块:根据原始语料构建包含多种节点的异构图,并从三个视角抽取出三种不同的以话题为中心的关系网络,构建用户表征,话题表征,文本表征;多视角用户立场检测模块:根据输入话题检索多视角话题表征模块输出的话题表征,取出该话题对应的话题表征,得到融合话题的文本表征并分别与多视角话题表征模块输出的用户表征,话题表征,文本表征进行拼接预测用户这段评论文本对该话题的立场,并利用与多视角话题表征模块共享的权重进行加权求和得到最终立场。实现了准确分析用户对某话题所持立场的效果。
-
公开(公告)号:CN117556043A
公开(公告)日:2024-02-13
申请号:CN202311490975.2
申请日:2023-11-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/30 , G06F40/253 , G06F40/216 , G06N3/0455
Abstract: 本公开涉及一种热点话题提取方法、装置、电子设备及存储介质。其中,热点话题提取方法包括:获取目标文本;获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量;基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性;基于主题相似度和主题一致性,对多个主题进行合并处理,得到至少一个主题簇;计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,由此,能够在进行热点话题提取时考虑到文本中各个词语之间的语义和语法关联性,提高了提取的热点话题的准确性。
-
公开(公告)号:CN113688310B
公开(公告)日:2023-08-29
申请号:CN202110839324.4
申请日:2021-07-23
Applicant: 北京中科闻歌科技股份有限公司 , 国家计算机网络与信息安全管理中心 , 国科智安(北京)科技有限公司
IPC: G06F16/9535 , G06Q50/00
Abstract: 本公开涉及一种内容推荐方法、装置、设备及存储介质。该方法包括:获取多媒体内容,确定多媒体内容的推荐度影响参数,推荐度影响参数包括互动热度和内容热度,互动热度用于表征针对多媒体内容的互动程度,内容热度用于表征多媒体内容所属的目标主题的受关注程度,基于推荐度影响参数,确定多媒体内容的目标推荐度,在目标推荐度大于或等于预设推荐度阈值的情况下,将多媒体内容推荐至目标用户。根据本公开实施例,提高目标用户对所推荐的多媒体内容感兴趣的可能性,从而提高内容推荐的准确性。
-
公开(公告)号:CN114417211A
公开(公告)日:2022-04-29
申请号:CN202111319929.7
申请日:2021-11-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/9536 , G06Q50/00
Abstract: 本发明公开了一种面向社交平台的数据采集方法,包括:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。本发明公开了面向社交平台的数据采集系统,包括:Web数据采集模块、APP数据采集模块和双终端数据对齐融合模块。本发明的方法与系统同时适用于Web端和APP端的社交平台数据采集,能够获得全量的社交平台数据。
-
-
-
-
-
-
-
-
-