-
公开(公告)号:CN104735138A
公开(公告)日:2015-06-24
申请号:CN201510102980.0
申请日:2015-03-09
Applicant: 中国科学院计算技术研究所
CPC classification number: H04L67/02 , G06F17/30861
Abstract: 本发明提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。
-
公开(公告)号:CN100593928C
公开(公告)日:2010-03-10
申请号:CN200610113575.X
申请日:2006-09-30
Applicant: 中国科学院计算技术研究所
IPC: H04L12/56
Abstract: 本发明涉及一种基于数据特征的流媒体内容下载方法,包括如下步骤:开启数据包捕捉线程;打开包含视频内容的链接地址,将捕捉到的数据包以二进制数据流的形式缓存到一个缓存文件中;读取缓存文件,根据会话端口分离出多个会话文件;根据会话文件的尺寸和该文件中的媒体内容开始码确认该会话文件中是否包含媒体内容,删除不包含媒体内容的会话文件;根据会话索引文件依次读取会话文件中的数据包,根据数据包中的顺序号、确认号去除重传包、错误包,然后将确认有效的媒体数据包排序并存入新建的媒体内容文件。本发明的优点是,只需提供包含媒体内容的网页地址就能够正确下载需要的媒体内容,同时不会导致流媒体网站性能降低。
-
公开(公告)号:CN100512271C
公开(公告)日:2009-07-08
申请号:CN200410073676.X
申请日:2004-08-31
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种终端网络环境中的分布式设备重定向系统,包括虚拟驱动模块、服务代理模块和终端代理模块,通过应用→虚拟驱动模块→服务代理模块→终端代理模块→终端设备驱动→终端设备的通道,将应用对设备的访问逻辑反映到终端设备上,并按照原通道的逆返回。在这一通信过程中,虚拟驱动往往并不关心操作的细节,只是将设备访问逻辑通过网络传递至终端设备并原路返回。采用上述通信描述过程可以屏蔽不同设备访问细节的差异,具有很强的通用性;同时通过提供特定接口,对某些特殊需要的设备操作提供支持,具有较强的可扩展性。
-
公开(公告)号:CN101382956A
公开(公告)日:2009-03-11
申请号:CN200810223523.7
申请日:2008-10-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1和2直至采集结束。上述方法极大的减小了对存储空间的需求;并且提高了面向主题信息采集的有效性。
-
公开(公告)号:CN101212485A
公开(公告)日:2008-07-02
申请号:CN200610169743.7
申请日:2006-12-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及计算机网络技术中流媒体资源下载技术领域,公开了一种获取流媒体链接地址的方法,该方法包括:A.捕获流媒体数据包;B.判断在捕获的流媒体数据包中是否能够检测到流媒体内容的扩展名,如果能够检测到,则执行步骤C;否则,转到步骤A;C.在流媒体内容扩展名之前检测特定的协议头标识,从协议头标识到扩展名之间的字符串中获取流媒体链接地址。利用本发明,获取了流媒体资源的链接地址,从而有效解决了因无法获得媒体内容的链接地址而不能下载的问题。
-
公开(公告)号:CN110188284B
公开(公告)日:2022-01-28
申请号:CN201910341053.2
申请日:2019-04-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9536 , G06F16/35 , G06Q50/00
Abstract: 本发明提出一种基于检索辅助的谣言检测方法及系统,包括:获取待谣言检测的对象信息,并使用谣言检测算法对该对象信息进行判定,得到该对象信息的初步谣言检测结果;集合已标记谣言标签的谣言信息作为谣言库,抽取得到该对象信息的关键词,以该关键词检索该谣言库,得到该谣言库中与该对象信息相似的多条相似谣言,计算每一条该相似谣言与该对象信息之间的相似度,以为每一条该相似谣言赋予权重,并根据每一条该相似谣言的谣言标签和权重,加权求和得到该多条相似谣言的辅助谣言检测结果;根据该初步谣言检测结果和该辅助谣言检测结果,综合判定该对象信息的谣言标签。
-
公开(公告)号:CN110059498B
公开(公告)日:2021-07-23
申请号:CN201910216242.7
申请日:2019-03-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种用于社交网络的隐私控制自动设置方法及系统,包括:根据待隐私控制用户的个人档案中各用户属性的可见性,统计待隐私控制用户的用户个人公开度;获取由多种隐私属性组成的隐私属性集合,以及获取待隐私控制用户待发布的文本信息,将文本信息输入至多个分类器,每个分类器对应一种隐私属性,分类器输出文本信息属于对应隐私属性取值上的概率分布,归一化概率分布的熵,得到文本信息的适合公开度;根据待隐私控制用户的好友的个人档案和发布内容,得到待隐私控制用户的每一个好友的好友个人公开度;根据用户个人公开度、适合公开度和好友个人公开度,度量文本信息对于各好友的隐私敏感度,并根据隐私敏感度确定文本信息的公开范围。
-
公开(公告)号:CN111694955A
公开(公告)日:2020-09-22
申请号:CN202010382894.0
申请日:2020-05-08
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种社交平台的早期争议性消息检测方法及系统,包括:收集社交平台中关于预设话题下的所有消息,并根据每一条消息的评论信息为每一条消息的争议性进行标记,提取标记后消息的多维度争议性特征作为训练数据,以该训练数据训练梯度提升树模型,得到争议性消息检测模型;从该社交平台获取待发表的消息作为待检测消息,并将该待检测消息的多维度争议性特征输入至该争议性消息检测模型,得到该待检测消息的争议性消息检测结果。本发明可得到社交平台中待审核发表消息的争议性。
-
公开(公告)号:CN110032733A
公开(公告)日:2019-07-19
申请号:CN201910184862.7
申请日:2019-03-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种针对新闻长文本的谣言检测方法及系统,包括:获取指定新闻平台中大于预设字数的文本作为长文本,提取长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;获取标注数据集,标注数据集包括已标注谣言信息的多个社交数据,使用标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用融合模型得到相关数据的可信度得分,用以代表段落为非谣言的概率。本发明使用异源检测方法解决了难以对长文直接判别的问题。
-
公开(公告)号:CN101715004B
公开(公告)日:2013-01-09
申请号:CN200910237595.1
申请日:2009-11-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种面向网络视频的分布式采集方法和系统。所述方法,包括下列步骤:利用预先定制的正则表达式与每一个视频网页的统一资源定位符进行匹配,识别出可能包含视频的网页;从视频网站并行下载所述可能包含视频的网页,分别对下载的所述可能包含视频的网页进行网页结构分析,识别出有效的视频网页的链接地址,并将所述网页结构分析结果合并后存储;根据所述有效的视频网页的链接地址,获取所述有效的视频网页中隐藏的视频的链接地址,并分析所述视频的链接地址以获取真实的视频的链接地址,下载并存储所述真实的视频的链接地址对应的视频。
-
-
-
-
-
-
-
-
-