-
公开(公告)号:CN104598536B
公开(公告)日:2017-10-20
申请号:CN201410840847.0
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种分布式网络信息结构化处理方法。对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;对聚类后的网页信息进行结构化提取,保存到数据库中。本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
-
公开(公告)号:CN104598536A
公开(公告)日:2015-05-06
申请号:CN201410840847.0
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30091 , G06F17/30115
Abstract: 本发明公开了一种分布式网络信息结构化处理方法。对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;对聚类后的网页信息进行结构化提取,保存到数据库中。本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
-
公开(公告)号:CN104572915A
公开(公告)日:2015-04-29
申请号:CN201410833448.1
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06Q50/01
Abstract: 本发明公开了一种基于内容环境增强的用户事件相关度计算方法。利用话题模型将用户和社交事件的档案降低维度转化成话题分布;计算得到该用户档案和该社交事件档案的用户偏好特征;将用户偏好特征作为用户参加所对应事件的概率,计算采用基于协同过滤方法提取线上、线下社交影响特征;根据用户城市的事件,得到当地兴趣的话题分布,再与事件比较来得到本地流行度特征;通过训练学习排序模型,得到用户事件相关度。本发明通过充分挖掘事件社交网络中的内容环境相关信息,提取出用户偏好、社交影响、当地流行度的特征进行计算,并通过结合多项特征提高了最终结果的准确度,解决了个性化推荐系统中针对社交事件这类新对象进行推荐的技术问题。
-
公开(公告)号:CN103678610A
公开(公告)日:2014-03-26
申请号:CN201310690339.4
申请日:2013-12-16
Applicant: 浙江大学
CPC classification number: G06F17/30241 , G06F17/30244 , G06K9/00624
Abstract: 本发明公开了一种基于智能手机传感器的物体识别方法,该发明充分利用了智能手机丰富的传感器参数,其中包括GPS定位,摄像头,摄像头参数等,提出了基于地理空间位置的概率FOV模型以及相关的剪枝策略和基于视觉空间的相似度度量方法。通过多模态结合的方式,本发明的方法能够正确的识别出用户查询的物体。
-
公开(公告)号:CN102609440B
公开(公告)日:2013-10-23
申请号:CN201110437148.8
申请日:2011-12-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种高维环境中资源分配问题的查询方法。该方法将每一个物体用高维环境中的一个高维点和两个附加参数来表示。然后将每个物体所对应的高维点通过一种降维技术映射成一个一维空间中的键值,并用一个B+树将所有物体对应的一维键值和附加参数索引在内存中。在查询处理前,根据资源分配问题的查询物体的查询条件将资源分配问题转化一维空间中的键值区间。在查询处理时,采用“最佳优先”的方法访问B+树,并用分配标记值来控制B+树的访问何时终止,从而查询结束。本发明利用了数据库和信息检索的现有研究和实现成果,基于已有的降维方法的扩展和融合可以非常方便快捷的提供资源分配问题的查询能力,提供最好的性能。
-
公开(公告)号:CN101907978B
公开(公告)日:2011-12-07
申请号:CN201010237936.8
申请日:2010-07-27
Applicant: 浙江大学
Abstract: 本发明公开了一种基于固态硬盘和磁性硬盘的混合存储系统及存储方法。包括由一块或若干块磁性硬盘组成的阵列、一块或若干块固态硬盘组成的阵列以及一块存储控制器,磁性硬盘阵列和固态硬盘阵列通过存储控制器与计算机总线相连。存储控制器维护从逻辑页面到物理页面的映射表,同时负责对各逻辑页面的访问模式进行统计。依照固态硬盘和磁性硬盘的性能特点,对页面进行优化分布,使数目较少的、随机访问较多的热点页面被分布到固态硬盘阵列中,而大部分的、访问较少或者以顺序访问为主的普通页面分布在磁性硬盘阵列中,从而充分发挥固态硬盘的高速随机访问的性能优势,提高整个系统的访问性能,缩短查询响应时间。
-
公开(公告)号:CN102163230A
公开(公告)日:2011-08-24
申请号:CN201110092557.9
申请日:2011-04-13
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种实现定制隐私保护的个性化信息检索系统的方法。通过分析基于用户模型的个性化信息检索系统的系统架构,利用多粒度语义泛化模型,在现有的个性化信息检索系统基础上提供完备的隐私保护解决方案。本发明定义了用户模型的表现形式、攻击者背景知识和攻击方式以及隐私保护目标,进而提出一个适用于支持隐私保护的个性化信息检索系统的通用框架。本发明在个性化信息检索系统中引入隐私保护的方法,充分利用不同用户对于隐私保护的特殊需求,保证隐私保护结果与用户隐私需求相匹配;而且通过开发查询质量指标和隐私风险指标,分析特定检索特性,权衡检索质量和隐私保护。
-
公开(公告)号:CN101464910B
公开(公告)日:2011-08-17
申请号:CN200910095378.3
申请日:2009-01-12
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于数据相似的聚类压缩方法。本发明通过分析文件数据,从文件提取特征指纹构造特征向量,用于计算数据相似度,并利用带约束条件的图分割方法聚类输入文件集成多个均匀大小的类别,然后采用BMCOM等压缩方法对每个类别单独进行压缩,以去除类内部的冗余数据。本发明利用基于数据采样聚类方式,把具有较高可压缩性的关键数据作为样本数据,首先对样本数据进行聚类,然后通过稳定婚姻方法归类剩余数据,在不降低压缩效果的情况下可提高聚类效率。本发明可以作为一种压缩和归档方法应用到分布式存储系统中,能够克服已有方法的数据依赖和负载不均问题。
-
公开(公告)号:CN101964034A
公开(公告)日:2011-02-02
申请号:CN201010298698.1
申请日:2010-09-30
Applicant: 浙江大学
Abstract: 本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集,在此基础上选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型,基于k匿名技术,对时间序列的QI属性值和模式特征施加(k,P)匿名模型,该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布,在保证数据隐私的基础上,将时间序列的模式信息最小化,保证数据的可用性。(k,P)匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制,其完善性和有效性使得(k,P)匿名模型能够在最大程度上博得信赖,获得广泛应用。
-
公开(公告)号:CN101178720B
公开(公告)日:2010-12-15
申请号:CN200710156189.3
申请日:2007-10-23
Applicant: 浙江大学
Abstract: 本发明公开了一种面向互联网微内容的分布式聚类方法。本发明采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。本发明能够准确、快速地对海量级的互联网微内容进行聚类,是一种既高效又实用的分布式聚类方法。
-
-
-
-
-
-
-
-
-