-
公开(公告)号:CN111274814B
公开(公告)日:2021-09-24
申请号:CN201911369784.4
申请日:2019-12-26
Applicant: 浙江大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合;建立有、无监督学习部分,有、无标注的文档分别有、无监督学习;文档和实体类型输入实体抽取模块输出实体信息;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相加为损失;文档输入实体抽取模块获得每个实体类型的损失;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相乘后相加构成损失;两部分加权计算获得总损失,优化训练获得模型参数;将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据,显著增强模型性能,在小样本标注数据的条件下有着显著的提升,也适用于零样本学习的半监督文本数据处理。
-
公开(公告)号:CN111797911A
公开(公告)日:2020-10-20
申请号:CN202010573202.0
申请日:2020-06-22
Applicant: 浙江大学
Abstract: 本发明公开了一种图像数据多标签分类方法,该方法首先构建图片的拓扑关系,然后用基于协作的多标签传播算法(CMLP)来解决半监督多标签学习(SSML)问题,从而获得无标记图片的置信矩阵 本发明能够充分地利用多标签图像数据的多个标签之间的相关性来提升图片的多标签分类预测性能,提高了准确度和鲁棒性,同时能够挖掘无监督图像数据的分布信息,很好地解决半监督多标签学习问题,其性能优于现有的半监督图像数据多标签分类方法。
-
公开(公告)号:CN109101468B
公开(公告)日:2020-07-03
申请号:CN201810873554.0
申请日:2018-08-02
Applicant: 浙江大学
IPC: G06F40/103
Abstract: 本发明公开了一种文本数据转换脚本的执行优化方法。针对通过网络分布式处理执行的文本数据转换脚本,对文本数据转换脚本进行解析,生成执行计划树;使用基于元组的多重集作为文本数据的数据模型,文本数据转换脚本包含了对多重集的结构和内容进行修改和转换的数据操作;根据转换脚本执行场景的不同,采用对应的执行优化方法;根据优化后得到的执行计划结果,生成逻辑程序处理并运行,从而对大数据平台上的数据进行高效地转换和处理。本发明方法能够应用于数据准备阶段对海量文本数据的处理,通过应用面向文本数据转换脚本的执行优化方法,能够有效地减少文本数据转换脚本在执行时的时空代价,提高数据准备阶段的效率。
-
公开(公告)号:CN107291895B
公开(公告)日:2020-05-26
申请号:CN201710476244.0
申请日:2017-06-21
Applicant: 浙江大学
IPC: G06F16/21 , G06F16/31 , G06F16/335 , G06F16/2458 , G06F40/284
Abstract: 本发明公开了一种快速的层次化文档查询方法。对文档集中的每个文档建立数据模型,对文档进行格式化处理获得文档质心向量和文档标签;生成的文档质心向量作为高维向量空间中的一个点,为每个文档集采用局部敏感哈希方法在内存中构建哈希索引结构;依据查询文本的文档质心向量,采用基于局部敏感哈希思想的查询方法在哈希索引结构中获取一个候选文档集;依据查询文本的文档标签,采用过滤‑细化的层次化框架在候选文档集中获取词移动距离度量下的最近邻文档。本发明设计的层次化查询方法应用于文档分类和检索时在效率和效果上获得了良好的平衡,使得用户在进行词移动距离度量下的文档查询时能够在保证准确性的情况下快速地获取目标文档。
-
公开(公告)号:CN107992835A
公开(公告)日:2018-05-04
申请号:CN201711309852.9
申请日:2017-12-11
Applicant: 浙江大学
IPC: G06K9/00
Abstract: 本发明公开了一种眼镜图像识别方法。采集包含各种类型眼镜的人脸佩戴眼镜图像作为原始图像,并进行预处理;在每张眼镜图像中标注眼镜关键点;采用眼镜物体检测算法实现人脸佩戴眼镜图像上的眼镜关键点的预测结果;进行眼镜的形状特征和颜色特征提取,获得人脸佩戴眼镜图像上的眼镜属性识别结果。本发明设计的眼镜图像识别方法可以广泛应用,针对眼镜提出的关键点预测模型速度快并且鲁棒性好,对于其他形状特征显著的物体具有一定的参考价值。
-
公开(公告)号:CN104598536B
公开(公告)日:2017-10-20
申请号:CN201410840847.0
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种分布式网络信息结构化处理方法。对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;对聚类后的网页信息进行结构化提取,保存到数据库中。本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
-
公开(公告)号:CN104598536A
公开(公告)日:2015-05-06
申请号:CN201410840847.0
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30091 , G06F17/30115
Abstract: 本发明公开了一种分布式网络信息结构化处理方法。对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;对聚类后的网页信息进行结构化提取,保存到数据库中。本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
-
公开(公告)号:CN104572915A
公开(公告)日:2015-04-29
申请号:CN201410833448.1
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06Q50/01
Abstract: 本发明公开了一种基于内容环境增强的用户事件相关度计算方法。利用话题模型将用户和社交事件的档案降低维度转化成话题分布;计算得到该用户档案和该社交事件档案的用户偏好特征;将用户偏好特征作为用户参加所对应事件的概率,计算采用基于协同过滤方法提取线上、线下社交影响特征;根据用户城市的事件,得到当地兴趣的话题分布,再与事件比较来得到本地流行度特征;通过训练学习排序模型,得到用户事件相关度。本发明通过充分挖掘事件社交网络中的内容环境相关信息,提取出用户偏好、社交影响、当地流行度的特征进行计算,并通过结合多项特征提高了最终结果的准确度,解决了个性化推荐系统中针对社交事件这类新对象进行推荐的技术问题。
-
公开(公告)号:CN103678610A
公开(公告)日:2014-03-26
申请号:CN201310690339.4
申请日:2013-12-16
Applicant: 浙江大学
CPC classification number: G06F17/30241 , G06F17/30244 , G06K9/00624
Abstract: 本发明公开了一种基于智能手机传感器的物体识别方法,该发明充分利用了智能手机丰富的传感器参数,其中包括GPS定位,摄像头,摄像头参数等,提出了基于地理空间位置的概率FOV模型以及相关的剪枝策略和基于视觉空间的相似度度量方法。通过多模态结合的方式,本发明的方法能够正确的识别出用户查询的物体。
-
公开(公告)号:CN102609440B
公开(公告)日:2013-10-23
申请号:CN201110437148.8
申请日:2011-12-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种高维环境中资源分配问题的查询方法。该方法将每一个物体用高维环境中的一个高维点和两个附加参数来表示。然后将每个物体所对应的高维点通过一种降维技术映射成一个一维空间中的键值,并用一个B+树将所有物体对应的一维键值和附加参数索引在内存中。在查询处理前,根据资源分配问题的查询物体的查询条件将资源分配问题转化一维空间中的键值区间。在查询处理时,采用“最佳优先”的方法访问B+树,并用分配标记值来控制B+树的访问何时终止,从而查询结束。本发明利用了数据库和信息检索的现有研究和实现成果,基于已有的降维方法的扩展和融合可以非常方便快捷的提供资源分配问题的查询能力,提供最好的性能。
-
-
-
-
-
-
-
-
-