-
公开(公告)号:CN111274814A
公开(公告)日:2020-06-12
申请号:CN201911369784.4
申请日:2019-12-26
Applicant: 浙江大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合;建立有、无监督学习部分,有、无标注的文档分别有、无监督学习;文档和实体类型输入实体抽取模块输出实体信息;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相加为损失;文档输入实体抽取模块获得每个实体类型的损失;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相乘后相加构成损失;两部分加权计算获得总损失,优化训练获得模型参数;将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据,显著增强模型性能,在小样本标注数据的条件下有着显著的提升,也适用于零样本学习的半监督文本数据处理。
-
公开(公告)号:CN109101468A
公开(公告)日:2018-12-28
申请号:CN201810873554.0
申请日:2018-08-02
Applicant: 浙江大学
IPC: G06F17/21
Abstract: 本发明公开了一种文本数据转换脚本的执行优化方法。针对通过网络分布式处理执行的文本数据转换脚本,对文本数据转换脚本进行解析,生成执行计划树;使用基于元组的多重集作为文本数据的数据模型,文本数据转换脚本包含了对多重集的结构和内容进行修改和转换的数据操作;根据转换脚本执行场景的不同,采用对应的执行优化方法;根据优化后得到的执行计划结果,生成逻辑程序处理并运行,从而对大数据平台上的数据进行高效地转换和处理。本发明方法能够应用于数据准备阶段对海量文本数据的处理,通过应用面向文本数据转换脚本的执行优化方法,能够有效地减少文本数据转换脚本在执行时的时空代价,提高数据准备阶段的效率。
-
公开(公告)号:CN108229503A
公开(公告)日:2018-06-29
申请号:CN201810008857.6
申请日:2018-01-04
Applicant: 浙江大学
Abstract: 本发明公开了一种针对服装照片的特征提取方法。为服装照片构建基于深度学习模型的特征提取模型,特征提取模型中包含多任务分类损失函数和四元损失函数;采集若干带标签的服装照片作为训练数据,将带标签的服装照片及其标签输入到特征提取模型进行训练,在多任务分类损失函数和四元损失函数的共同优化下通过反向传播算法进行特征提取模型的参数优化,获得训练后的特征提取模型,以训练后的特征提取模型对带标签的服装照片进行处理提取获得特征向量。本发明针对服装照片设计的特征提取方法非常通用而且鲁棒,可用于服装照片的分类、标注、检索和聚类等应用。
-
公开(公告)号:CN103699611B
公开(公告)日:2017-01-11
申请号:CN201310688854.9
申请日:2013-12-16
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于动态摘要技术的微博流信息提取方法,该发明首先设计了一种基于微博流的增量聚类方法,并提出一种新的微博类向量的数据结构,以维护类的聚集信息。同时,结合金字塔型时间帧结构,保存历史时刻的信息快照,从而支持对任意时间段进行摘要。利用聚类方法得到的信息,提出高层次摘要算法,选取最具有代表性的微博作为摘要。在此基础上,通过检测摘要内容的变化,设计一种话题演变检测方法,自动地生成时间轴。本发明设计的方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡,既使得用户在知识获取过程中更加的便利,同时也支持诸如实时报道、历史综述等数据分析工作。
-
公开(公告)号:CN102890713A
公开(公告)日:2013-01-23
申请号:CN201210349719.7
申请日:2012-09-20
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于用户当前地理位置和物理环境的音乐推荐方法,本发明一种合理的音乐推荐架构,并设计了一种用户当前位置和物理环境特征的表达结构,这种结构支持高效的向量匹配算法;同时,针对海量照片对象的空间属性与文本属性,本发明采用了支持高效插入、删除、更新操作的变种空间索引结构;以此索引结构为基础,结合音乐歌词的语义性和照片具有的空间性和语义性,可供用户根据自己的当前位置和物理环境获取最佳的推荐音乐。
-
公开(公告)号:CN101964034B
公开(公告)日:2012-08-15
申请号:CN201010298698.1
申请日:2010-09-30
Applicant: 浙江大学
Abstract: 本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集,在此基础上选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型,基于k匿名技术,对时间序列的QI属性值和模式特征施加(k,P)匿名模型,该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布,在保证数据隐私的基础上,将时间序列的模式信息最小化,保证数据的可用性。(k,P)匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制,其完善性和有效性使得(k,P)匿名模型能够在最大程度上博得信赖,获得广泛应用。
-
公开(公告)号:CN102609440A
公开(公告)日:2012-07-25
申请号:CN201110437148.8
申请日:2011-12-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种高维环境中资源分配问题的查询方法。该方法将每一个物体用高维环境中的一个高维点和两个附加参数来表示。然后将每个物体所对应的高维点通过一种降维技术映射成一个一维空间中的键值,并用一个B+树将所有物体对应的一维键值和附加参数索引在内存中。在查询处理前,根据资源分配问题的查询物体的查询条件将资源分配问题转化一维空间中的键值区间。在查询处理时,采用“最佳优先”的方法访问B+树,并用分配标记值来控制B+树的访问何时终止,从而查询结束。本发明利用了数据库和信息检索的现有研究和实现成果,基于已有的降维方法的扩展和融合可以非常方便快捷的提供资源分配问题的查询能力,提供最好的性能。
-
公开(公告)号:CN102609439A
公开(公告)日:2012-07-25
申请号:CN201110437136.5
申请日:2011-12-23
Applicant: 浙江大学
Abstract: 本发明公开了一种高维环境中模糊数据的概率窗口查询方法。该方法用网格划分、柱状图和小波变换方法将每一个物体的模糊区域信息和概率分布函数信息进行压缩。然后,将物体的全部压缩信息存储于索引文件中。在查询处理时,首先利用每一个物体的全部压缩信息计算物体成为查询结果的概率的上界。然后利用每一个物体的概率上界对不合格的物体进行剪枝,得到一个候选答案集合。该方法根据候选答案集合中每一个候选物体的未被压缩的信息,判断该候选物体是不是真正的查询结果。本发明利用数据库和信息检索的现有研究和实现成果,基于已有的压缩方法的扩展和融合非常方便快捷的提供模糊数据的概率窗口查询能力,不依赖于模糊数据的维度,提供最好的性能。
-
公开(公告)号:CN102567497A
公开(公告)日:2012-07-11
申请号:CN201110437137.X
申请日:2011-12-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种最匹配模糊轨迹问题的查询方法。该方法发明了一种新的匹配度衡量标准来衡量模糊轨迹之间的匹配程度。该方法先将值域空间划分成一系列的单元格,然后在每一个单元格内建立一个时间索引。在处理匹配查询时,该方法首先访问索引结构,计算每个模糊轨迹和查询轨迹之间匹配度的上界和下界;然后利用该上界和下界对不合格的模糊轨迹进行剪枝,从而得到一个候选答案集合;最后该方法计算每一个候选模糊轨迹的精确的匹配度,并判断该模糊轨迹是否是真正的查询结果。本发明充分利用了数据库和信息检索的现有研究和实现成果,基于已有的空间数据查询方法的扩展和融合可以非常方便快捷的提供最匹配模糊轨迹问题的查询能力,提供最好的性能。
-
公开(公告)号:CN101694657B
公开(公告)日:2011-11-09
申请号:CN200910152883.7
申请日:2009-09-18
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向Web2.0标签图片共享空间的检索结果聚类方法。挖掘标签间的词汇关系及关联关系,查询标签根据标签间词汇关系得到扩展的查询标签集;用扩展的查询标签集得到与查询相关的候选图像集;根据查询标签与候选图像集内标签的相关度度量,选出前K个最相关的标签;根据这K个标签两两之间的关联度,采用一种自顶向下基于图划分的聚类算法,自动将K个标签分成最优的聚类结果;候选图像集也相应地根据聚类标签被聚类。针对标签表达不一致问题实现有效的查询扩充,基于最相关标签集聚类的图像聚类方法解决了标签语义多样性的问题。相比于传统方法,本发明提供用户在Web2.0标签图片共享空间内快速有效的进行图片检索和浏览。
-
-
-
-
-
-
-
-
-