-
公开(公告)号:CN102156754B
公开(公告)日:2012-10-03
申请号:CN201110113865.5
申请日:2011-05-04
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于可视程度的Web对象检索方法。对具有空间属性的海量Web对象建立IR树索引;用积分式可视性度量方法符合人体视觉感知特征;设计环绕遮挡图结构作为Web对象及IR树节点对象的可视性计算引擎;针对用户可视Web检索需求设计查询匹配度度量函数,融合Web对象相对于用户位置的可视性与相对于查询关键词的语义相关性;利用IR树索引,对提出的环绕遮挡图结构以及查询匹配度度量函数,采用增量式的方法获得K个与用户查询匹配度最高的Web对象。本发明充分利用了IR树索引结构,无缝融合Web对象的空间属性与文本属性,基于积分式可视性度量的环绕遮挡图结构保证了查询的高效性。
-
公开(公告)号:CN101908065B
公开(公告)日:2012-05-23
申请号:CN201010237922.6
申请日:2010-07-27
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种支持动态更新的在线属性异常点检测方法。通过分析实际应用及用户需求,提出全新的属性异常点定义,在考虑数据集内部各个数据点间属性相关性的前提下检测异常点,提供相对于传统定义更加有效的异常信息,结合实际流数据系统应用,通过使用滑动窗口、在线聚类方法达到支持对动态更新的流数据进行在线属性异常点检测,能够为用户提供实时检测结果反馈。并且针对流数据系统应用中实际出现的系统过载情况,提出一套有效的降载方法,能够保证检测方法在海量的流数据更新情况下仍能实时反馈检测结果,且结果误差在用户可控范围,达到检测方法在运行效率和结果精度之间的有效平衡。
-
公开(公告)号:CN102193996A
公开(公告)日:2011-09-21
申请号:CN201110113856.6
申请日:2011-05-04
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于移动设备的可视Web对象搜索引擎方法。该方法的步骤如下:利用爬虫对Web对象进行抓取,针对Web对象的空间属性与语义属性设计数据模型并建立Web对象数据库,并在此基础上建立IR树索引。在处理用户的可视Web对象检索请求时,加入物理因素(如位置、朝向、视角等)的影响,融合Web对象的可视信息与语义信息,以一种“所见即所得”的方式返回搜索结果。本发明并能够随着用户位置或朝向的变化动态更新搜索结果,让用户产生身临其境的体验,从而将物理世界与数字信息世界紧密地结合起来。
-
公开(公告)号:CN101158958B
公开(公告)日:2010-06-09
申请号:CN200710156183.6
申请日:2007-10-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于MySQL存储引擎的融合查询方法。利用MySQL数据库的存储引擎插件机制,开发全文检索存储引擎,将现有全文检索系统链接到MySQL数据库中。在MySQL数据库中使用“全文检索链接表”来表示全文检索系统,用户通过标准的SQL访问“全文检索链接表”时,全文检索存储引擎自动将全文检索请求转发至全文检索系统处理。通过“全文检索链接表”与其它表示结构化信息的数据库之间的联接等SQL操作实现融合查询。利用了数据库和全文检索和现有研究和实现成果,基于已有系统可以方便快捷的提供融合查询能力,并且不依赖于一种特有的全文检索系统实现,使用者根据应用需求选择最合适的全文检索系统,提供最好的性能。
-
公开(公告)号:CN101706790A
公开(公告)日:2010-05-12
申请号:CN200910152879.0
申请日:2009-09-18
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种搜索引擎中包含WEB对象的聚类方法。通过挖掘词汇间的树状概率层次关系,计算词汇在数据集中的信息分布集中度,作为分辨对象的标志。该方法建立一个新型的信息传递有向无环图模型,准确提取数据中对辨别对象起到关键作用的特征词汇,提高相似度计算的精确性,并且建立一种新型的自适应记录合并模型,有效地提高各个记录簇中记录间高相似度比例,减少噪音对合并过程的影响,具有很高的准确性,健壮性和通用性。本发明充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据应用需求选择最合适的聚类合并技术,提供最好的性能。
-
公开(公告)号:CN101178720A
公开(公告)日:2008-05-14
申请号:CN200710156189.3
申请日:2007-10-23
Applicant: 浙江大学
Abstract: 本发明公开了一种面向互联网微内容的分布式聚类方法。本发明采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。本发明能够准确、快速地对海量级的互联网微内容进行聚类,是一种既高效又实用的分布式聚类方法。
-
公开(公告)号:CN120045583A
公开(公告)日:2025-05-27
申请号:CN202510073091.X
申请日:2025-01-17
Applicant: 浙江大学
IPC: G06F16/2452 , G06F16/242 , G06F18/241 , G06F18/214 , G06N3/045
Abstract: 本发明公开了一种基于认知增强的大语言模型自然语言问题到SQL查询的翻译方法。方法包括先根据数据库中用户提出的自然语言问题依次进行SQL语句处理和合并处理,得到翻译原始数据集,然后对翻译原始数据集依次进行筛选处理、模板处理、增广处理和合并处理,得到翻译数据集,再将翻译数据集输入到关键词预测分类模型中进行训练,得到训练完成的关键词预测分类模型,最终对用户提出的待翻译自然语言问题进行综合处理得到用户提出的待翻译自然语言问题对应的查询结果。本发明实现了优化大语言模型在自然语言问题到SQL查询任务的不同环节的有益效果,取得了增强了大语言模型对自然语言问题到SQL查询任务和SQL语言的理解的优势。
-
公开(公告)号:CN114580352B
公开(公告)日:2025-04-01
申请号:CN202210223992.9
申请日:2022-03-09
Applicant: 浙江大学
IPC: G06F40/126 , G06F40/284 , G06N3/0455 , G06N3/084 , G06N5/04
Abstract: 本发明公开了一种基于浅层特征预计算的神经网络推理加速方法,该方法首先获取预训练神经网络,根据输入文本,使用预训练神经网络将输入文本进行编码;然后根据所述预训练神经网络,构建浅层特征可预计算神经网络,根据输入文本,使用浅层特征可预计算神经网络将输入文本进行编码;再使用所述浅层特征可预计算神经网络拟合预训练神经网络的中间层特征,训练浅层特征可预计算神经网络;再根据所述浅层特征可预计算神经网络,构建浅层特征查询表;最后使用上述浅层特征查询表替换浅层特征可预计算神经网络的浅层神经网络。本发明可以用于新闻分类、情感分析、问答系统等人工智能领域任务。
-
公开(公告)号:CN113033203B
公开(公告)日:2025-03-25
申请号:CN202110162263.2
申请日:2021-02-05
Applicant: 浙江大学
IPC: G06F40/295 , G06F16/36 , G06N3/0442 , G06N3/045 , G06N3/094 , G06N3/096
Abstract: 本发明公开了一种面向医药说明书文本的结构化信息抽取方法,属于医疗自然语言处理技术领域。首先,采用一种面向无标注数据的基于对抗迁移学习的实体识别模型,进行医药说明书文本的初步实体识别。接着,在实体识别基础上,提出一种用法用量表抽取新任务,即将用法用量文本中复杂的知识结构以表格的形式抽取出来。并针对此任务,设计一种基于特征融合的表抽取算法,来进行说明书用法用量的表抽取。最后,在实体识别的基础上,采用一种基于医疗实体字符注意力机制的关系抽取方法,来对实体之间的关系进行抽取。本发明提出的结构化信息抽取方法可以解决医药说明书文本的复杂信息抽取问题。
-
公开(公告)号:CN113988079B
公开(公告)日:2025-03-14
申请号:CN202111144082.3
申请日:2021-09-28
Applicant: 浙江大学
Abstract: 本发明公开了一种面向低数据的动态增强多跳文本阅读识别处理方法。对文档的数据集进行修正预处理;构建动态增强的答案预测模型;使用训练集训练动态增强的答案预测模型作为教师模型;随机挑选一部分无标签的数据集输入到教师模型中预测获得标签结果建立伪标签,将带有伪标签的数据集加到训练集形成新训练集;用新训练集再训练教师模型获得学生模型;不断重复步骤迭代,直到验证集的模型精度结果满足预设阈值要求;用最终的学生模型对待测阅读文档进行预测,输出预测获得待测阅读文档的答案。本发明使用动态增强的方法来扩充数据,能够减少输入长度,解决标签数据少情况下的多跳阅读理解问题,增强模型的泛化能力。
-
-
-
-
-
-
-
-
-