一种基于短语主题建模的多文档自动摘要生成方法

    公开(公告)号:CN105868178A

    公开(公告)日:2016-08-17

    申请号:CN201610183423.0

    申请日:2016-03-28

    申请人: 浙江大学

    IPC分类号: G06F17/27 G06F17/30

    CPC分类号: G06F17/2775 G06F17/30719

    摘要: 本发明公开了一种基于短语主题建模的多文档自动摘要生成方法。将样本多文档进行分词处理,得到短语及其出现频率,文档被表示为短语袋的形式;以LDA主题模型为基础计算文档的联合概率分布,转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,最后得到主题在单词上的概率分布;对被测文档进行分词处理,计算获得句子的主题权重和词频权重,加权计算得到句子的最终权重,根据最终权重生成摘要内容。本发明方法更加规范和精确,考虑了不同单词之间关系,引进句子的主题权重,生成结果更符合人们实际的撰写短文摘要的情况,在引进句子的主题权重后。

    一种基于迭代模型的中文百科知识图谱分类体系构建方法

    公开(公告)号:CN105787105A

    公开(公告)日:2016-07-20

    申请号:CN201610161218.4

    申请日:2016-03-21

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于迭代模型的中文百科知识图谱分类体系构建方法。知识图谱分类体系中包含两类节点:实体节点和类目节点,以及两类关系:Subclass?of关系和Instance?of关系。Subclass?of关系用来描述类目节点之间的上下位层次关系,而Instance?of关系则用来描述实体节点和类目节点之间的从属关系。结构化中文百科知识图谱中的实体和类目特征;接着,判断类目和类目之间的上下位关系Subclass?of,以及实体和类目之间的从属关系Instance?of;最后利用每个类目关联的Instance?of关系重新计算类目的结构化特征,再利用新的类目特征重新判断Subclass?of关系和Instance?of关系。迭代进行以上两个步骤,直到Instance?of关系不再变化。本迭代方法对Subclass?of关系和Instance?of关系的判断结果提升显著,是一种构建中文百科知识图谱分类体系的创新方法。

    一种非结构化数据多存储系统中同步数据的方法

    公开(公告)号:CN104778225A

    公开(公告)日:2015-07-15

    申请号:CN201510137871.2

    申请日:2015-03-27

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种非结构化数据多存储系统中同步数据的方法,特别适用于以HBase为主数据库的非结构化数据多存储系统中数据同步问题。本方法引入了两种捕获HBase内原数据表数据变更事件的捕获器,首先通过捕获器捕获主数据库内数据变更事件,然后将捕获到的数据变更事件进行序列化,并将序列化后的字节流数据连入DataBus开源工作框架,最终使非结构化数据多存储系统内的数据得到同步。本发明有效克服了传统非结构化数据多存储系统中数据同步方法的缺点,搭建了高可用、可扩展的数据同步组件,具有良好的应用价值。

    一种非结构化数据管理的全过程建模方法

    公开(公告)号:CN102779186B

    公开(公告)日:2014-12-24

    申请号:CN201210226821.8

    申请日:2012-06-29

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种非结构化数据管理的全过程建模方法,包括建立Repository存储模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment环境模型五个步骤,将模型的内容作为元数据进行存储,并将其映射到具体的数据引擎进行操作;本发明的方法可以用来管理包含文本、音频、视频、图像等非结构化数据,以满足用户对非结构化数据存储、关联和检索等管理需求。

    基于边缘信息和分布熵的视频字幕识别设计方法

    公开(公告)号:CN102208023B

    公开(公告)日:2013-05-08

    申请号:CN201110024330.0

    申请日:2011-01-23

    申请人: 浙江大学

    IPC分类号: G06K9/20 G06K9/46

    摘要: 本发明公开了一种基于边缘信息和分布熵的视频字幕识别方法。它使用角点加强的边缘检测方法得到图像边缘信息,然后连接边缘点并收集连通域,使用分割算法对连通域进行适当分割,再使用精化操作得到它们的准确位置,使用拖尾过滤器和联合熵过滤器过滤掉非文本区域,剩下的就是文本区域。对于检测出的文本域,统一成黑底白字后,使用局部阀值二值化、基于禁止扩展点约束的边缘噪声点扩展移除操作及基于环绕边缘点计数的噪声移除操作,得到二值图送入OCR软件中进行识别。该方法能克服一般方法对语言、字幕排列方式、背景复杂度等较敏感的缺点,通过引入分割算法和联合熵过滤器,能得到很好的检测效果,改进传统的二值化方法极大的提高了识别准确率。

    一种非结构化数据管理的全过程建模方法

    公开(公告)号:CN102779186A

    公开(公告)日:2012-11-14

    申请号:CN201210226821.8

    申请日:2012-06-29

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种非结构化数据管理的全过程建模方法,包括建立Repository存储模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment环境模型五个步骤,将模型的内容作为元数据进行存储,并将其映射到具体的数据引擎进行操作;本发明的方法可以用来管理包含文本、音频、视频、图像等非结构化数据,以满足用户对非结构化数据存储、关联和检索等管理需求。

    支持海量小文件和动态备份数的数字图书馆存储系统的构建方法

    公开(公告)号:CN101916289B

    公开(公告)日:2012-11-14

    申请号:CN201010262584.1

    申请日:2010-08-20

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种支持海量小文件和动态备份数的数字图书馆存储系统的构建方法,包括以下三部分内容:(1)系统的构建采用采用两层体系架构,即传输层和存储层;传输层主要用于存储层与数字图书馆门户之间的数据传输,负载均衡、缓存以及预取等策略均在此层实现;而存储层主要负责数据的存储,由普通服务器搭建的分布式文件系统和高可靠性存储组成。(2)采用打包策略,将同一本书的书页打包。(3)根据图书的大小和访问频率,动态计算每本图书的备份数。本发明将普通服务器构成的分布式文件系统与高可靠性存储结合起来提供数据的存储服务,既保证了数据的可靠性,又保证了数据的可用性;将小文件打包存储,减少了小文件数量,提高了系统性能;根据文件大小和文件访问频率计算文件的备份数,提高了系统的整体可用性。

    基于标注重要性次序的图像语义自动标注方法

    公开(公告)号:CN1920820A

    公开(公告)日:2007-02-28

    申请号:CN200610053403.8

    申请日:2006-09-14

    申请人: 浙江大学

    IPC分类号: G06F17/30 G06T1/00

    摘要: 本发明公开了一种基于标注重要性次序的图像语义自动标注方法,包括以下步骤:(1)对训练图像集进行分类,形成一系列内容一致的图像集;(2)对每一个图像集构建语义骨架,将其中的图像用语义骨架表示,同时计算图像的关键词重要性次序和图像子块的重要性次序;(3)用统计学习的方法进行图像自动标注。本发明在图像自动标注时,考虑了图像区域子块的重要性和训练集中文本的重要性次序,有效的解决了图像自动标注准确性和词频畸形分布的问题,从而支持基于语义的图像检索。

    基于动态图异常检测的新兴技术识别方法

    公开(公告)号:CN116561688B

    公开(公告)日:2024-03-22

    申请号:CN202310517066.7

    申请日:2023-05-09

    申请人: 浙江大学

    摘要: 本发明公开了基于动态图异常检测的新兴技术识别方法。本发明基于新兴技术为已有技术的新型组合假设,通过构建面向技术领域的动态图数据,利用多种时空耦合特征与自注意力深度神经网络算法,将技术领域节点之间的关系表征为融合结构信息与时序信息的特征向量,并计算得出技术组合的异常得分,并进一步将高分技术组合视为新兴技术领域的候选集合,再通过人工判断得出最终的新兴技术领域结果。该方法在特征输入与神经网络中均充分利用了动态图中的空间与时间耦合信息,在常规的异常检测任务中取得了优于其他同类最新方法的效果,并创新性地应用于新兴技术识别任务中,起到了筛选候选领域的作用,显著降低解决此任务的成本。

    基于知识图谱多视角信息的跨语言实体对齐方法

    公开(公告)号:CN111680488B

    公开(公告)日:2023-07-21

    申请号:CN202010512003.9

    申请日:2020-06-08

    申请人: 浙江大学

    摘要: 本发明公开了一种基于知识图谱多视角信息的跨语言实体对齐方法。本发明首先根据两种语言知识图谱的三元组和实体描述文本,分别抽取信息构建结构图和文本图,使用双层图卷积网络编码实体结构上的向量表示和文本上的向量表示;然后根据实体描述文本和跨语言语料,使用双向长短时记忆网络编码实体描述上的向量表示;使用加权方式结合三个视角下成对实体的向量距离来计算最终的跨语言对齐实体对。本发明实现了知识图谱的跨语言实体对齐,基于结构和文本的多视角信息优化实体向量表示,提高了跨语言实体对齐准确率。