面向在线百科的知识库自动更新方法及系统

    公开(公告)号:CN103823879B

    公开(公告)日:2017-06-16

    申请号:CN201410072608.5

    申请日:2014-02-28

    Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。

    一种面向在线百科的事件识别方法和事件关系抽取方法

    公开(公告)号:CN103823868B

    公开(公告)日:2017-05-03

    申请号:CN201410066711.9

    申请日:2014-02-26

    Abstract: 本发明提供一种面向在线百科的事件识别方法和事件关系抽取方法。所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条。本发明能够快速且准确地识别出事件类词条,并且能够在事件识别的基础上进行事件关系的抽取,适用于对事件进行预测和溯源。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506B

    公开(公告)日:2017-02-08

    申请号:CN201210548678.4

    申请日:2012-12-17

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    一种查询纠错方法和系统

    公开(公告)号:CN103198149B

    公开(公告)日:2017-02-08

    申请号:CN201310142075.9

    申请日:2013-04-23

    Abstract: 本发明提供一种查询纠错方法和系统。所述方法包括:将查询语句转换为字符序列,判断字符序列的长度是否大于预定阈值δ;对长度大于δ的字符序列同时进行正向和反向查询纠错处理,直到重合处理的字符个数达到阈值M,得到正向和反向的候选语句项集合。所述方法还包括将正向的候选语句项集合中后M个字符与反向候选语句项集合中前M个字符相同的候选语句项进行拼接,拼接后的候选语句项构成纠错候选项集合。所述方法支持中、英文混杂的查询语句,并且可对长查询采用正反向并行的查询纠错处理,这种并行的处理方式在保证正确率的同时节省了查询纠错的处理时间。

    一种面向开放文本的领域概念抽取方法

    公开(公告)号:CN105677640A

    公开(公告)日:2016-06-15

    申请号:CN201610011936.3

    申请日:2016-01-08

    CPC classification number: G06F17/2765 G06N5/022

    Abstract: 本发明提供一种面向开放文本的领域概念抽取方法,包括:1)遍历开放文本集合,从每一篇开放文本中提取候选领域概念;对于每一候选领域概念,利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量,将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签;3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A,用步骤2)得出的所有领域标签构建领域标签集合B;利用HITS算法进行迭代计算,得出各个候选领域概念的领域相关度;4)利用各个候选领域概念的所述领域相关度进行领域概念的判断。本发明能够提高准确率和召回率,能够更好地识别出那些重要的低频概念。

    一种面向微博客系统中未来意见领袖的创建方法及系统

    公开(公告)号:CN103279484B

    公开(公告)日:2016-03-30

    申请号:CN201310144152.4

    申请日:2013-04-23

    Abstract: 本发明提供一种面向微博客系统中未来意见领袖的创建方法及系统,方法包括:步骤1,初始化网络环境;步骤2,选择博弈发起方用户;步骤3,选择博弈接收方用户;步骤4,构建博弈收益矩阵;步骤5,计算是否存在纳什均衡点,如果存在则选择使双方用户收益和最大的纳什均衡点,根据纳什均衡点执行相应的关系动作和消息动作,如果不存在则选择执行使博弈发起方用户收益最大的关系动作或消息动作;步骤6,更新用户属性;步骤7,计算意见领袖特征值;步骤8,根据意见领袖特征值的变化趋势,获得成为意见领袖的用户特征组合,利用用户特征组合创建未来意见领袖。本发明在博弈过程中选择用户行为,对微博系统中网络拓扑结构生成与变化进行评估。

    一种基于HFile的HBase二级索引更新方法及系统

    公开(公告)号:CN105404676A

    公开(公告)日:2016-03-16

    申请号:CN201510813149.6

    申请日:2015-11-20

    Abstract: 本发明公开了一种基于HFile的HBase二级索引更新方法及系统,该方法包括:解析步骤,监视HBase数据库刷新HFile文件的过程,当针对目标索引列产生了用户操作并生成有HFile文件时,解析该HFile文件并据以更新二级索引表;延迟步骤,在到达HFile文件的compaction操作的启动时间点时,判断该compaction操作所对应的HFile文件是否已经执行该解析该HFile文件的步骤,如果否,延迟该compaction操作的启动时间点,如果是,执行该compaction操作。本发明选择基于HBase文件存储中的HFile这一粒度层次来确定索引更新,不需要大幅度修改HBase源码,不需要维护多余的源表信息,在实现上与用户数据操作异步,不影响用户的时间体验,将索引数据更新维护与源表数据操作解耦。提高了HBase源表数据与二级索引表的同步程度。

    可动态适应的LSM树合并方法及系统

    公开(公告)号:CN105159915A

    公开(公告)日:2015-12-16

    申请号:CN201510419480.X

    申请日:2015-07-16

    CPC classification number: G06F17/30327 G06F17/30483

    Abstract: 本发明适用于文件处理技术领域,提供了一种可动态适应的LSM树合并方法,所述方法包括:将键值区间划分为若干节点,将所述节点组织为树形结构,每个所述节点对应一键值区间,每个所述键值区间包含对应该键值区间范围的文件;根据当前数据的分布动态调整树的形状;当有新写入的文件时,遍历树寻找最适节点放入;对文件进行处理时,对节点内部进行Minor Compact处理,并且只通过叶节点执行Major Compact。本发明还相应的提供一种实现上述方法的可动态适应的LSM树合并系统。借此,本发明可以实现动态适应数据的分布,提高数据合并效率。

    一种面向分布式顺序表的缓存方法及系统

    公开(公告)号:CN105045894A

    公开(公告)日:2015-11-11

    申请号:CN201510463230.6

    申请日:2015-07-31

    CPC classification number: G06F17/3048 G06F17/30545 G06F17/30575

    Abstract: 本发明涉及分布式信息处理技术领域,特别涉及一种面向分布式顺序表的缓存方法及系统,该方法包括为所有数据块设置基础分值,当进行数据查询操作时,通过分布式顺序表,获取数据查询操作所涉及的数据范围,统计数据范围中各数据块将要被访问的访问次数,将访问次数累加到相应的数据块;当数据块被缓存命中时,被命中的数据块的分值减去固定值,当缓存空间已满时,则触发缓存的换出操作,在换出操作开始时,根据数据块的分值进行排序,从分值最小的数据块开始淘汰,直到缓存空间能够增加数据块。

Patent Agency Ranking