一种面向网络数据的专题文档快速识别系统

    公开(公告)号:CN105843854A

    公开(公告)日:2016-08-10

    申请号:CN201610150817.6

    申请日:2016-03-16

    Abstract: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。

    结合写作特征和序列特征的中文情感新词识别方法和系统

    公开(公告)号:CN105740236A

    公开(公告)日:2016-07-06

    申请号:CN201610066957.5

    申请日:2016-01-29

    CPC classification number: G06F17/2715 G06F17/2775

    Abstract: 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线性链条件随机场模型输出与文本子句对应的情感词标签序列。其中,线性链条件随机场模型基于包含传统情感词的文本训练得到。接着,基于文本子句中字的序列和情感词标签序列,利用有限状态自动机识别文本子句中的情感词,形成情感词集合。最后,利用中文旧词词库对情感词集合进行过滤,将未出现在中文旧词词库中的情感词作为中文情感新词。通过本发明实施例解决了如何提高情感新词识别精度和召回率的技术问题。

    中文篇章关系的分类方法及装置

    公开(公告)号:CN108959351B

    公开(公告)日:2022-11-08

    申请号:CN201810377825.3

    申请日:2018-04-25

    Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。

    一种事理知识图谱构建方法及系统

    公开(公告)号:CN108052576B

    公开(公告)日:2021-04-23

    申请号:CN201711293661.8

    申请日:2017-12-08

    Abstract: 本发明涉及一种事理知识图谱构建方法及系统,该构建系统包括:宏观事件层构建模块、微观知识层构建模块、关系映射模块、本体层构建模块和事理知识图谱生成模块;所述宏观事件层构建模块包括:事件实体抽取单元、事件演化单元和因果关系抽取单元;所述微观知识层构建模块包括:微观实体抽取单元。本发明通过从结构化数据中获取事件实体和微观实体,分别构建宏观事件层和微观实体层,并抽取不同事件实体之间的因果关系映射到微观实体中,通过对微观实体层中微观实体的关系、类型和因果关系进行抽象和归纳,由此判断事件形成突发性群体响应的本质原因,对突发事件进行预警预测。

    一种微博突发话题检测方法及装置

    公开(公告)号:CN106294333B

    公开(公告)日:2019-10-29

    申请号:CN201510236634.1

    申请日:2015-05-11

    Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。

    一种基于多源数据的知识融合方法

    公开(公告)号:CN108647318A

    公开(公告)日:2018-10-12

    申请号:CN201810443980.0

    申请日:2018-05-10

    Abstract: 本发明提出一种基于多源数据的知识融合方法,在融合多个来源的实体数据时,首先分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换,这样对属性的规范化处理可以减少对后续实体比较造成的影响;然后基于实体名和实体属性对实体进行分块聚合,这样仅将同一分块内不同来源的实体作为候选匹配实体对,避免了将两个数据源中所有的实体两两间比较,减少计算复杂度;最后将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,可以直接添加到知识库中。

Patent Agency Ranking