一种基于话题多样性的文本数据观点摘要挖掘方法

    公开(公告)号:CN108268668B

    公开(公告)日:2022-01-18

    申请号:CN201810166896.9

    申请日:2018-02-28

    Applicant: 福州大学

    Abstract: 本发明提供一种基于话题多样性的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题文本进行预处理;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将得到的话题属性添加情感极性,用于对句子向量化;步骤S5:将得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。

    一种针对视角级文本的情感分类系统

    公开(公告)号:CN108470061A

    公开(公告)日:2018-08-31

    申请号:CN201810250039.7

    申请日:2018-03-26

    Applicant: 福州大学

    Abstract: 本发明涉及一种针对视角级文本的情感分类系统。包括文本数据预处理模块,用于得到词向量字典;特征抽取模块,卷积记忆网络模型用于构建视角相关的注意力,抽取出视角相关的特征,并根据误差不断更新参数;分类结果输出模块,用分类函数得到文本最终的情感分类结果。本发明能够较好地进行视角级观点类别的分析且通用性强,能站在数据使用者的角度进行情感分析。

    一种基于多类特征融合的新兴热点话题检测系统

    公开(公告)号:CN108399241B

    公开(公告)日:2021-08-31

    申请号:CN201810170864.6

    申请日:2018-02-28

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于多类特征融合的新兴热点话题检测系统,包括:数据预处理模块,用于对微博文本进行预处理;分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;话题预测模块,用于对话题进行预测。本发明基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。

    一种基于注意力机制的新兴热点话题检测系统

    公开(公告)号:CN108460019A

    公开(公告)日:2018-08-28

    申请号:CN201810170148.8

    申请日:2018-02-28

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于注意力机制的新兴热点话题检测系统,包括:数据预处理模块、分层序列模型、词序列编码层、词语级别注意力层、句子级别编码层、句子级别注意力层、话题预测模块。本发明提出的一种基于注意力机制的新兴热点话题检测系统,在双向循环神经网络基础上,加入两层注意力机制来加强话题的向量表示,提出基于注意力机制的分层循环神经网络模型,能够利用社交媒介中数据的各维度作为特征,训练高质量的话题向量特征,从而检测出新兴热点话题,并提高了新兴热点话题检测能力。

    一种基于多类特征融合的新兴热点话题检测系统

    公开(公告)号:CN108399241A

    公开(公告)日:2018-08-14

    申请号:CN201810170864.6

    申请日:2018-02-28

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于多类特征融合的新兴热点话题检测系统,包括:数据预处理模块,用于对微博文本进行预处理;分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;句子级别特征求解层,用于对微博句子构建静态特征向量,与该层的神经网络动态特征进行链接,形成微博句子向量表示;话题级别特征求解层,用于对话题构建静态特征向量,与该层的神经网络动态特征进行链接,形成话题的向量表示;话题预测模块,用于对话题进行预测。本发明基于双向长短时期记忆网络架构,加入相应的动态特征和静态特征,提高新兴热点话题检测能力。

    一种多记录网页的信息抽取系统及方法

    公开(公告)号:CN103761312A

    公开(公告)日:2014-04-30

    申请号:CN201410034376.4

    申请日:2014-01-24

    Applicant: 福州大学

    CPC classification number: G06F17/30864 G06F17/30908

    Abstract: 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

    一种融合文本概念化和网络表示的观点检索系统及方法

    公开(公告)号:CN108399238A

    公开(公告)日:2018-08-14

    申请号:CN201810170047.0

    申请日:2018-03-01

    Applicant: 福州大学

    Abstract: 本发明涉及一种融合文本概念化和网络表示的观点检索系统及方法。包括文本概念化模块,判断对应多个概念的实体在具体上下文中的概念;网络表示模块,把词汇节点投射到低维的语义空间中;观点检索得分计算模块,计算查询与文本的主题相似度得分、待查询文档的观点得分,并得到一个文档的综合得分;统一相关检索模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;排序学习检索模块,将文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。本发明能够高效将文本知识进行概念层面的抽象,能够解析查询和文本的语义联系,检索出与用户查询相关并带有对查询观点的文档。

    一种基于话题多样性的文本数据观点摘要挖掘方法

    公开(公告)号:CN108268668A

    公开(公告)日:2018-07-10

    申请号:CN201810166896.9

    申请日:2018-02-28

    Applicant: 福州大学

    Abstract: 本发明提供一种基于话题多样性的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题文本进行预处理;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将得到的话题属性添加情感极性,用于对句子向量化;步骤S5:将得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。

    针对中文微博的观点分析原型系统

    公开(公告)号:CN108038205A

    公开(公告)日:2018-05-15

    申请号:CN201711344068.1

    申请日:2017-12-15

    Applicant: 福州大学

    Abstract: 本发明涉及一种针对中文微博的观点分析原型系统。包括:一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;一一致性挖掘模块,对用户‑观点、话题‑观点、用户‑文本和话题‑文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;一分类结果输出模块,用分类函数得到最终的观点分析结果。本发明能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。

    一种融合话题因子的信息传播预测模型及方法

    公开(公告)号:CN107944635A

    公开(公告)日:2018-04-20

    申请号:CN201711328590.0

    申请日:2017-12-13

    Applicant: 福州大学

    CPC classification number: G06Q10/04 G06Q50/01

    Abstract: 本发明提供一种融合话题因子的信息传播预测模型及方法,该模型包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型;一负采样算法组成模块;一融合话题因子的情感信息传播模型;数据基本假设模块;以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。本发明能够准确地预测不同话题帖子的被转发的传播路径,并能够应用于较大规模的级联数据集中。

Patent Agency Ranking