一种基于纠错输出编码的无需消歧的无监督词性标注方法

    公开(公告)号:CN105955955B

    公开(公告)日:2018-08-28

    申请号:CN201610292680.8

    申请日:2016-05-05

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于纠错输出编码的无需消歧的无监督词性标注方法,包括两个主要步骤:(1)基于词性字典生成训练数据。(2)基于纠错输出编码进行训练与测试。本发明不需标注语料,可以应用于不易获得标注语料的语言的词性标注问题;不需消歧,避免了迭代式消歧过程中的错误传播问题;采用神经语言模型自动生成训练和测试使用的特征,避免了手动选取和构建特征。

    一种基于纠错输出编码的无需消歧的无监督词性标注方法

    公开(公告)号:CN105955955A

    公开(公告)日:2016-09-21

    申请号:CN201610292680.8

    申请日:2016-05-05

    Applicant: 东南大学

    CPC classification number: G06F17/274 G06F17/2705

    Abstract: 本发明公开了一种基于纠错输出编码的无需消歧的无监督词性标注方法,包括两个主要步骤:(1)基于词性字典生成训练数据。(2)基于纠错输出编码进行训练与测试。本发明不需标注语料,可以应用于不易获得标注语料的语言的词性标注问题;不需消歧,避免了迭代式消歧过程中的错误传播问题;采用神经语言模型自动生成训练和测试使用的特征,避免了手动选取和构建特征。

    面向社交媒体文本的无监督的事件抽取和分类方法

    公开(公告)号:CN105389354B

    公开(公告)日:2018-08-21

    申请号:CN201510733879.5

    申请日:2015-11-02

    Applicant: 东南大学

    Abstract: 本发明公开了一种面向社交媒体文本的基于EECB模型的无监督的事件抽取和分类方法,包括:社交媒体文本过滤;对过滤后的文本进行预处理;按照时间标记对文本进行分组;基于EECB模型确定各组中每条文本对应的事件;对各组中事件编号相同的事件元素进行后处理;事件合并;将每个事件的每个命名实体映射到语义类,基于EECB模型确定每个事件的事件类型。本发明方法相比面向新闻文本的方法可以获得社交网络中人们关注的事件信息,该方法相比面向社交媒体文本的有监督的方法更具有领域的普适性。并且本发明与现有的TwiCal系统相比,事件抽取及分类的准确率都更高。

    面向社交媒体文本的无监督的事件抽取和分类方法

    公开(公告)号:CN105389354A

    公开(公告)日:2016-03-09

    申请号:CN201510733879.5

    申请日:2015-11-02

    Applicant: 东南大学

    CPC classification number: G06F17/30896 G06Q50/01

    Abstract: 本发明公开了一种面向社交媒体文本的基于EECB模型的无监督的事件抽取和分类方法,包括:社交媒体文本过滤;对过滤后的文本进行预处理;按照时间标记对文本进行分组;基于EECB模型确定各组中每条文本对应的事件;对各组中事件编号相同的事件元素进行后处理;事件合并;将每个事件的每个命名实体映射到语义类,基于EECB模型确定每个事件的事件类型。本发明方法相比面向新闻文本的方法可以获得社交网络中人们关注的事件信息,该方法相比面向社交媒体文本的有监督的方法更具有领域的普适性。并且本发明与现有的TwiCal系统相比,事件抽取及分类的准确率都更高。

Patent Agency Ranking