-
公开(公告)号:CN111125520A
公开(公告)日:2020-05-08
申请号:CN201911270225.8
申请日:2019-12-11
Applicant: 东南大学
IPC: G06F16/9535 , G06F40/295
Abstract: 本发明公开了一种面向新闻文本的基于深度聚类模型的事件线抽取方法,包括:新闻文本预处理;文本的初始隐事件表示预训练;按照发布时间对语料中新闻文本进行分组;基于深度聚类模型确定各组中每条新闻所属的事件线;对各组中事件线编号相同的事件元素进行后处理,得到事件的结构化展示;对各组抽取出的具有相同事件线编号的事件进行后处理得到事件线。本发明采用神经网络模型自动抽取文本中隐含的事件特征,避免了手动选取和构建特征,并且抽取得到的文本的隐含事件特征能够为下游应用提供支持;能够同时进行事件特征抽取和事件线提取,减少了误差传播的可能性。相比于以往的事件线抽取方法,本发明具有更高的抽取准确率与召回率。
-
公开(公告)号:CN111125520B
公开(公告)日:2023-04-21
申请号:CN201911270225.8
申请日:2019-12-11
Applicant: 东南大学
IPC: G06F16/9535 , G06F40/295
Abstract: 本发明公开了一种面向新闻文本的基于深度聚类模型的事件线抽取方法,包括:新闻文本预处理;文本的初始隐事件表示预训练;按照发布时间对语料中新闻文本进行分组;基于深度聚类模型确定各组中每条新闻所属的事件线;对各组中事件线编号相同的事件元素进行后处理,得到事件的结构化展示;对各组抽取出的具有相同事件线编号的事件进行后处理得到事件线。本发明采用神经网络模型自动抽取文本中隐含的事件特征,避免了手动选取和构建特征,并且抽取得到的文本的隐含事件特征能够为下游应用提供支持;能够同时进行事件特征抽取和事件线提取,减少了误差传播的可能性。相比于以往的事件线抽取方法,本发明具有更高的抽取准确率与召回率。
-