-
公开(公告)号:CN113312916A
公开(公告)日:2021-08-27
申请号:CN202110589745.6
申请日:2021-05-28
Applicant: 北京航空航天大学
IPC: G06F40/295 , G06F40/30 , G06F16/35
Abstract: 本发明通过神经网络领域的方法,实现了基于触发词语态学习的金融文本事件抽取方法及装置。方法包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;金融领域文本预训练步骤的实现结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,结合神经网络方法,在已有的金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征,而后通过词表征做多标签多分类任务得到事件检测结果,最后每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算得到输出结果,从而形成一个能够自动精准抽取金融文本事件的方法。
-
公开(公告)号:CN113312916B
公开(公告)日:2022-05-27
申请号:CN202110589745.6
申请日:2021-05-28
Applicant: 北京航空航天大学
IPC: G06F40/295 , G06F40/30 , G06F16/35
Abstract: 本发明通过神经网络领域的方法,实现了基于触发词语态学习的金融文本事件抽取方法。方法包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;金融领域文本预训练步骤的实现结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,结合神经网络方法,在已有的金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征,而后通过词表征做多标签多分类任务得到事件检测结果,最后每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算得到输出结果,从而形成一个能够自动精准抽取金融文本事件的方法。
-
公开(公告)号:CN111191471A
公开(公告)日:2020-05-22
申请号:CN201911393679.4
申请日:2019-12-30
Applicant: 北京航空航天大学
IPC: G06F40/58 , G06F40/295 , G06F16/36
Abstract: 本发明公开了基于实体序列编码的知识图谱融合方法,所述方法包括:步骤一:知识图谱实体表示学习;步骤二:选择路径编码和对齐模型;步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;步骤四:添加新的候选种子节点;本发明针对现有技术中深度学习模型训练语料不足的问题,提出了基于实体路径表示学习的方法。
-
公开(公告)号:CN111191471B
公开(公告)日:2022-06-28
申请号:CN201911393679.4
申请日:2019-12-30
Applicant: 北京航空航天大学
IPC: G06F40/58 , G06F40/295 , G06F16/36
Abstract: 本发明公开了基于实体序列编码的知识图谱融合方法,所述方法包括:步骤一:知识图谱实体表示学习;步骤二:选择路径编码和对齐模型;步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;步骤四:添加新的候选种子节点;本发明针对现有技术中深度学习模型训练语料不足的问题,提出了基于实体路径表示学习的方法。
-
公开(公告)号:CN113312470B
公开(公告)日:2022-05-31
申请号:CN202110589943.2
申请日:2021-05-28
Applicant: 北京航空航天大学
IPC: G06F16/335 , G06F16/35 , G06F40/14 , G06F40/194 , G06F40/211 , G06F40/258 , G06F40/295 , G06F40/30 , G06F21/62 , G16H50/70 , G06N3/04 , G06N3/08
Abstract: 本发明通过人工智能领域的方法,实现了一种基于匿名化隐私保护技术的医疗事件抽取方法。由事件检测模型和事件抽取模型构成;事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层、双向注意力机制层、模型层、输出层的模型结构,采用Bi‑LSTM模型方法得到最终的分类标签;事件抽取模型通过抽取时间、地点、人物、组织机构、v‑n词对五项参数的方式结构化表示从事件中提取的有效信息。最终实现了能够克服事件句中可能存在的实体语义信息不明的情况,以及利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题的方法。
-
公开(公告)号:CN113312470A
公开(公告)日:2021-08-27
申请号:CN202110589943.2
申请日:2021-05-28
Applicant: 北京航空航天大学
IPC: G06F16/335 , G06F16/35 , G06F40/14 , G06F40/194 , G06F40/211 , G06F40/258 , G06F40/295 , G06F40/30 , G06F21/62 , G16H50/70 , G06N3/04 , G06N3/08
Abstract: 本发明通过人工智能领域的方法,实现了一种基于匿名化隐私保护技术的医疗事件抽取方法。由事件检测模型和事件抽取模型构成;事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层、双向注意力机制层、模型层、输出层的模型结构,采用Bi‑LSTM模型方法得到最终的分类标签;事件抽取模型通过抽取时间、地点、人物、组织机构、v‑n词对五项参数的方式结构化表示从事件中提取的有效信息。最终实现了能够克服事件句中可能存在的实体语义信息不明的情况,以及利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题的方法。
-
-
公开(公告)号:CN109871362A
公开(公告)日:2019-06-11
申请号:CN201910112962.9
申请日:2019-02-13
Applicant: 北京航空航天大学
IPC: G06F16/174 , G06F16/13
Abstract: 本发明提出一种面向流式时序数据的数据压缩方法,其特征在于,包括以下步骤:步骤1,数据清洗,所述数据清洗包括数据的缺失值处理、异常值处理,再对数据进行类型识别,得到时间标记数据和观测值数据;步骤2,数据压缩,所述将封装后的时间标记数据进行时间戳压缩,将观测值数据进行观测值数据压缩;步骤3,所述时间戳数据压缩数据和所述观测值数据压缩数据进行可变长编码;步骤4,数据封装,所述封装是将数据按不同类型的数据列压缩存储在数据文件。
-
-
-
-
-
-
-