-
公开(公告)号:CN113094513B
公开(公告)日:2023-08-15
申请号:CN202110377971.8
申请日:2021-04-08
Applicant: 北京工商大学
IPC: G06F16/36 , G06F16/35 , G06F40/295 , G06N3/0455 , G06N3/048 , G06N3/0499 , G06Q50/26
Abstract: 本发明涉及一种基于跨度表示的端到端的菜谱信息抽取方法及系统,其方法包括:步骤S1:构建文本数据集;步骤S2:使用预训练语言模型获取文本数据集中每条文本语料向量;步骤S3:根据每条本语料向量,获取每条本语料中每个跨度向量;步骤S4:将每个跨度向量,输入神经网络,得到跨度向量的得分,并计算跨度向量的实体类型;步骤S5:取任一对跨度,将其对应的实体类型插入其所对应的文本,构建调整后的文本及其跨度向量,将调整后的跨度向量,输入神经网络,以判定二者对应关系。本发明提供的方法,从文本数据中联合抽取菜谱中的实体以及实体之间的对应关系,通过解决重叠实体问题,极大的提高菜谱文本数据的信息抽取的准确率。
-
公开(公告)号:CN113051922A
公开(公告)日:2021-06-29
申请号:CN202110422948.6
申请日:2021-04-20
Applicant: 北京工商大学
IPC: G06F40/295 , G06F40/211 , G06N3/04
Abstract: 本发明涉及一种基于深度学习的三元组抽取方法及系统,其方法包括:步骤S1:获取文本语料库,并进行预处理;步骤S2:利用预训练语言模型对文本语料库进行处理,获得句子的字符向量;步骤S3:将字符向量经过BiLSTM神经网络以及CRF模型进行处理,得到句子的标签序列,从而识别句子的实体及其类型;步骤S4:根据实体及其类型,构建实体信息向量;将字符向量和实体信息向量相加作为主体,输入关系客体模型,根据文本语料库中预先定义的关系,得到对应的客体,由此构造三元组。本发明提供的方法通过二进制标记框架,作为特定关系客体标记器来根据识别出的主体在给定关系的情况下识别对应的客体,并结合实体识别以构建主体,有效解决三元组中重叠关系的问题。
-
公开(公告)号:CN113094513A
公开(公告)日:2021-07-09
申请号:CN202110377971.8
申请日:2021-04-08
Applicant: 北京工商大学
Abstract: 本发明涉及一种基于跨度表示的端到端的菜谱信息抽取方法及系统,其方法包括:步骤S1:构建文本数据集;步骤S2:使用预训练语言模型获取文本数据集中每条文本语料向量;步骤S3:根据每条本语料向量,获取每条本语料中每个跨度向量;步骤S4:将每个跨度向量,输入神经网络,得到跨度向量的得分,并计算跨度向量的实体类型;步骤S5:取任一对跨度,将其对应的实体类型插入其所对应的文本,构建调整后的文本及其跨度向量,将调整后的跨度向量,输入神经网络,以判定二者对应关系。本发明提供的方法,从文本数据中联合抽取菜谱中的实体以及实体之间的对应关系,通过解决重叠实体问题,极大的提高菜谱文本数据的信息抽取的准确率。
-
-