-
公开(公告)号:CN111274394A
公开(公告)日:2020-06-12
申请号:CN202010058018.2
申请日:2020-01-16
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F40/211 , G06F40/284 , G06K9/62
Abstract: 本发明属于自然语言处理领域,涉及一种实体关系的抽取方法、装置、设备及存储介质,所述方法包括获取每条语料的句法信息并预处理,将预处理后的句法信息输入到BERT模型中;获取语料的序列特征向量和每个词语的实值特征向量;利用词性标注和句法分析,划分出包含实体对的完整短句,利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量;采用基于依存分析的单词级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响,提高了关系抽取的准确率。
-
公开(公告)号:CN112487146B
公开(公告)日:2022-05-31
申请号:CN202011386072.6
申请日:2020-12-02
Applicant: 重庆邮电大学
Abstract: 本发明涉及人工智能领域和自然语言处理领域,尤其涉及一种法律案件争议焦点获取方法、装置以及计算机设备;所述方法包括获取具有争议焦点的法律文本,归纳争议焦点的类别并将其视为标签,制作成法律案件争议焦点数据集;将如何获得争议焦点问题转化为分类问题,类的标签由上一步归纳所得,将原被告陈述内容分别作为输入,使用一种孪生BERT模型,对数据集进行训练得到模型结果;对无争议焦点的文书通过训练好的模型得到最终争议焦点结果。本发明收集、制作法律案件争议焦点数据集;使用一种孪生BERT模型,能够扩大输入长度,突破BERT长度为512的限制;得到更加精准的分类结果。本发明能够得到效果更好的法律案件争议焦点结果。
-
公开(公告)号:CN112487146A
公开(公告)日:2021-03-12
申请号:CN202011386072.6
申请日:2020-12-02
Applicant: 重庆邮电大学
Abstract: 本发明涉及人工智能领域和自然语言处理领域,尤其涉及一种法律案件争议焦点获取方法、装置以及计算机设备;所述方法包括获取具有争议焦点的法律文本,归纳争议焦点的类别并将其视为标签,制作成法律案件争议焦点数据集;将如何获得争议焦点问题转化为分类问题,类的标签由上一步归纳所得,将原被告陈述内容分别作为输入,使用一种孪生BERT模型,对数据集进行训练得到模型结果;对无争议焦点的文书通过训练好的模型得到最终争议焦点结果。本发明收集、制作法律案件争议焦点数据集;使用一种孪生BERT模型,能够扩大输入长度,突破BERT长度为512的限制;得到更加精准的分类结果。本发明能够得到效果更好的法律案件争议焦点结果。
-
公开(公告)号:CN111814477A
公开(公告)日:2020-10-23
申请号:CN202010639397.4
申请日:2020-07-06
Applicant: 重庆邮电大学
Abstract: 本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’-’+标题+’-’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。
-
公开(公告)号:CN111046185A
公开(公告)日:2020-04-21
申请号:CN201911291310.2
申请日:2019-12-16
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/36 , G06F40/279
Abstract: 本发明涉及信息技术领域,涉及一种文本信息的知识图谱关系抽取方法、装置及终端;所述方法包括获取待抽取知识图谱关系的文本信息;使用多种词向量模型分别构建文本信息的词向量;将分别构建的词向量进行横向拼接,得到最终词向量;采用多层SKnet网络抽取出最终词向量的关系特征;将关系特征进行混合池化操作,将混合池化后的关系特征放入分类器中,得到该关系特征所属的文本信息的知识图谱关系抽取标签。本发明将不同词向量工具生成的词向量进行拼接从而增加词语信息;通过多层SKnet网络抽取词向量特征;对抽取后的特征进行混合池化操作,能够得到信息更加丰富、准确的关系特征。本发明抽取出能够提高抽取文本信息关系的效率。
-
公开(公告)号:CN110688835A
公开(公告)日:2020-01-14
申请号:CN201910829161.4
申请日:2019-09-03
Applicant: 重庆邮电大学
IPC: G06F40/242 , G06F40/289
Abstract: 本发明请求保护一种基于词语特征值的法律专有领域词发现方法,其包括以下步骤:首先读入待分词操作的法律领域文本数据集,根据明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;然后利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;执行基于词语特征值的法律专有领域词发现算法,计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,否则就舍弃该词串,最后完成分词,本发明提升了法律领域文档中分词工作的准确度。
-
公开(公告)号:CN110688835B
公开(公告)日:2023-03-31
申请号:CN201910829161.4
申请日:2019-09-03
Applicant: 重庆邮电大学
IPC: G06F40/242 , G06F40/289
Abstract: 本发明请求保护一种基于词语特征值的法律专有领域词发现方法,其包括以下步骤:首先读入待分词操作的法律领域文本数据集,根据明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;然后利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;执行基于词语特征值的法律专有领域词发现算法,计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,否则就舍弃该词串,最后完成分词,本发明提升了法律领域文档中分词工作的准确度。
-
公开(公告)号:CN111046185B
公开(公告)日:2023-02-24
申请号:CN201911291310.2
申请日:2019-12-16
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/36 , G06F40/279
Abstract: 本发明涉及信息技术领域,涉及一种文本信息的知识图谱关系抽取方法、装置及终端;所述方法包括获取待抽取知识图谱关系的文本信息;使用多种词向量模型分别构建文本信息的词向量;将分别构建的词向量进行横向拼接,得到最终词向量;采用多层SKnet网络抽取出最终词向量的关系特征;将关系特征进行混合池化操作,将混合池化后的关系特征放入分类器中,得到该关系特征所属的文本信息的知识图谱关系抽取标签。本发明将不同词向量工具生成的词向量进行拼接从而增加词语信息;通过多层SKnet网络抽取词向量特征;对抽取后的特征进行混合池化操作,能够得到信息更加丰富、准确的关系特征。本发明抽取出能够提高抽取文本信息关系的效率。
-
公开(公告)号:CN111274394B
公开(公告)日:2022-10-25
申请号:CN202010058018.2
申请日:2020-01-16
Applicant: 重庆邮电大学
IPC: G06F16/36 , G06F16/35 , G06F40/211 , G06F40/284 , G06K9/62
Abstract: 本发明属于自然语言处理领域,涉及一种实体关系的抽取方法、装置、设备及存储介质,所述方法包括获取每条语料的句法信息并预处理,将预处理后的句法信息输入到BERT模型中;获取语料的序列特征向量和每个词语的实值特征向量;利用词性标注和句法分析,划分出包含实体对的完整短句,利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量;采用基于依存分析的单词级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响,提高了关系抽取的准确率。
-
公开(公告)号:CN111814477B
公开(公告)日:2022-06-21
申请号:CN202010639397.4
申请日:2020-07-06
Applicant: 重庆邮电大学
Abstract: 本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’‑’+标题+’‑’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。
-
-
-
-
-
-
-
-
-