-
公开(公告)号:CN114065760A
公开(公告)日:2022-02-18
申请号:CN202210040271.4
申请日:2022-01-14
Applicant: 中南大学
IPC: G06F40/289 , G06F40/194 , G06F16/33 , G06K9/62
Abstract: 本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统,包括:根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。最大限度的保留了有效文本特征,又减少了文本的长度,同时也保证了文本语义信息不被破坏、强化了重点特征的占比。在数据上、本质上提高了模型的精度和性能。
-
公开(公告)号:CN114065760B
公开(公告)日:2022-06-10
申请号:CN202210040271.4
申请日:2022-01-14
Applicant: 中南大学
IPC: G06F40/289 , G06F40/194 , G06F16/33 , G06K9/62
Abstract: 本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统,包括:根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。最大限度的保留了有效文本特征,又减少了文本的长度,同时也保证了文本语义信息不被破坏、强化了重点特征的占比。在数据上、本质上提高了模型的精度和性能。
-
公开(公告)号:CN113836308B
公开(公告)日:2022-02-18
申请号:CN202111417986.9
申请日:2021-11-26
Applicant: 中南大学
IPC: G06F16/35 , G06F40/289 , G06N3/04
Abstract: 本公开实施例中提供了一种网络大数据长文本多标签分类方法、系统、设备及介质,属于数据处理技术领域,具体包括:获取原始数据集;对原始数据集进行分析构建每个标签对应的关键词表后进行预处理,得到文本数据;将文本数据转换为字向量和词向量,并计算文本数据内不同词对应的位置向量;得到嵌入向量;将嵌入向量输入空洞门卷积层进行编码,得到编码向量;根据自注意力机制模型提取编码向量的特征,得到文本数据中每个词的关联性,并形成分类结果。通过本公开的方案,通过构建关键词表将多标签长文本分割,并将文本数据转换为不同向量后进行编码,再利用自注意力机制提取特征得到每个词的关联性,形成分类结果,提高了分类效率和精准度。
-
公开(公告)号:CN113836308A
公开(公告)日:2021-12-24
申请号:CN202111417986.9
申请日:2021-11-26
Applicant: 中南大学
IPC: G06F16/35 , G06F40/289 , G06N3/04
Abstract: 本公开实施例中提供了一种网络大数据长文本多标签分类方法、系统、设备及介质,属于数据处理技术领域,具体包括:获取原始数据集;对原始数据集进行分析构建每个标签对应的关键词表后进行预处理,得到文本数据;将文本数据转换为字向量和词向量,并计算文本数据内不同词对应的位置向量;得到嵌入向量;将嵌入向量输入空洞门卷积层进行编码,得到编码向量;根据自注意力机制模型提取编码向量的特征,得到文本数据中每个词的关联性,并形成分类结果。通过本公开的方案,通过构建关键词表将多标签长文本分割,并将文本数据转换为不同向量后进行编码,再利用自注意力机制提取特征得到每个词的关联性,形成分类结果,提高了分类效率和精准度。
-
公开(公告)号:CN118866351A
公开(公告)日:2024-10-29
申请号:CN202410890971.1
申请日:2024-07-04
Applicant: 中南大学
IPC: G16H50/30 , G16H50/70 , G06F40/284 , G06F40/58 , G06F40/289 , G06F18/25 , G06F18/22 , G06N3/045 , G06N3/084 , G06N3/0985
Abstract: 本发明涉及阿兹海默症预测技术领域,公开一种阿兹海默症检测方法、可读存储介质及计算机设备。本发明的阿兹海默症检测方法采用数据增强处理来生成正负样本,解决了样本稀缺的问题;本发明方法使用了多粒度特征增强,对于输入数据进行了显示特征增强处理,通过Self‑Attention和Cross‑Attention相结合这两种机制的结合,使模型能够生成一个综合的特征表示,它既包含了样本内部的细粒度信息,又显式强调了与阿兹海默症检测密切相关的关键特征,提高了模型检测的准确率;同时使用了R‑dorp和对比学习的训练方法,强化了模型在特征空间中的判别能力,增强了模型对特征的区分性和鲁棒性。
-
-
-
-