-
公开(公告)号:CN119990139A
公开(公告)日:2025-05-13
申请号:CN202510069995.5
申请日:2025-01-16
Applicant: 贵州大学
IPC: G06F40/30 , G06N3/0442 , G06N3/045 , G06F40/295
Abstract: 本发明提供了一种序列标注优化方法、系统、计算机设备及介质,属于计算机应用及自然语言处理技术领域。该方法包括以下步骤:S1、对文本数据集进行预处理,构建预处理后的数据集;S2、获取预处理后的数据集中的词向量;S3、将获取的词向量同时输入到标签分类器和两个不同的偏移量分类器中,分别获取标签序列和偏移量序列;S4、基于获取的标签序列提取实体跨度集;S5、基于获取的偏移量序列,进行平滑处理,平滑偏移量序列中的噪声,并提取候选跨度集;S6、通过交并比策略过滤掉低质量的候选跨度,得到过滤后的候选跨度;S7、基于过滤后的候选跨度,更新标签序列中的相应实体跨度。本发明可以提高命名实体识别的准确性。
-
公开(公告)号:CN119046439A
公开(公告)日:2024-11-29
申请号:CN202411280929.4
申请日:2024-09-13
Applicant: 贵州大学
IPC: G06F16/332 , G06Q50/18 , G06F40/30 , G06F40/194 , G06N3/045
Abstract: 本发明提供一种交互式法律问答的历史案例检索方法,包括:基于法律问答文本,利用文本意图识别模型,识别是否需要进行历史案例检索;采用文本相似度函数计算所述法律问答文本与所述历史案例的相似度,并输出文本相似度最高的前N个历史案例;利用罪名预测模型,预测法律问答本文所属罪名,并利用所属罪名在案例库中搜寻历史案例,输出文本相似度最高的前N个历史案例;基于所述文本相似度最高的前N个历史案例,构建提示词,并利用大模型作为判别器,筛选过滤最合适的历史案例,本发明减少了问答过程中不必要的检索流程,提高法律问答短文本内容历史案例检索的准确性;可以确保在短文本缺乏关键信息进行历史案例检索的可靠性和准确性。
-
公开(公告)号:CN118940746A
公开(公告)日:2024-11-12
申请号:CN202411431795.1
申请日:2024-10-14
Applicant: 贵州大学
IPC: G06F40/205 , G06F40/30 , G06N3/0499 , G06N3/08
Abstract: 一种基于神经核方法的关系抽取方法,属于自然语言处理领域,包括:关系抽取任务定义和形式化,建立从关系实例集合到关系标签集合的映射;构建神经核方法模型,将输入数据分配给与最接近的标注参考实例相同的类型。本发明在关系抽取任务中引入了三种神经核来演示关系抽取的核替换机制:通过三种神经核的优化,并使用核替换构建复合核,提高了深度神经网络的区分能力。本发明利用神经核方法进行关系抽取,通过结合神经网络和核替换的方法,提高分类准确性。利用神经核方法能自动学习关系实例之间的相似性,避免了现有关系抽取方法中手动设计特征和距离函数可能导致的问题,同时能充分利用深度学习和外部资源,提高关系抽取任务的性能和效果。
-
公开(公告)号:CN116414989A
公开(公告)日:2023-07-11
申请号:CN202310457296.9
申请日:2023-04-25
Applicant: 贵州大学
IPC: G06F16/35 , G06F16/36 , G06F40/30 , G06N5/025 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G16B40/00 , G16H50/70
Abstract: 本发明公开了一种层次化卷积的生物医学关系抽取方法、装置及存储介质,包含两个卷积层,以分层的方式实现。在该模型中,通过使用一个关系实例中的两个命名实体,将句子分成五个通道。然后,采用传统的token级卷积操作从每个通道中学习局部上下文特征。特别地,设计了一个通道级卷积操作来学习不同通道之间的语义依赖关系。相较于传统的卷积模型,该发明能有效地编码长句子中的距离语义依赖。此外,该发明充分利用了预训练语言模型的潜在知识。
-
公开(公告)号:CN111126040B
公开(公告)日:2023-06-20
申请号:CN201911362019.X
申请日:2019-12-26
Applicant: 贵州大学
IPC: G06F40/211 , G06F40/295 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于深度边界组合的生物医学命名实体识别方法,所述方法包括如下步骤:步骤一、将生物医学实体中的不连续性实体建模为嵌套实体结构;步骤二、使用字符级Embedding和词级别Embedding表示生物医学词汇信息;步骤三、基于步骤二获得的词向量,使用神经网络模型识别生物医学实体边界;步骤四、使用边界组合策略,产生候选实体集;步骤五、构建神经网络分类器,对候选实体集进行筛选。本发明针对生物医学命名实体特点,采用基于深度边界组合框架,结合可利用的外部资源,更加准确的表示生物医学词汇,解决生物医学文本中不连续实体识别问题,完成BioNER任务,为BioNER提供更加有力的理论和技术支撑,进一步地为生物医学领域的研究者提供便捷、高效的实体识别工具,有效的提高了生物医学实体识别的性能。
-
公开(公告)号:CN110516068B
公开(公告)日:2023-05-26
申请号:CN201910785197.7
申请日:2019-08-23
Applicant: 贵州大学
IPC: G06F16/35
Abstract: 本发明公开了一种基于度量学习的多维度文本聚类方法,它主要包括以下步骤:一从数据集中选取两个维度并进行特征向量化表示;二使用K‑Means聚类方法并结合度量矩阵学习分别对两个维度进行初始化聚类;三判断当前的聚类结果是否达到结束条件,若不满足则设置约束对上限常数执行步骤四,否则结束算法,输出聚类结果辅助下游任务;四利用当前维度的聚类结果挑选满足条件的约束对;五将步骤四所生成的约束集合加入到维度的聚类过程中,调节目标函数和度量矩阵的学习,得到两个维度的聚类结果;六重复迭代步骤三至步骤五。此方法基于度量学习的多维度文本聚类算法综合考虑数据在不同特征空间的表现方式,进行多维度辅助聚类,有较好的聚类效果。
-
公开(公告)号:CN116050609A
公开(公告)日:2023-05-02
申请号:CN202310008676.4
申请日:2023-01-04
Applicant: 贵州大学 , 贵州数文科技有限公司
IPC: G06Q10/04 , G06Q50/18 , G06F40/30 , G06F16/35 , G06N3/042 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0895
Abstract: 本发明属于信息抽取领域,具体涉及一种融合行为词的罪名预测多任务学习方法。步骤1:对裁判文书的案件描述,使用BERT预训练得到文本信息的抽象语义表示;步骤2:基于步骤1的文本信息的抽象语义表示,利用BiLSTM获取文本中上下文语义依赖特征;步骤3:基于步骤2的上下文语义依赖特征,识别行为词边界的方式定位其所在文本的位置;步骤4:基于步骤3定位行为词边界,通过组合得到不同边界生成行为词的跨度;步骤5:基于步骤4识别的行为词跨度,通过构建行为词之间的相关性信息预测所属罪名。用以解决现有方法却往往依赖文本特征,忽略了不同案件行为要素的差异性,缺乏对犯罪行为的有效利用以及不同任务之间参数信息无法共享的问题。
-
公开(公告)号:CN114647726A
公开(公告)日:2022-06-21
申请号:CN202210214829.6
申请日:2022-03-04
Applicant: 贵州大学
IPC: G06F16/35 , G06K9/62 , G06F40/216 , G06F40/226 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质,该方法可以有效获取新闻信息。在新闻信息提取任务中,传统的模型依赖于HTML标签,难以扩展至不同来源的新闻网页中使用。且只能将新闻内容整体提取,不能提取多种类新闻属性信息。基于上述两个难点,本发明提出了基于多维度文本特征模型MTFE,该方法通过分析新闻网页的纯文本内容得到写作特征、位置特征和语义特征,通过卷积神经网络和长短期记忆模型学习出多维度的文本特征,从而提高文本特征的置信度。实验显示,本发明中的方法显著提高了多来源新闻网页提取多种属性新闻信息的效果,在10个中文数据集和5个英文数据集上均取得90%以上的F值,这证明了该方法的有效性。
-
公开(公告)号:CN111259106A
公开(公告)日:2020-06-09
申请号:CN201911420569.2
申请日:2019-12-31
Applicant: 贵州大学
IPC: G06F16/31 , G06F40/211 , G06F40/279 , G06F40/30
Abstract: 本发明公开了一种结合神经网络和特征演算的关系抽取方法,所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、Softmax层预测结果。在充分利用句子文本完整信息的基础上,结合特征演算方法获取到的结构及语义信息。同时引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,通过将句子字向量输入卷积池化层后得到的结果与复合特征向量相结合,这在一定程度上避免句子中字数量有限而产生的特征稀疏问题,从而有效提高关系抽取任务的实验性能。
-
公开(公告)号:CN111008529A
公开(公告)日:2020-04-14
申请号:CN201910669521.9
申请日:2019-07-24
Applicant: 贵州大学
Abstract: 本发明公开了一种基于神经网络的中文关系抽取方法,该方法可以有效获取句子的结构信息和语义信息。在关系抽取任务中,单一的长短期记忆模型只能学习到某个特定维度的特征,而卷积神经网络可以利用多个卷积核学习不同维度特征。基于上述两个特点,本发明提出了一种多层双向长短期记忆-注意力模型,该方法通过给长短期记忆模型设置不同大小的隐藏层,使其能自动从原始输入中抽取不同维度的、带依赖信息的抽象特征,并利用注意力机制捕获全局信息。实验显示,本发明中的方法相较多核卷积神经网络和单一的长短期记忆-注意力模型能显著提高中文关系抽取效果,在ACE RDC 2005中文数据集上取得71.61%的F值,取得了很好的效果,这证明了该方法的有效性。
-
-
-
-
-
-
-
-
-