-
公开(公告)号:CN115587909A
公开(公告)日:2023-01-10
申请号:CN202110764875.9
申请日:2021-07-06
Applicant: 南京大学
IPC: G06Q50/18 , G06N3/04 , G06N3/08 , G06F16/34 , G06F40/289
Abstract: 一种基于生成式对抗网络的司法文本数据扩增方法,将生成式对抗网络进行改进,使其适用于文本数据的生成,并将其应用于司法文本的数据扩增中,以获得更为丰富的训练文本数据。主要分为三个步骤,第一个步骤为对抗生成网络模型的搭建,将传统的生成式对抗网络进行改进,使其可以应用于文本的生成;第二个步骤是文本的预处理,进行分词及词向量的应用等操作;最后一个步骤为司法文本数据的生成,将司法文本数据预处理后输入对抗生成网络中,进行司法文本数据的生成。本发明可以基于生成式对抗网络进行司法文本的生成,可应用于深度学习的数据扩增中,生成一批与原数据具有相同分布的训练及测试数据,可以更有效地使用现有数据,缓解神经网络泛化能力差的情况,从而促进司法领域深度学习模型的发展。
-
公开(公告)号:CN115586900A
公开(公告)日:2023-01-10
申请号:CN202110764933.8
申请日:2021-07-06
Applicant: 南京大学
IPC: G06F8/41
Abstract: 本发明提出了一种基于自注意力机制的路径融合的代码理解方法,用于将Java源代码文件理解为低维稠密语义向量,并基于该向量表示代码中的语义与语法信息。同时,本方法基于代码方法名称预测与代码文本相似度评估两个方面,对代码理解方法进行训练以及评估。该发明的主要创新在于(1)基于自注意力机制,提出了一种全新的AST路径解析方法;(2)提出了一种基于循环神经网络的源代码理解方法,获得更为全面准确的语义信息;(3)提出了更为合理的源代码翻译模型与相似度评估模型,并超越了现有方法。
-
公开(公告)号:CN116362455A
公开(公告)日:2023-06-30
申请号:CN202111584198.9
申请日:2021-12-22
Applicant: 南京大学
IPC: G06Q10/0631
Abstract: 一种众包测试审核任务分配方法,其特征是在众包审核任务分配过程中考虑到用户特征,用户特征包含信誉特征、能力特征和行为特征。计算用户在不同审核任务类型维度下的特征,计算众包审核任务热度逆序列表,使用基于任务的协同过滤算法生成用户任务推荐列表,综合任务热度逆序表和任务推荐表,为用户动态分配审核任务。众包审核任务结束后,根据用户能力特征,为用户审核结果加权,计算最终审核结果,并更新用户特征。此方法可有效提高众包审核任务完成度,保障审核结果的准确性。
-
公开(公告)号:CN119006871A
公开(公告)日:2024-11-22
申请号:CN202310581071.4
申请日:2023-05-22
Applicant: 南京大学
IPC: G06V10/764 , G06V10/762 , G06V10/82 , G06N3/045 , G06N3/042 , G06N3/084
Abstract: 本发明是一种基于社区原型的图对比学习方法。相比于现有的图对比学习方法,本发明更加重视社区信息,将社区检测、社区原型和节点嵌入相互关联,以提高图表示学习的质量。本发明通过结合图注意力网络(GAT)和传统的社区检测算法(标签传播算法,LPA),来学习带有社区结构信息的节点嵌入。经过大量的实验,结果表明它的性能优于现有方法。该方法可应用于无标签数据的图表示学习任务,缓解监督学习的重度依赖标签、泛化性能差、鲁棒性弱等局限性,具有广泛的应用前景。
-
公开(公告)号:CN119005187A
公开(公告)日:2024-11-22
申请号:CN202310581034.3
申请日:2023-05-22
Applicant: 南京大学
IPC: G06F40/295 , G06F40/186 , G06N3/08
Abstract: 本发明的技术方案一种基于持续学习和提示模板的通用命名实体识别方法。本发明的特点在于:1.本方法只需要少量的过去实体的注释样本;2.本发明不需要扩展神经网络层,也不需要每次都复制新的编码器层来构建新的模型。本方法总是在同一个模型上进行训练,这样可以避免存储空间的浪费,也不需要每次动态调整和重新训练模型的输出层;3.本发明创新的结合了基于代表性困难度的样本重放方法和基于EWC的正则化方法,大大减轻了由于灾难性遗忘问题导致持续学习中NER模型表现迅速下降的问题。本发明可以指导开发人员更好的完成类增量设置下的命名实体识别任务,快速准确的定位非结构化文本中的命名实体并将其分类为预先定义的类型。
-
公开(公告)号:CN115587726A
公开(公告)日:2023-01-10
申请号:CN202110764872.5
申请日:2021-07-06
Applicant: 南京大学
IPC: G06Q10/0631 , G06Q10/0639
Abstract: 一种基于案情事实的深度刑期预测方法,其将深度学习的模型使用在司法领域的刑期预测方面,将案情事实处理为特征向量,刑期作为标签。方法主要分为三个步骤,第一个步骤为文本的预处理,将抽取出的案情事实做分词和特征化工程,处理后的序列作为案情的特征表示,然后将刑期划分为5个种类并为每一个案件做好标签。第二个步骤是将处理好的数据集作为输入,用fastText算法训练得到刑期预测模型,最后一个步骤是将测试集按照第一个步骤的方式处理后,使用第二个步骤得到的模型进行刑期预测,然后和实际上的标签进行比对。本发明可以基于案情事实基本准确的预测出刑期的标签,为工作人员提出量刑建议提供了参考。
-
公开(公告)号:CN115587167A
公开(公告)日:2023-01-10
申请号:CN202110764752.5
申请日:2021-07-06
Applicant: 南京大学
IPC: G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明是一个能够根据上下文及答案自动化生成问题的方法。该方法通过把整个段落进行编码,捕获整个段落的语义信息;同时使用句子级编码方式结合句子级注意力机制,获得句子间的逻辑关系。该方法克服了传统问题生成模型不能使用完整上下文信息的弊端,充分利用了上下文段落的语义信息和句子间的逻辑关系。经过大量的实验,结果表明该方法能够有效的生成较高质量的问题。本发明的目的在于提供一种高质量的问题生成方法,促进问答技术等领域的发展,加速实现智能化的人机交互,进而促进社会发展和高效率运行。
-
公开(公告)号:CN115587166A
公开(公告)日:2023-01-10
申请号:CN202110764618.5
申请日:2021-07-06
Applicant: 南京大学
IPC: G06F16/332 , G06F16/35 , G06N3/04
Abstract: 本发明是一种面向对话系统的线程跟踪方法。本方法运用RNN+Attention+Gate模型完成多轮对话的多标签意图识别,在存储器中保存上下文信息作为记忆,引入Attention机制筛选有用记忆,通过门控制来判定当前语句是否需要引用上下文信息,从而得到线程跟踪结果。本发明目的在于确定多轮对话中的不同线程,帮助用户理解该对话集的主题,从而解决根据上下文信息识别语句的多意图问题。
-
公开(公告)号:CN115587168A
公开(公告)日:2023-01-10
申请号:CN202110764787.9
申请日:2021-07-06
Applicant: 南京大学
IPC: G06F16/332 , G06N3/04 , G06N3/08 , G06F40/268 , G06F40/289 , G06F40/295
Abstract: 本发明是一个根据上下文及答案自动化生成问题的方法。该方法通过把文本的深度语义特征融合到大型预训练模型(BERT、ULMFit)中,进而获取文本的深层次的语义表示。该方法不仅考虑了典型的文本语言信息(如POS、NER),还针对QG问题提出了一种新的语言学特征QAF。经过大量的实验,结果表明该方法达到目前最优水平。本发明的目的在于提供一种高质量的问题生成方法,促进问答技术等领域的发展,加速实现智能化的人机交互,进而促进社会发展和高效率运行。
-
公开(公告)号:CN115587159A
公开(公告)日:2023-01-10
申请号:CN202110764789.8
申请日:2021-07-06
Applicant: 南京大学
IPC: G06F16/33 , G06F16/332
Abstract: 本发明提出了一种社区问答系统关键信息补充方法,用于帮助提问者回顾自己的提问方式,补充遗漏的要素便于网友更快地解决这一问题,亦或是在这一环节中引导提问者自行解决问题。该发明的主要创新在于(1)使用Similar Questions Model框架中的相似度算法从数据集中计算问题帖之间的相似度;(2)使用BM25完成问题匹配,相似度计算工作;(3)通过RAKE算法生成关键词或者关键短语。
-
-
-
-
-
-
-
-
-