一种司法领域数据的规范方法

    公开(公告)号:CN110609828A

    公开(公告)日:2019-12-24

    申请号:CN201810561376.8

    申请日:2018-05-29

    Applicant: 南京大学

    Abstract: 本发明旨在提出司法数据标准制的一般方法,目的在于为司法信息化系统间整合提供数据基础、提高数据质量和促进数据的共享,从而完善进一步完善司法信息化建设。此工作方法分为四个主要环节:数据需求的定义、数据清单的产生、数据标准的制定、数据标准的审定。这一方法为构建司法数据仓库打下基础,能够提高数据仓库的源系统数据的一致性和可用性,为司法数据标准规划提供了一套可以借鉴的思路。

    一种用于刑罚推断的主题模型PTM

    公开(公告)号:CN110609821A

    公开(公告)日:2019-12-24

    申请号:CN201810561189.X

    申请日:2018-05-29

    Applicant: 南京大学

    Abstract: 本发明旨在从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述,并将上述特征输入到PTM模型中。其中,文本是必需元素。本发明学习测试中的法律案件的主题,并结合在训练过程中学习到的主题并通过一种投票机制来推断该法律案件的判罚。

    一种众包测试审核任务分配方法
    13.
    发明公开

    公开(公告)号:CN116362455A

    公开(公告)日:2023-06-30

    申请号:CN202111584198.9

    申请日:2021-12-22

    Applicant: 南京大学

    Abstract: 一种众包测试审核任务分配方法,其特征是在众包审核任务分配过程中考虑到用户特征,用户特征包含信誉特征、能力特征和行为特征。计算用户在不同审核任务类型维度下的特征,计算众包审核任务热度逆序列表,使用基于任务的协同过滤算法生成用户任务推荐列表,综合任务热度逆序表和任务推荐表,为用户动态分配审核任务。众包审核任务结束后,根据用户能力特征,为用户审核结果加权,计算最终审核结果,并更新用户特征。此方法可有效提高众包审核任务完成度,保障审核结果的准确性。

    一种基于LDA主题模型的司法案例筛选方法

    公开(公告)号:CN111858842A

    公开(公告)日:2020-10-30

    申请号:CN201910352429.X

    申请日:2019-04-26

    Applicant: 南京大学

    Inventor: 何铁科 许金 严格

    Abstract: 本发明提出了一种基于LDA的法院类案推荐方法,为法律人员高效推荐类案以供参考分析,帮助在疑难案件上提供新的解决途径,也能够统一司法裁判尺度,避免司法裁判不公。该发明的主要创新在于(1)对案例文书进行语句清洗,提取关键词;(2)对关键词列表构建文本矩阵进行聚类;(3)将LDA和余弦相似度相结合的方法高效筛选最佳类案。本发明最终基于LDA开发的类案推荐,帮助法律工作人员快速高效分析案例并作出准确裁判。

    一种使用神经网络和机器学习排序算法的问答系统实现方法

    公开(公告)号:CN111190997A

    公开(公告)日:2020-05-22

    申请号:CN201811298287.5

    申请日:2018-10-26

    Applicant: 南京大学

    Abstract: 一种使用神经网络和机器学习排序算法的问答系统实现方法,其根据自然语言格式的问题,使用维基百科文档集作为数据源,给出短文本格式的答案。该方法分为文档检索和机器阅读理解两部分。文档检索部分使用LSI模型对问题和文档进行建模,根据用户提出的问题在维基百科文档库中查找最相关的五篇文档,然后将问题和这五篇文档作为下一阶段的输入,阅读理解部分使用双向神经网络分别对问题和文章中的段落进行建模,最后再使用一个双向神经网络学习最优的答案片段,将最终答案和答案所在段落反馈给用户。

    一种规则约束下的文本信息质量度量方法

    公开(公告)号:CN110543628A

    公开(公告)日:2019-12-06

    申请号:CN201810561187.0

    申请日:2018-05-29

    Applicant: 南京大学

    Abstract: 本发明提出了一种规则约束下的文本信息质量度量方法,用于帮助对各领域下有规则约束的文本进行数据质量的度量,给出九大数据质量指标,对文本数据质量进行量化。例如司法文书数据等。该发明的主要创新在于(1)利用文本书写规则构建数据质量理论基础;(2)对文本数据质量采用信息质量进行反映;(3)结合六元客观信息论对数据质量指标进行定义,并采用粗糙集对指标进行数学建模。

    基于虚拟化和回测库的量化交易方法

    公开(公告)号:CN106022916A

    公开(公告)日:2016-10-12

    申请号:CN201610283645.X

    申请日:2016-04-27

    Applicant: 南京大学

    CPC classification number: G06Q40/04

    Abstract: 基于虚拟化和回测库的量化交易方法,对于量化交易策略,首先构建一个基本的隔离镜像,安装上必须的回测库后作为base镜像,同时定期更新回测数据。在每次提交量化策略后,从镜像启动创建一个隔离回测环境,环境准备完成后挂载数据和策略,运行回测,最终等待回测完成返回结果。本发明作为一种新的量化平台策略运行方法,引入了虚拟化技术和回测库,保证了在策略运行过程中各运行环境能够隔离独立,包括了运行资源,数据等的隔离。同时回测库的引入也更能保证回测的正确性和可参考性。主要解决了在传统量化交易中策略运行时可能出现资源互相冲突或占用,运行环境有冲突等情况,确保了策略运行时的资源独立和环境隔离。

    一种基于社区原型的图对比学习方法

    公开(公告)号:CN119006871A

    公开(公告)日:2024-11-22

    申请号:CN202310581071.4

    申请日:2023-05-22

    Applicant: 南京大学

    Abstract: 本发明是一种基于社区原型的图对比学习方法。相比于现有的图对比学习方法,本发明更加重视社区信息,将社区检测、社区原型和节点嵌入相互关联,以提高图表示学习的质量。本发明通过结合图注意力网络(GAT)和传统的社区检测算法(标签传播算法,LPA),来学习带有社区结构信息的节点嵌入。经过大量的实验,结果表明它的性能优于现有方法。该方法可应用于无标签数据的图表示学习任务,缓解监督学习的重度依赖标签、泛化性能差、鲁棒性弱等局限性,具有广泛的应用前景。

    一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法

    公开(公告)号:CN119005215A

    公开(公告)日:2024-11-22

    申请号:CN202310580943.5

    申请日:2023-05-22

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于预训练模型和数据增强技术的“中‑英”条件时态机器翻译方法,用于增强“中‑英”机器翻译时条件时态的翻译效果,进而提高翻译系统总体的翻译表达能力,提高用户满意度。本发明主要分为四个主要环节:利用自注意力机制对英文的上下文时态信息进行编码、利用预训练模型Chinese‑BERT构建一个条件时态分类器、设计了一个条件时态数据增强算法以及基于篇章级机器翻译模型HAN‑NMT构建的条件时态翻译器和非条件时态翻译器。这一方法为“中‑英”机器翻译中条件时态翻译效果问题提供了一个最前沿的基于预训练模型和数据增强算法的优化方案,同时也为“中‑英”翻译和其他语种翻译中时态的优化问题提供了可以借鉴的思路。

    一种基于持续学习和提示模板的通用命名实体识别方法

    公开(公告)号:CN119005187A

    公开(公告)日:2024-11-22

    申请号:CN202310581034.3

    申请日:2023-05-22

    Applicant: 南京大学

    Abstract: 本发明的技术方案一种基于持续学习和提示模板的通用命名实体识别方法。本发明的特点在于:1.本方法只需要少量的过去实体的注释样本;2.本发明不需要扩展神经网络层,也不需要每次都复制新的编码器层来构建新的模型。本方法总是在同一个模型上进行训练,这样可以避免存储空间的浪费,也不需要每次动态调整和重新训练模型的输出层;3.本发明创新的结合了基于代表性困难度的样本重放方法和基于EWC的正则化方法,大大减轻了由于灾难性遗忘问题导致持续学习中NER模型表现迅速下降的问题。本发明可以指导开发人员更好的完成类增量设置下的命名实体识别任务,快速准确的定位非结构化文本中的命名实体并将其分类为预先定义的类型。

Patent Agency Ranking