-
公开(公告)号:CN116561778A
公开(公告)日:2023-08-08
申请号:CN202310454711.5
申请日:2023-04-25
Applicant: 南京邮电大学
IPC: G06F21/60 , G06F21/31 , G06F16/27 , G06F21/33 , G06F16/28 , G06F16/2455 , G06F16/2458 , G06F21/62
Abstract: 本发明公开了一种基于联盟链和星际文件系统的居民出行轨迹安全共享方法,涉及区块链和出行轨迹数据技术领域,采用Hyperledger Fabric,结合IPFS形成了链上查询和链下存储的新模式,从而将居民出行轨迹的索引信息存储在采用高效共识的联盟链中,解决了传统公有链的效率问题,实现更高的检索性能;同时通过将完整的居民旅行轨迹数据的密文存储在去中心化的IPFS中,可以减轻隐私信息泄露风险,并确保存储数据的安全性;并且也考虑到居民出行轨迹信息海量,本方法通过在链上查询索引,获取IPFS链下存储的完整居民出行轨迹数据,可以显著提高居民出行轨迹的数据处理效率,从而更有利于相关工作的展开。
-
公开(公告)号:CN117150232B
公开(公告)日:2024-02-06
申请号:CN202311405741.3
申请日:2023-10-27
Applicant: 南京邮电大学
IPC: G06F18/15 , G06F18/214 , G06F18/21 , G06F18/2411 , G06F18/2413 , G06F18/243 , G06N5/01 , G06N20/20
Abstract: 本发明公开了一种大模型非时序训练数据质量评价方法,从宏观与微观两个角度出发对大模型预训练数据集的质量做出评价。宏观层面:对数据集总量、数据类分布情况进行检查,考虑到数据的特殊性,还对数据集时效性进行检查,对数据集质量进行初步评价。微观层面:将数据集特征与标签的关联强度作为数据集质量评价标准,对数据集进行评价时为了降低大规模数据集背景下的工作量,预先采用分层抽样的方法对原始数据集进行样本抽取;评价过程包括特征重排列测试、标签重排列测试,并通过置换检测进行辅助,对数据集的质量作出评价。该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估,降低数据集质量对模型训练结果的影响,减少模型迭代成本。
-
公开(公告)号:CN117150232A
公开(公告)日:2023-12-01
申请号:CN202311405741.3
申请日:2023-10-27
Applicant: 南京邮电大学
IPC: G06F18/15 , G06F18/214 , G06F18/21 , G06F18/2411 , G06F18/2413 , G06F18/243 , G06N5/01 , G06N20/20
Abstract: 本发明公开了一种大模型非时序训练数据质量评价方法,从宏观与微观两个角度出发对大模型预训练数据集的质量做出评价。宏观层面:对数据集总量、数据类分布情况进行检查,考虑到数据的特殊性,还对数据集时效性进行检查,对数据集质量进行初步评价。微观层面:将数据集特征与标签的关联强度作为数据集质量评价标准,对数据集进行评价时为了降低大规模数据集背景下的工作量,预先采用分层抽样的方法对原始数据集进行样本抽取;评价过程包括特征重排列测试、标签重排列测试,并通过置换检测进行辅助,对数据集的质量作出评价。该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估,降低数据集质量对模型训练结果的影响,减少模型迭代成本。
-
-