-
公开(公告)号:CN112259221A
公开(公告)日:2021-01-22
申请号:CN202011130208.7
申请日:2020-10-21
Abstract: 本发明公开了一种基于多种机器学习算法的肺癌诊断系统,涉及医疗器械领域,所述系统包括:初步预测模块,用于利用已训练的多个肺癌预测模型分别对待诊断患者的肺部临床数据进行肺癌初步预测处理,得到多个肺癌初步预测结果;肺癌诊断模块,用于利用已训练的肺癌元分类器对所述多个肺癌初步预测结果进行肺癌分类处理,确定所述待诊断患者是否为肺癌患者。本发明可应用于临床辅助诊断肺癌的过程中,帮助临床医生进行决策,同时可通过网络平台共享给多个中心,为缺乏经验的临床医生提供诊断意见,提升临床整体的肺癌诊断水平。
-
公开(公告)号:CN113761293B
公开(公告)日:2024-12-17
申请号:CN202110584276.9
申请日:2021-05-27
Applicant: 腾讯科技(深圳)有限公司 , 北京大学
IPC: G06F16/901 , G06F16/9035
Abstract: 本申请公开了一种图数据强连通分量挖掘方法、装置、设备及存储介质,该方法获取包括多个节点的有向图;然后将有向图划分为多个区块图,对各个区块图中节点的第一标签进行异步的标签传播更新,从而大大加快第一标签迭代的速度,并在有向图的全部节点的第一标签更新完成后,将更新前后对应的第一标签相同的节点作为第一子节点,可确定出该有向图中和第一子节点属于同一强连通分量的节点;该方法通过异步的标签传播更新,能够加速第一标签的更新速度,从而减少标签传播过程中所需要的迭代次数,有效提高强连通分量挖掘的效率,有利于减少计算资源的消耗。本申请可广泛应用于大数据技术领域。
-
公开(公告)号:CN117932330A
公开(公告)日:2024-04-26
申请号:CN202311700419.3
申请日:2023-12-12
Applicant: 北京大学
IPC: G06F18/214 , G06F18/2321 , G06N3/04 , G06N3/084
Abstract: 本发明涉及一种基于局部敏感哈希算法的混合专家模型加速方法和系统。该方法在混合专家模型的训练过程和/或推理过程中,采用局部敏感哈希算法对数据进行聚类,得到聚类中心,利用聚类中心进行All‑To‑All通信和专家计算,以降低通信量和计算量。本发明提出的技术方案的加速效果优于传统的优化手段,例如层次化通信和计算通信重叠技术,这些现有技术采用系统优化的手段,在低带宽集群中加速效果不明显。本发明的技术方案利用了数据的相似性,从算法优化的方面降低了通信量,从而降低了通信时间。本发明提出的技术方案可以支持任意形式的混合专家模型。
-
公开(公告)号:CN114462626B
公开(公告)日:2022-07-19
申请号:CN202210363190.8
申请日:2022-04-08
Applicant: 北京大学
Abstract: 本发明公开了一种联邦模型训练方法、装置、终端设备以及存储介质,通过第一参与方基于第一明文模型权重随机数、第二明文模型随机数密文进行同态性质计算,生成第一模型权重密文,并基于第一模型权重密文与第一训练数据生成并发送第一参与方预测输出密文至第二参与方;第二参与方根据第一参与方预测输出与第二参与方预测输出得到联合预测输出并得到预测值;第二参与方基于预测值生成联合预测输出梯度,并加密得到联合预测输出梯度密文发送至第一参与方,并根据联合预测输出梯度更新第二明文模型权重;第一参与方根据联合预测输出梯度密文得到第一模型梯度密文,并根据第一模型梯度密文更新第一模型权重密文。本发明提升了联邦模型训练的安全性。
-
公开(公告)号:CN114358859B
公开(公告)日:2022-07-01
申请号:CN202210277082.9
申请日:2022-03-21
Applicant: 北京大学
Abstract: 本发明公布了一种用于点击率预测的基于图的大规模embedding模型训练方法及系统,系统包括密集参数模块和客户端模块,采用混合通信架构,将点击率预测输入数据集分配给不同工作节点,每个工作节点维护一个客户端,本地模型参数均直接存储在GPU内存中;每个工作节点均持有模型参数副本,并在训练时进行同步。本发明采用Embedding模型参数表示点击率预测输入数据对应类别特征值的重要性,将点击率预测数据和embedding模型向量表示为二元图模型,利用图局部性和度数偏斜特性执行模型并行训练;设计基于图的分区和有界同步,提高训练大型embedding模型的可扩展性和并行计算效率。
-
公开(公告)号:CN113821660A
公开(公告)日:2021-12-21
申请号:CN202110653887.4
申请日:2021-06-11
Applicant: 腾讯科技(深圳)有限公司 , 北京大学
Abstract: 本申请提供了一种图数据处理方法、装置、电子设备及计算机可读存储介质;方法包括:对待处理图数据进行分割处理,得到待处理图数据的多个分割图;对多个分割图中的节点进行分批次的标签更新处理,得到多个分割图中的节点的更新标签;基于多个分割图中的节点的更新标签对待处理图数据进行压缩处理,得到待处理图数据的压缩图;对压缩图中的节点进行标签挖掘处理,得到压缩图中的节点对应的挖掘标签;基于压缩图中的节点对应的挖掘标签对待处理图数据中的节点进行更新处理,将待处理图数据中更新后具有相同标签的节点所构成的图数据作为待处理图数据的连通分量。通过本申请,能够提高连通分量挖掘性能。
-
公开(公告)号:CN113761293A
公开(公告)日:2021-12-07
申请号:CN202110584276.9
申请日:2021-05-27
Applicant: 腾讯科技(深圳)有限公司 , 北京大学
IPC: G06F16/901 , G06F16/9035
Abstract: 本申请公开了一种图数据强连通分量挖掘方法、装置、设备及存储介质,该方法获取包括多个节点的有向图;然后将有向图划分为多个区块图,对各个区块图中节点的第一标签进行异步的标签传播更新,从而大大加快第一标签迭代的速度,并在有向图的全部节点的第一标签更新完成后,将更新前后对应的第一标签相同的节点作为第一子节点,可确定出该有向图中和第一子节点属于同一强连通分量的节点;该方法通过异步的标签传播更新,能够加速第一标签的更新速度,从而减少标签传播过程中所需要的迭代次数,有效提高强连通分量挖掘的效率,有利于减少计算资源的消耗。本申请可广泛应用于大数据技术领域。
-
公开(公告)号:CN113542228A
公开(公告)日:2021-10-22
申请号:CN202110680161.X
申请日:2021-06-18
Applicant: 腾讯科技(深圳)有限公司 , 北京大学
IPC: H04L29/06 , G06F21/60 , G06F21/62 , G06F16/906 , G06N20/00
Abstract: 本申请公开了一种基于联邦学习的数据传输方法、装置以及可读存储介质,该方法包括:第一参与节点获取第一密文,根据属于第一参与节点的业务数据对第一密文进行隐私运算,生成第二密文;第一密文是指第二参与节点对初始明文进行加密处理所得的数据;对第二密文进行数值界限预估,得到第二密文对应的明文预估界限值;明文预估界限值用于表征第二密文对应的明文的数值范围;基于明文预估界限值,对第二密文进行加法偏移处理,得到第三密文;根据明文预估界限值和第三密文,生成具有多项式格式的目标压缩密文,发送目标压缩密文至第二参与节点。采用本申请,可以有效降低联邦学习任务中的通信开销,提高联邦学习任务运行的效率。
-
公开(公告)号:CN110929884A
公开(公告)日:2020-03-27
申请号:CN201911156466.X
申请日:2019-11-22
Applicant: 北京大学
IPC: G06N20/00
Abstract: 本发明公布了一种列划分的分布式机器学习优化的分类方法和装置,采用基于列划分的分布式随机梯度下降SGD方法,称为ColumnSGD,对多维度序列数据进行分类;所述多维度序列数据包括基因序列数据;所述ColumnSGD方法包括:建立分布式机器学习系统的容错机制、建立基于列划分的分布式SGD模型,通过采用将行划分数据转换为列划分数据的高效算法,并基于梯度编码提出模型掉队者问题的解决方法,实现高效分类。本发明通过采用基于列划分的结构,利用列式划分特性、分布式特性,计算模型梯度;能减少分布式机器学习系统的通讯开销及存储开销,提高计算速度,从而提高分类的效率。
-
-
-
-
-
-
-
-
-