-
公开(公告)号:CN117150106B
公开(公告)日:2024-02-13
申请号:CN202311427537.1
申请日:2023-10-31
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06F16/951 , G06F16/44 , G06F16/45 , G06F16/41 , G06F18/22
Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。
-
公开(公告)号:CN117409852A
公开(公告)日:2024-01-16
申请号:CN202210800499.9
申请日:2022-07-08
Applicant: 北京大学 , 北京大学重庆大数据研究院
Abstract: 本发明涉及存在部分治愈人群的药物有效性评估方法和系统,方法包括以下步骤:获取观察性研究样本数据,确定代理变量和协变量,根据处理方案将样本分为处理组和对照组;在处理组和对照组上分别采用混合治愈模型进行参数估计,得到处理组和对照组的潜在无法治愈率和未治愈者的生存函数;基于处理组和对照组的潜在无法治愈率计算药物治愈率因果作用参数;基于处理组和对照组的潜在无法治愈率和未治愈者的生存函数计算无法治愈主层的生存函数;基于所述药物治愈率因果作用参数和无法治愈主层的生存函数评估药物的有效性。
-
公开(公告)号:CN117150106A
公开(公告)日:2023-12-01
申请号:CN202311427537.1
申请日:2023-10-31
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06F16/951 , G06F16/44 , G06F16/45 , G06F16/41 , G06F18/22
Abstract: 本申请公开了一种数据处理的方法、系统及电子设备。其中,该方法包括:获取数据采集请求,其中,数据采集请求中包含不同数据源的数据采集信息;依据数据采集信息,确定与数据源对应的数据采集类型,其中,数据采集类型包括以下至少之一:新闻类数据和社交媒体类数据;响应于数据采集请求,确定与数据采集类型对应的数据集合,其中,数据集合中包括多条数据;确定多条数据之间的属性差异,并根据属性差异对多条数据进行组合处理,其中,属性差异至少包括:多条数据之间的文本相似度差异;展示经过组合处理后的数据。本申请解决了相关技术中的数据采集对不同类型的数据会存在不支持的技术问题。
-
公开(公告)号:CN117129963A
公开(公告)日:2023-11-28
申请号:CN202311299982.4
申请日:2023-10-09
Applicant: 北京大学重庆大数据研究院
IPC: G01S7/41 , G01S13/95 , G06F30/27 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明提供的一种基于迁移预测的雷达回波外推方法,获取雷达反射率数据,并对雷达反射率数据进行预处理得到雷达反射率有效数据;根据雷达反射率有效数据确定目标域数据集和源域数据集;构建域迁移预测模型,将源域数据集输入至迁移预测模型中并对迁移预测模型进行训练;构建域迁移预测模型的评价模型,将目标域数据集中的测试集数据输入至经过步骤S3训练后的域迁移预测模型中得到测试结果,并由评价模型计算域迁移预测模型的评价指标,选择评价指标最大时所对应的域迁移预测模型作为最优预测模型;将目标域数据集中的训练集输入至最优预测模型并对最优预测模型进行训练,将目标域数据集中的测试集再输入至训练完成的最优预测模型中得到测试结果,由评价模型计算训练后的最优预测模型的评价指标,并选择评价指标值最大时所对应的最优预测模型作为雷达回波外推模型。
-
公开(公告)号:CN116341688A
公开(公告)日:2023-06-27
申请号:CN202211699464.7
申请日:2022-12-28
Applicant: 北京大学 , 奇安信科技集团股份有限公司 , 北京大学重庆大数据研究院
IPC: G06N20/20 , G06F18/214
Abstract: 本公开涉及一种平衡各方调查数据差异的纵向联邦学习方法及系统,属于联邦学习技术领域。该方法包括:确定参与共同训练模型的模型结构,并初始化模型参数;基于本地数据对参与共同训练模型进行训练,得到本地训练模型及相应的模型参数集合;通过节点之间的数据交互,获取其他节点经过本地训练后改动的模型参数集合;基于模型参数集合中每一位置上的参数类型,从所有本地训练模型选出需要联邦学习模型,并将其他的本地训练模型作为对应节点的最终模型。本发明可以解决纵向联邦学习模型的可接受度不高问题。
-
公开(公告)号:CN116193364A
公开(公告)日:2023-05-30
申请号:CN202310164365.7
申请日:2023-02-24
Applicant: 北京大学重庆大数据研究院
Abstract: 本发明提供的一种船载自动识别系统完整静态信息快速更新方法,包括以下步骤:S1.构建数据库,数据库包括MMSI号以及MMSI号对应的船舶信息;S2.实时获取船舶的AIS信号,并解析AIS信号中的数据;S3.判断AIS信号数据中的MMSI号是否存在于数据库中,如是,则将AIS信号数据中的MMSI号对应的船舶数据更新至数据库中该MMSI号对应的船舶信息中;如否,则将该AIS信号数据中的MMSI号以及对应的船舶信息写入至数据库中。通过上述方法,能够快速的对数据库中的船舶的静态信息进行更新、存储,使得船舶信息完整化,当船舶之间或者船舶与调度中心之间通信时能够准确进行AIS信息匹配以及调度,从而有效确保船舶航行安全。
-
公开(公告)号:CN115796124A
公开(公告)日:2023-03-14
申请号:CN202211415656.0
申请日:2022-11-11
Applicant: 北京大学重庆大数据研究院
IPC: G06F40/126 , G06K17/00
Abstract: 本发明公开了一种设备标识编码的生成方法、解析方法及装置。其中,该方法包括:获取目标设备的设备信息;基于预定生码策略,确定上述目标设备对应的生码配置,其中,上述生码配置包括上述目标设备对应的目标码段类别以及目标码段顺序;基于上述设备信息,确定上述目标码段类别所对应的生码信息;基于上述生码信息以及上述目标码段顺序,生成上述目标设备的标识编码。本发明解决了相关技术中设备标识编码的确定方法存在的通用性差,适用范围小的技术问题。
-
公开(公告)号:CN115640988A
公开(公告)日:2023-01-24
申请号:CN202211442712.X
申请日:2022-11-18
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06Q10/0633
Abstract: 本发明公开了一种应急事件处理方法、装置及计算机可读存储介质。其中,该方法包括:获取目标应急事件;确定目标应急事件中的目标应急阶段;将目标应急阶段划分为多个应急环节;分别获取多个应急环节的处理时长,以及目标应急阶段的总处理时长;分别确定多个应急环节的处理时长对目标应急阶段的总处理时长的影响程度;基于多个应急环节对应的影响程度,从多个应急环节中确定出影响目标应急阶段处理的目标瓶颈环节;基于目标瓶颈环节,对目标应急事件进行处理。本发明解决了无法对应急事件处理时长进行分析及优化的技术问题。
-
公开(公告)号:CN114064125B
公开(公告)日:2022-06-24
申请号:CN202210051959.2
申请日:2022-01-18
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06F9/30
Abstract: 本发明公开了一种指令解析方法、装置及电子设备。其中,该方法包括:接收目标指令以及参数处理器集合,其中,目标指令中包括目标指令参数向量,目标指令参数向量的组成元素为目标指令参数,参数处理器集合中包括至少一个参数处理器,参数处理器由预设待匹配命令参数向量和第一预设匿名函数组成;从参数处理器中确定与目标指令参数向量中的目标指令参数匹配的目标参数处理器,并使用目标参数处理器对目标指令参数进行处理,得到处理结果;依据处理结果,确定与目标指令对应的处理命令,并执行处理命令。本发明解决了由于现有技术中使用硬编码的方式进行参数解析造成的极大提高代码维护难度,不利于模块持续开发的技术问题。
-
公开(公告)号:CN120067682A
公开(公告)日:2025-05-30
申请号:CN202510121461.2
申请日:2025-01-26
Applicant: 北京大学 , 北京大学重庆大数据研究院
IPC: G06F18/214 , G06F18/21 , G06N5/04 , G06N3/0455 , G06N3/0475
Abstract: 本发明公开了政务问答系统的一种微调方法、装置、终端设备及介质,包括:基于场景中用户的提问与工作人员的回答,构建原始问答数据集D1;在原始问答数据集D1中加入噪音数据,得到第二问答数据集D2;在第二问答数据集D2中加入逻辑推理过程,生成第三问答数据集D3;根据第三问答数据集D3构建微调后的大语言模型。显著减少了在检索结果不相关时大语言模型产生幻觉的现象。在训练数据中融入逻辑推理,有效降低了大语言模型训练过程中的过拟合风险。
-
-
-
-
-
-
-
-
-