-
公开(公告)号:CN117828053A
公开(公告)日:2024-04-05
申请号:CN202311866715.0
申请日:2023-12-29
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/332 , G06F40/279 , G06F40/30 , G06N5/04 , G06N20/00 , G06Q50/18
Abstract: 本公开提供一种非结构化文本处理方法、装置、设备及存储介质,涉及自然语言理解技术领域。在本公开的一些实施例中,获取待处理的法律文书页面和非结构化问题文本;对所述法律文书页面进行文本识别,得到法律文书文本;将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本;将所述非结构化问题文本和语义解答文本输入生成式语言模型中,得到所述非结构化问题文本对应的问题解答文本,提高非结构化问题文本的解答文本的准确率。
-
公开(公告)号:CN119443105A
公开(公告)日:2025-02-14
申请号:CN202510039582.2
申请日:2025-01-10
Applicant: 北京市大数据中心
IPC: G06F40/295 , G06N3/096 , G06F16/35 , G06N20/10
Abstract: 本发明提供基于迁移学习模型的实体关系抽取方法、装置、设备及介质,属于数据处理技术领域,获取原始数据,对原始数据进行预处理、标注,生成训练数据集,再构建实体关系;利用机器学习算法在知识图谱中构建实体关系处理任务;构建迁移学习模型,基于迁移学习模型将源域或源任务中的知识迁移学习到目标域或目标任务中,来初始化或辅助目标领域模型的训练;将机器学习算法与迁移学习模型相融合,通过利用源领域丰富的标注数据和领域知识,可以提取出对目标领域有用的特征表示,并将其应用于目标领域的任务中,能够更快地学习到有用的特征,从而提高实体识别和关系抽取等任务的准确率。
-
公开(公告)号:CN117994538A
公开(公告)日:2024-05-07
申请号:CN202410070203.1
申请日:2024-01-17
Applicant: 北京市大数据中心
Abstract: 本申请公开一种非结构化数据的管理方法、系统、装置及存储介质,用于提高图像的标注效率。本申请发明包括:基于人工标注的图像集获取标注任务集合;确定标注任务集合中每个任务的特征集;在待标注图像上建立与目标任务相关联的虚拟标注;确定每个目标任务中的特征与特征集的相似度;设置预设阈值,将相似度大于或等于预设阈值对应的目标任务关联的虚拟标注实体映射到待标注图像上,将相似度小于预设阈值对应的第二任务关联的虚拟标注附加上审核浮窗;将待标注图像送由审核人员审核;判断审核人员是否点击审核浮窗的确定框,若是,将第二任务的虚拟标注映射到待标注图像上;当审核人员点击审核浮窗的否定框时,取消第二任务及其关联的虚拟标注。
-
公开(公告)号:CN116894267A
公开(公告)日:2023-10-17
申请号:CN202310904292.0
申请日:2023-07-21
Applicant: 北京市大数据中心
Abstract: 本发明公开了一种基于本地化差分隐私的横向联邦学习方法和系统,属于联邦学习技术领域,方法包括:各个参与方在本地对数据进行训练,生成模型参数;各个参与方对模型参数进行二进制编码;各个参与方对二进制编码进行扰动处理;各个参与方将扰动后的二进制编码发送至协调方;协调方接收扰动后的二进制编码,并进行解码校正;协调方对校正后的二进制字符串按照比特位权重进行数值换算;协调方根据数值换算结果,计算全局模型参数;协调方将全局模型参数发送给各个参与方。各个参与方在本地对本地数据进行差分扰动处理,之后将扰动处理后的数据发送至协调方的服务器,无需依赖于中心化服务器,提升隐私保护效果,降低隐私泄露风险。
-
公开(公告)号:CN115965443A
公开(公告)日:2023-04-14
申请号:CN202211707954.7
申请日:2022-12-28
Applicant: 北京市大数据中心
IPC: G06Q30/0601
Abstract: 本发明公开一种基于长尾理论的个性化商品组合推荐方法和装置,该方法及装置在目标客户关注当前对象(触发点)后,搜寻与该对象存在组合关系的其它品类并存在关联关系的所有候选对象,基于事前生成的客户偏好以及商品长尾规则,筛选出与上述当前对象搭配的至少一个目标对象,以预定展示方式向目标客户推荐与当前对象搭配的至少一个目标对象。本发明实现了一种能够对对象进行搭配推荐的方案,针对网络商品推荐等场景,利用本发明方案可实现网络商品的搭配式推荐,从而可有效丰富网络商城的商品推荐功能,并提升用户体验。
-
公开(公告)号:CN115952150A
公开(公告)日:2023-04-11
申请号:CN202211610209.0
申请日:2022-12-14
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/21 , G06F16/22 , G06F16/2458
Abstract: 本申请涉及一种多源异构的数据融合方法及装置,涉及数据处理技术领域,方法包括:获取待融合数据,对待融合数据中各字段赋予不同的权重算子,根据预先设定的数据关联规则和待融合数据中各字段的权重算子对待融合数据进行关联融合,得到待处理数据,最后对待处理数据进行标准化处理。本申请中综合考虑多种因素,对待融合数据中各字段赋予不同的权重算子,如对预期准确度高的字段赋予相对较高的权重算子,对预期准确度低的字段赋予相对较低的权重算子,在进行关联融合时使融合数据对数据的紧密依赖程度更高,从而得到的融合数据更加准确、可靠。
-
-
-
-
-