-
公开(公告)号:CN117708658A
公开(公告)日:2024-03-15
申请号:CN202410161414.6
申请日:2024-02-05
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
Abstract: 本公开提出一种数据实体间关系传递性质的确定方法、装置和设备,该方法包括:获取训练数据集合,构建目标关联关系的实体关联度评分模型,根据实体关联度评分模型构建惩罚函数,根据训练数据集合对惩罚函数进行模型训练以得到目标单位向量,根据实体关联度评分模型或目标单位向量确定第一数据实体与多个候选数据实体之间的识别结果,其中,识别结果用于指示第一数据实体与候选数据实体之间是否存在目标关联关系。由此,能够更准确、更全面、更深入地识别数据实体间关联关系,充分挖掘城市级大数据聚合价值。
-
公开(公告)号:CN115952150A
公开(公告)日:2023-04-11
申请号:CN202211610209.0
申请日:2022-12-14
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/21 , G06F16/22 , G06F16/2458
Abstract: 本申请涉及一种多源异构的数据融合方法及装置,涉及数据处理技术领域,方法包括:获取待融合数据,对待融合数据中各字段赋予不同的权重算子,根据预先设定的数据关联规则和待融合数据中各字段的权重算子对待融合数据进行关联融合,得到待处理数据,最后对待处理数据进行标准化处理。本申请中综合考虑多种因素,对待融合数据中各字段赋予不同的权重算子,如对预期准确度高的字段赋予相对较高的权重算子,对预期准确度低的字段赋予相对较低的权重算子,在进行关联融合时使融合数据对数据的紧密依赖程度更高,从而得到的融合数据更加准确、可靠。
-
公开(公告)号:CN119418142B
公开(公告)日:2025-05-16
申请号:CN202510026855.X
申请日:2025-01-08
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
Abstract: 本申请公开了一种基于深度学习的多模态数据特征处理方法、系统及介质,主要涉及多模态数据技术领域,用以解决由于传统技术无法识别多种类型的数据图像,进而无法在用户查找数据时提供多类型数据图像的问题。包括:获取各个类型的数据图像,将数据图像转化为结构化数据,确定对应的特征提取算法,获得特征数据;根据对齐因子,获取同属于相同对齐因子的特征数据,拼接成一个特征向量,获得降维后的数据矩阵;通过降维后的数据矩阵和对应的标签数据,训练预设深度学习模型;根据用户检索信息对应的降维后的数据矩阵;将降维后的数据矩阵作为训练好的预设深度学习模型的输入,获得标签数据;进而获取标签数据对应的各个类型的数据图像。
-
公开(公告)号:CN119418142A
公开(公告)日:2025-02-11
申请号:CN202510026855.X
申请日:2025-01-08
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
Abstract: 本申请公开了一种基于深度学习的多模态数据特征处理方法、系统及介质,主要涉及多模态数据技术领域,用以解决由于传统技术无法识别多种类型的数据图像,进而无法在用户查找数据时提供多类型数据图像的问题。包括:获取各个类型的数据图像,将数据图像转化为结构化数据,确定对应的特征提取算法,获得特征数据;根据对齐因子,获取同属于相同对齐因子的特征数据,拼接成一个特征向量,获得降维后的数据矩阵;通过降维后的数据矩阵和对应的标签数据,训练预设深度学习模型;根据用户检索信息对应的降维后的数据矩阵;将降维后的数据矩阵作为训练好的预设深度学习模型的输入,获得标签数据;进而获取标签数据对应的各个类型的数据图像。
-
公开(公告)号:CN119415571A
公开(公告)日:2025-02-11
申请号:CN202510026856.4
申请日:2025-01-08
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/2457 , G06F16/242 , G06F16/22
Abstract: 本发明提供基于权重分配和实体标注的数据发现方法、系统、设备及介质,属于数据搜索处理技术领域,对数据进行预处理操作;根据数据的实际特征,采用机器学习算法动态调整各数据项的权重;配置自适应权重分配模型,并采用多层实体标注方式对数据中的实际特征进行标注;构建倒排索引检索模型,根据自适应权重分配模型,提取每个数据项提取特征,分配相应的权重,并进行评分计算,根据得分,进行排序,反馈给用户;通过收集并分析用户搜索数据,动态调整自适应权重分配、搜索与排序算法及索引性能优化策略,并迭代执行评估与优化,结合用户反馈机制形成闭环。本发明能够准确反映不同特征对搜索结果的重要性。能够更好地满足用户多样化的搜索需求。
-
公开(公告)号:CN119358647A
公开(公告)日:2025-01-24
申请号:CN202411301362.4
申请日:2024-09-18
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06N5/022
Abstract: 本发明涉及知识图谱技术领域,具体提供一种基于角色感知的图谱构建方法、系统、终端及存储介质,包括:从事件数据中抽取时间、地点和人物,并将抽取的时间、地点和人物作为角色,建立角色之间的关系;将事件数据中的实体构建为角色,以角色作为虚拟实体节点,以角色之间的多元关系作为边,通过构建角色向量和模式矩阵构建知识图谱;构建评分函数和损失函数,基于评分函数和损失函数,按最小化损失函数的策略对所述知识图谱进行训练。本发明可方便的在模型加入时空因子,提升图谱预测准确度。
-
公开(公告)号:CN117828053A
公开(公告)日:2024-04-05
申请号:CN202311866715.0
申请日:2023-12-29
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/332 , G06F40/279 , G06F40/30 , G06N5/04 , G06N20/00 , G06Q50/18
Abstract: 本公开提供一种非结构化文本处理方法、装置、设备及存储介质,涉及自然语言理解技术领域。在本公开的一些实施例中,获取待处理的法律文书页面和非结构化问题文本;对所述法律文书页面进行文本识别,得到法律文书文本;将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本;将所述非结构化问题文本和语义解答文本输入生成式语言模型中,得到所述非结构化问题文本对应的问题解答文本,提高非结构化问题文本的解答文本的准确率。
-
公开(公告)号:CN116012027A
公开(公告)日:2023-04-25
申请号:CN202211614436.0
申请日:2022-12-15
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06Q30/0201 , G06F16/22 , G06F16/2457
Abstract: 本申请涉及数据处理技术领域,尤其涉及一种数据全生命周期打标方法及系统,方法包括:确定打标对象;基于多种维度,生成打标对象的全生命周期中的各个数据服务阶段各自对应的标签;建立标签与打标对象的关联关系。本申请中的技术方案,对作为打标对象的数据进行从数据汇聚接入、存储、稽核、清洗、融合、服务到销毁整个全生命周期各个阶段的打标,将数据从产生到销毁的每个阶段从多种维度进行数据标签化,展示数据的“一生画像”,确保对数据进行使用时可以全程跟踪数据的处理过程,并快速精准溯源到原始数据。
-
公开(公告)号:CN115712855A
公开(公告)日:2023-02-24
申请号:CN202211482745.7
申请日:2022-11-24
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F18/24 , G06F18/214 , G06F18/213 , G06N3/04 , G06N3/08
Abstract: 本申请关于一种基于自学习的标签规则产生方法及装置。具体方案为:通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。本申请提升了数据标签化的工作效率和精准度。
-
公开(公告)号:CN119357348A
公开(公告)日:2025-01-24
申请号:CN202411301357.3
申请日:2024-09-18
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/3329 , G06F40/279 , G06F40/30 , G06N3/084
Abstract: 本发明提出的一种基于复杂网络语义的意图匹配方法、系统、装置及介质,所述方法包括:收集需求领域的问答数据集,对问答数据进行清洗、实体链接和词嵌入处理;基于LoRA对BERT模型进行调整和训练,在每轮训练中,进行向前传播、计算损失、反向传播和更新BERT模型参数;获取用户输入的问题数据,对问题数据进行处理和特征提取,输入到BERT模型中,生成意图匹配的最佳结果;通过收集用户输入的问答数据,定期更新BERT模型。本发明利用LoRA技术微调BERT模型,让模型在特定领域中进行训练,能够有效增强模型在特定领域中语义意图识别能力。
-
-
-
-
-
-
-
-
-