-
公开(公告)号:CN116842099A
公开(公告)日:2023-10-03
申请号:CN202310517767.0
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/27 , G06F16/36 , G06F16/2455 , G06F16/2457 , G06N5/01 , G06N5/02 , G06F18/22 , G06F18/2433 , G06F18/25
Abstract: 本发明涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。
-
公开(公告)号:CN118964532B
公开(公告)日:2024-12-20
申请号:CN202411445923.8
申请日:2024-10-16
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/33 , G06F16/335 , G06Q50/26
Abstract: 本申请实施例公开了一种自动分级方法、装置及计算机可读存储介质,可以提高分级结果的准确性。本申请实施例方法包括:构建政策法规本体库和典型案例本体库;将政策法规本体和典型案例本体中的关键字输入预先训练好的词向量模型,得到多个分级关键字向量;获取分级查询信息;将分级查询信息输入词向量模型,得到对应的分级查询向量,其中,分级查询信息中的每一个输入词对应一个分级查询向量;根据分级查询向量和分级关键字向量确定分级查询向量对应的关键字集合,关键字集合包括至少一个关键字;将关键字集合输入推理机进行关于政策法规本体库或典型案例本体库的前向规则推理查询,得到推理机输出的分级结果。
-
公开(公告)号:CN118211038B
公开(公告)日:2024-08-23
申请号:CN202410632459.7
申请日:2024-05-21
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/20 , G06F18/213 , G06F18/26 , G06F16/31 , G06F16/35 , G06F40/216 , G06F40/289 , G06F40/284 , G06F18/2135 , G06F18/23213
Abstract: 本申请公开了一种多维数据处理分析方法、装置、系统及存储介质。本申请方法包括:通过预先配置的数据接口获取多源异构的业务数据;对非结构化业务数据中进行特征提取,形成文本数据集;遍历文本数据集,构建出TF‑IDF向量矩阵;构建球树索引空间;对所有的数据点执行基于密度的聚类,得到多个聚类簇;以一个聚类簇为一个项构建候选1‑项集;筛选出不小于第一支持度阈值的项,得到频繁1‑项集,频繁1‑项集中的每一项由一个聚类簇构成;基于上述方式,构建频繁n‑项集,直至无法构建出n+1的频繁项集;基于所生成的所有频繁项集,确定出符合预设置信度的项,并输出关联规则。
-
公开(公告)号:CN118211038A
公开(公告)日:2024-06-18
申请号:CN202410632459.7
申请日:2024-05-21
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/20 , G06F18/213 , G06F18/26 , G06F16/31 , G06F16/35 , G06F40/216 , G06F40/289 , G06F40/284 , G06F18/2135 , G06F18/23213
Abstract: 本申请公开了一种多维数据处理分析方法、装置、系统及存储介质。本申请方法包括:通过预先配置的数据接口获取多源异构的业务数据;对非结构化业务数据中进行特征提取,形成文本数据集;遍历文本数据集,构建出TF‑IDF向量矩阵;构建球树索引空间;对所有的数据点执行基于密度的聚类,得到多个聚类簇;以一个聚类簇为一个项构建候选1‑项集;筛选出不小于第一支持度阈值的项,得到频繁1‑项集,频繁1‑项集中的每一项由一个聚类簇构成;基于上述方式,构建频繁n‑项集,直至无法构建出n+1的频繁项集;基于所生成的所有频繁项集,确定出符合预设置信度的项,并输出关联规则。
-
公开(公告)号:CN116028821B
公开(公告)日:2023-06-13
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN116028821A
公开(公告)日:2023-04-28
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN119067099B
公开(公告)日:2025-01-28
申请号:CN202411562260.8
申请日:2024-11-05
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F40/216 , G06F40/279 , G06F40/247
Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。
-
公开(公告)号:CN119067099A
公开(公告)日:2024-12-03
申请号:CN202411562260.8
申请日:2024-11-05
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F40/216 , G06F40/279 , G06F40/247
Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。
-
公开(公告)号:CN119003920A
公开(公告)日:2024-11-22
申请号:CN202411481452.6
申请日:2024-10-23
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/958 , G06F16/951 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。
-
公开(公告)号:CN117934122A
公开(公告)日:2024-04-26
申请号:CN202410330493.9
申请日:2024-03-22
Applicant: 中电科大数据研究院有限公司
Inventor: 余楷 , 申林 , 严梦琪 , 武晓 , 梁正华 , 夏道勋 , 冯夫健 , 谢真强 , 陶政坪 , 余正涛 , 秦舒浩 , 赵林畅 , 代杨 , 黄于欣 , 肖书芹 , 董厚泽 , 苑建坤 , 孙丽娟 , 吴越 , 阳显斌 , 韦克苏 , 石睿 , 张燕 , 涂永高 , 郭红建 , 郭宗余 , 李德仑 , 赵宇航 , 武圣江 , 郭宗智 , 王庄仆 , 林辉 , 龙兰艳 , 陶政鹏 , 禹冰雪 , 李珂
IPC: G06Q30/0601 , G06V10/74 , G06V10/75 , G06V10/80
Abstract: 本申请公开了一种基于深度学习的智能推荐方法和系统,用于提高付费功能推荐的准确性。本申请包括:获取用户使用数据;获取功能演示数据;根据用户使用数据确定一段目标用户操作数据;根据目标用户操作数据提取中间采集图像集合和操作标签;根据功能演示数据获取中间演示图像集合;将操作标签与中间采集图像集合输入深度学习模型的生成器中进行特征融合,生成中间增强图像集合;根据判别器中的损失函数对中间增强图像集合和中间演示图像集合中的图像进行相似度的计算,生成相似概率值集合;根据相似概率值集合计算目标用户操作数据和功能演示数据的推荐匹配度;当推荐匹配度大于预设推荐阈值,则为目标用户进行目标功能的推荐。
-
-
-
-
-
-
-
-
-