-
公开(公告)号:CN118378723B
公开(公告)日:2024-09-13
申请号:CN202410813561.7
申请日:2024-06-21
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
IPC: G06N20/00 , G06F40/284 , G06F40/216 , G06F18/24 , G06F18/22
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN117076518A
公开(公告)日:2023-11-17
申请号:CN202310854529.9
申请日:2023-07-12
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/2458 , G06F16/28 , G06F16/27 , G06F16/36
Abstract: 本公开提供了一种元数据查询方法、装置、系统以及相关设备,涉及大数据治理技术领域。该方法包括:获取分布式部署的多个数据库中的元数据;按照预设规则对元数据进行分类存储,获得分布式部署的多个元数据集;对分布式部署的每个元数据集进行处理,获得多维度的元数据知识图谱,元数据知识图谱用于响应各业务系统发送的数据查询指令,返回待查询的元数据。本公开能够在一定程度上克服相关技术在超大规模分布式数据管理过程中,元数据查询效率较低的问题。
-
公开(公告)号:CN116932660A
公开(公告)日:2023-10-24
申请号:CN202310847844.9
申请日:2023-07-11
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/28 , G06F17/16 , G06F17/11 , G06N3/0455 , G06N3/08
Abstract: 本公开实施例提供了一种元数据关系提取的建模方法、元数据关系的提取方法、装置、计算机设备、可读存储介质及程序,涉及计算机技术领域。该方法包括:获取元数据和与元数据对应的句子;根据所述元数据和所述元数据对应的句子获取共性掩码矩阵和个性掩码矩阵;将所述元数据输入第一BERT模型以获取元数据表示;将所述句子输入第二BERT模型以获取句子表示;根据所述元数据表示、所述句子表示和所述共性掩码矩阵获取共性表示;根据所述句子表示和所述个性掩码矩阵获取个性表示;根据所述共性表示和所述个性表示获取所述元数据的关系。本公开实施例提供的元数据关系提取的建模方法,能够获取元数据的关系的元数据关系提取模型。
-
公开(公告)号:CN118378723A
公开(公告)日:2024-07-23
申请号:CN202410813561.7
申请日:2024-06-21
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
IPC: G06N20/00 , G06F40/284 , G06F40/216 , G06F18/24 , G06F18/22
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN116860818A
公开(公告)日:2023-10-10
申请号:CN202310854679.X
申请日:2023-07-12
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/2457 , G06Q30/0203
Abstract: 本公开提供了一种数据排序方法及装置、电子设备及存储介质,涉及计算机技术领域。该方法:获取待排序数据的第一排序结果和第二排序结果,其中,待排序数据包括:多个数据,第一排序结果为多个数据在第一维度的排序结果,第二排序结果为多个数据在第二维度的排序结果;获取每个数据在第一排序结果和第二排序结果中的排序位置;根据每个数据在第一排序结果和第二排序结果中的排序位置,对待排序数据中的多个数据进行排序,得到第三排序结果。本公开计算简便可靠性强,可以节省大量时间及财力,得到理论上最优的衡量数据效果的排序。
-
公开(公告)号:CN119646137A
公开(公告)日:2025-03-18
申请号:CN202411667826.3
申请日:2024-11-20
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/3329 , G06F16/353 , G06F16/334 , G06Q50/50 , G06Q30/015
Abstract: 本公开提供了一种客服交互方法、交互装置、设备、存储介质和程序产品,涉及计算机技术领域。其中,基于大语言模型的客服交互方法包括:对接收到的用户问题进行意图场景识别;识别出用户问题属于指定意图场景,确定与用户问题匹配的对应领域知识库;基于用户问题对对应领域知识库进行增强式检索,得到对用户问题增强的业务知识片段;将业务知识片段输入大语言模型,以由大语言模型基于业务知识片段进行过滤式问题答复处理,并基于处理结果输出用户问题的答复信息。通过本公开的技术方案,能够深入分析用户在连续交互中的真实意图,有利于更准确地把握用户想要咨询的内容,更好地满足用户咨询需求。
-
公开(公告)号:CN117009782A
公开(公告)日:2023-11-07
申请号:CN202310860838.7
申请日:2023-07-13
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F18/213 , G06F18/24 , G06F18/243 , G06N3/0455 , G06N3/08
Abstract: 本公开提供了一种数据向量化处理方法、装置、电子设备及存储介质,涉及建模技术领域。本公开通过获取待处理的连续特征数据;对连续特征数据进行切分处理,得到多个子连续特征数据,确定并生成每个子连续特征数据第一端点值对应的第一向量以及第二端点值对应的第二向量;将每个子连续特征数据对应的第一向量、第二向量以及每个子连续特征数据对应第一端点值和第二端点值之间各个连续特征值对应的向量,生成每个子连续特征数据对应的向量化处理结果,最终得到整个连续特征数据对应的向量化处理结果。本公开使得连续特征数据的向量化结果兼顾了非线性能力和连续能力,进而优化现有模型训练特征中连续特征的表达能力。
-
公开(公告)号:CN117874769A
公开(公告)日:2024-04-12
申请号:CN202410064201.1
申请日:2024-01-16
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
Abstract: 本公开提供了一种基于可信环境的应用服务系统、方法及相关设备,涉及人工智能技术领域。该系统包括:可信数据管理模块、可信算力管理模块、可信模型训练管理模块和模型服务模块;其中,可信数据管理模块用于接入可信的数据资源提供方;可信算力管理模块用于接入可信的算力资源提供方;可信模型训练管理模块用于提供可信的模型训练环境,并基于可信数据管理模块提供的数据资源和可信算力管理模块提供的算力资源,为不同的应用服务训练相应的应用服务模型;模型服务模块用于提供训练好的应用服务模型。本公开能够为应用服务模型训练提供安全可信的高质量数据和算力资源,并能够解决数据提供方、算力提供方以及模型训练方之间的信任问题。
-
公开(公告)号:CN116993588A
公开(公告)日:2023-11-03
申请号:CN202310952866.1
申请日:2023-07-31
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及计算机技术领域,具体涉及一种超分辨率模型训练方法、超分辨率方法、超分辨率模型训练装置、超分辨率装置、存储介质及设备,上述方法包括:获取低分辨率图像,将低分辨率图像输入待训练模型;对低分辨率图像进行特征提取得到低分辨率图像像素特征;获取第一像素特征预设范围内的多个第二像素特征;确定第一像素特征的局部特征;根据第一像素特征的局部特征确定预测高分辨率图像,通过预测高分辨率图像与高分辨率图像标签对待训练模型的神经网络参数进行更新,以得到超分辨率模型。通过本公开实施例的技术方案,可以解决相关技术中超分辨率重建后得到的高分辨率图像的质量较差的问题。
-
公开(公告)号:CN119903152A
公开(公告)日:2025-04-29
申请号:CN202411978364.7
申请日:2024-12-30
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/3329 , G06F16/332 , G06F16/338 , G06F16/36 , G06F18/22
Abstract: 本公开提供了一种基于检索增强生成模型的答案生成方法、装置及相关设备,涉及计算机技术领域,该方法包括:获取用户查询的目标问题;将目标问题输入至检索增强生成模型中,输出至少一个与目标问题相关联的检索结果;基于至少一个与目标问题相关联的检索结果逆向生成至少一个与检索结果对应的问题;根据每个检索结果对应的问题与目标问题之间的相似度,确定目标问题对应的目标答案。本公开能够提高问答结果的准确性。
-
-
-
-
-
-
-
-
-