-
公开(公告)号:CN118378723B
公开(公告)日:2024-09-13
申请号:CN202410813561.7
申请日:2024-06-21
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
IPC: G06N20/00 , G06F40/284 , G06F40/216 , G06F18/24 , G06F18/22
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN117407464A
公开(公告)日:2024-01-16
申请号:CN202311402653.8
申请日:2023-10-26
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/27 , G06F16/21 , G06F9/50 , H04L67/1008 , H04L67/1095 , H04L67/1097
Abstract: 本公开提供了一种跨集群的数据库扩容方法、装置、电子设备及存储介质,涉及大数据技术领域。该方法包括:获取第一集群数据库的性能指标信息,其中,第一集群数据库为部署于第一集群上的数据库;根据第一集群数据库的性能指标信息,确定第一集群数据库是否需要扩容;在第一集群数据库需要扩容的情况下,将第二集群数据库的集群资源调度给第一集群数据库,其中,第二集群数据库为部署于第二集群上的数据库。本公开通过调度其他集群资源实现数据库的扩容,提升了数据库的扩容速度,通过数据库的扩容,进而提升了数据库的性能,满足了数据库日益增长的业务需求。
-
公开(公告)号:CN119884339A
公开(公告)日:2025-04-25
申请号:CN202411934066.8
申请日:2024-12-25
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/334 , G06F16/3329 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本公开提供了一种大语言模型的检索增强生成方法、装置、设备及介质,涉及计算机技术领域。该方法包括:将用户的查询语句转换为查询向量;根据查询向量与索引向量的相似度,在向量数据库中检索得到多个目标信息块,目标信息块为与查询语句相关的数据片段,向量数据库中存储有知识数据的向量;通过对用户的查询语句进行分析,确定查询语句的查询上下文;调用扩展策略引擎根据用户的查询上下文,确定多个目标信息块的扩展策略对多个目标信息块进行扩展,得到与每个目标信息块相关的多个关联信息块;基于多个目标信息块和多个关联信息块,确定查询语句的答复语句。根据本公开实施例,检索过程更加精准,能够提升答复内容的准确性和全面性。
-
公开(公告)号:CN118378723A
公开(公告)日:2024-07-23
申请号:CN202410813561.7
申请日:2024-06-21
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
IPC: G06N20/00 , G06F40/284 , G06F40/216 , G06F18/24 , G06F18/22
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN117762590A
公开(公告)日:2024-03-26
申请号:CN202311786828.X
申请日:2023-12-22
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
Abstract: 本公开提供了一种计算任务的执行方法、系统、装置及相关设备,涉及大数据处理技术领域,该方法包括:获取待执行计算任务的任务信息,其中,任务信息至少包括:任务类型;根据待执行计算任务的任务信息,将待执行计算任务分配给相应任务类型的计算连接器,其中,计算连接器用于将待执行计算任务提交到相应任务类型的计算集群;接收计算集群返回的任务执行结果,其中,任务执行结果为计算集群执行待执行计算任务的结果。本公开能够克服相关技术中多种计算引擎的对接适配繁琐和工作量大的问题,并且会根据资源的情况动态生成用户需要的计算引擎,有效降低了用户的使用门槛,提升应用的计算效率。
-
公开(公告)号:CN117370009A
公开(公告)日:2024-01-09
申请号:CN202311317027.9
申请日:2023-10-11
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F9/50
Abstract: 本公开提供一种用于多集群系统的调度方法、装置、存储介质与电子设备,涉及云计算技术领域。多集群系统包括多个集群,每个集群包括一个或多个节点;所述方法包括:获取容器组请求信息,容器组请求信息用于请求在多集群系统中部署一个或多个待调度容器组,容器组请求信息包括待调度容器组的资源需求信息;根据待调度容器组与集群的关联信息以及集群的资源状态信息,在集群中确定目标集群;根据目标集群的节点的资源状态信息以及待调度容器组的资源需求信息,构建目标集群对应的图模型;在目标集群对应的图模型中确定目标路径,根据目标路径将待调度容器组调度至目标路径指向的节点。本公开提高了多集群系统的调度效率。
-
公开(公告)号:CN119202387A
公开(公告)日:2024-12-27
申请号:CN202411311253.0
申请日:2024-09-19
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/9535 , G06F18/22 , G06F16/955
Abstract: 本公开提供了一种信息搜索方法、信息搜索装置、计算机存储介质和电子设备,涉及信息处理技术领域。包括:接收信息搜索请求,信息搜索请求中至少包含输入的待搜索信息;确定待搜索信息对应的信息类别;响应于待搜索信息对应的信息类别包含第一信息类别,调用本地搜索引擎进行搜索,得到第一搜索结果;响应于待搜索信息对应的信息类别包含第二信息类别,调用外部搜索引擎进行搜索,得到第二搜索结果;根据第一搜索结果和第二搜索结果,确定待搜索信息对应的第一目标搜索结果。本公开可以提高系统的信息搜索和信息聚合能力,提高信息搜索结果的广泛性和精准度,继而提升用户信息获取的体验感。
-
公开(公告)号:CN118300902B
公开(公告)日:2024-09-13
申请号:CN202410725404.0
申请日:2024-06-05
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
Abstract: 本公开实施例提供了一种身份认证方法及装置、计算机程序产品、电子设备,涉及通信安全技术领域,该方法包括:根据区块链网络中存储的云服务节点的公钥,确定用户节点与云服务节点的第一共享会话密钥,并基于第一共享会话密钥以及用户节点对应的第一随机数得到用户验证信息;接收云服务节点发送的对用户验证信息进行解密得到的第一解密数据,并根据第一解密数据进行云服务节点验证,以得到云服务验证结果;在云服务验证结果为验证通过的情况下,根据用户节点具有的第一共享会话密钥确定第二解密数据并发送至云服务节点,以使得云服务节点基于第二解密数据和云服务节点对应的第二随机数确定双向身份认证结果。本公开能够提高身份认证的安全性。
-
公开(公告)号:CN119917666A
公开(公告)日:2025-05-02
申请号:CN202411978676.8
申请日:2024-12-30
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
Inventor: 王学敏
IPC: G06F16/353 , G06F40/216 , G06F40/284 , G06F18/22 , G06F18/214
Abstract: 本申请的实施例揭示了一种文本数据处理方法、装置、电子设备及存储介质,方法包括:对初始数据集中的文本数据进行去重处理,得到过滤数据集;根据预处理配置规则对过滤数据集进行净化处理,得到预处理数据集;对预处理数据集中的每个文本数据进行质量评估;根据所述文本训练样本集对文本分类器进行训练,得到训练好的目标文本分类器;基于目标文本分类器对输入文本进行评估分类;本申请通过对净化处理后的文本数据进行质量评估,筛选出质量评估结果为高的文本数据对文本分类器进行训练,使训练好的目标文本分类器具有良好的分类效率,最终利用文本分类器识别高质量中文数据,既保证了数据判断的准确率,又提高了文本数据的处理效率。
-
公开(公告)号:CN119538940A
公开(公告)日:2025-02-28
申请号:CN202411586725.3
申请日:2024-11-07
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F40/35 , G06F40/284 , G06F40/295 , G06N5/022
Abstract: 本公开涉及人工智能技术领域,提供了一种问题应答方法、问题应答装置、计算机可读存储介质、电子设备,其中,问题应答方法包括:在接收到用户输入的原始问题之后,判定所述原始问题所属的问题类型;根据预先配置的不同问题类型与其应答策略之间的映射关系,确定与所述问题类型相关联的目标应答策略;根据所述目标应答策略对所述原始问题进行应答处理,获得所述原始问题对应的应答结果。本公开中的方法能够根据不同问题类型选取不同的应答策略,从而生成更加灵活且能够适应多种不同场景需求的个性化应答。
-
-
-
-
-
-
-
-
-