-
公开(公告)号:CN116562232A
公开(公告)日:2023-08-08
申请号:CN202310532544.1
申请日:2023-05-11
Applicant: 中国电信股份有限公司北京研究院 , 中国电信股份有限公司
IPC: G06F40/126 , G06F40/289 , G06F40/284 , G06F18/22 , G06N3/047 , G06N3/084
Abstract: 本公开提供一种词向量处理方法、装置、存储介质及电子设备,涉及自然语言处理技术领域。词向量处理方法包括:获取目标文本中待处理词和待处理词的上下文信息;初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,词向量编码模型用于生成待处理词的词向量;根据第一权重矩阵、待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定词向量编码模型中隐藏层向量;字相关性参数表征一个词中多个字向量之间的相关性;根据隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;根据调整第一权重矩阵后的词向量编码模型,生成待处理词的词向量。本公开考虑了组成词的多个字之间的紧密联系程度,生成的词向量更为准确。
-
公开(公告)号:CN119398046A
公开(公告)日:2025-02-07
申请号:CN202411496911.8
申请日:2024-10-24
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F40/284 , G06F18/22 , G06F18/241 , G06F40/30 , G06N20/00
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备。模型训练数据处理方法包括:对模型训练数据中的训练文本进行分词预处理以形成第一分词列表,对所述第一分词列表进行词汇去重后得到第二分词列表,所述第二分词列表包括多个不重复的待处理词汇;根据所述第一分词列表对应的词向量矩阵形成所述训练文本的文本向量矩阵;确定所述待处理词汇的词向量与所述文本向量矩阵的相似度,将所述相似度最大的K个所述待处理词汇确定为所述训练文本的K个主题词,K≥1;在所述模型训练数据中将所述K个主题词相同的训练文本分为一组,在同组内对所述文本向量矩阵的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN118966220A
公开(公告)日:2024-11-15
申请号:CN202411009113.8
申请日:2024-07-25
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F40/295 , G06F40/284 , G06F40/30 , G06F16/35 , G06F18/213 , G06F18/241 , G06F18/25 , G06N3/0455 , G06N3/0464
Abstract: 本公开是关于一种命名实体的识别方法及装置、存储介质、电子设备,涉及机器学习技术领域,该方法包括:基于特征编码层对待识别文本进行特征编码,得到文本序列的词嵌入,并基于双仿射层对文本序列的词嵌入进行仿射处理,得到待识别文本中的文本跨度的初始分数矩阵;基于语义交互感知层确定对文本序列的词嵌入进行语义交互处理,得到待识别文本的语义交互特征矩阵;基于空间感知层对初始分数矩阵进行三维卷积处理,得到文本跨度的空间感知特征矩阵;根据语义交互特征矩阵以及空间感知特征矩阵,得到文本跨度的目标分数矩阵,并根据目标分数矩阵,确定文本跨度所属的命名实体类别。本公开提高了命名实体类别的准确率。
-
公开(公告)号:CN118378723B
公开(公告)日:2024-09-13
申请号:CN202410813561.7
申请日:2024-06-21
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
IPC: G06N20/00 , G06F40/284 , G06F40/216 , G06F18/24 , G06F18/22
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN117076518A
公开(公告)日:2023-11-17
申请号:CN202310854529.9
申请日:2023-07-12
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/2458 , G06F16/28 , G06F16/27 , G06F16/36
Abstract: 本公开提供了一种元数据查询方法、装置、系统以及相关设备,涉及大数据治理技术领域。该方法包括:获取分布式部署的多个数据库中的元数据;按照预设规则对元数据进行分类存储,获得分布式部署的多个元数据集;对分布式部署的每个元数据集进行处理,获得多维度的元数据知识图谱,元数据知识图谱用于响应各业务系统发送的数据查询指令,返回待查询的元数据。本公开能够在一定程度上克服相关技术在超大规模分布式数据管理过程中,元数据查询效率较低的问题。
-
公开(公告)号:CN119884147A
公开(公告)日:2025-04-25
申请号:CN202411945262.5
申请日:2024-12-26
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/242 , G06F16/2457 , G06F16/22 , G06F40/30 , G06N5/022 , G06N3/045 , G06N5/04
Abstract: 本申请提出一种表格内容查询分析方法、系统和电子设备,属于数据处理技术领域。该方法先构建表格数据集,再将表格数据集中的各个表格转换为键值对列表的形式,并将每个表格对应的键值对列表作为一段知识切片存入知识库,来构建得到表格知识库。通过将表格数据结构转换为键值对列表的形式来构建知识库,能够较好的保留表格本身结构与内容信息,从而提高表格检索阶段的准确率。接着,通过预先训练好的应答单元格预测模型来筛选与查询问题相关的单元格,再根据查询问题和单元格构造得到提示内容输入大模型处理,不需要输入冗长的表格,可提高大模型的分析效率和准确率,且能够避免超长表格输入大模型而被截断的情况。
-
公开(公告)号:CN118378723A
公开(公告)日:2024-07-23
申请号:CN202410813561.7
申请日:2024-06-21
Applicant: 中国电信股份有限公司 , 中国电信股份有限公司技术创新中心
IPC: G06N20/00 , G06F40/284 , G06F40/216 , G06F18/24 , G06F18/22
Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备,涉及数据处理技术领域。模型训练数据处理方法包括:获取包括多个训练文本的待处理模型训练数据,对每个所述训练文本进行分词预处理,以得到与每个训练文本对应的词汇集合;根据所述词汇集合提取每个所述训练文本的K个关键词,根据所述K个关键词将所述多个训练文本分为多组,K≥1;生成每个所述词汇集合内每个词汇的词向量;对每个训练文本,根据一个所述词汇与所述关键词的距离确定该词汇的权值,根据所述训练文本对应的多个词汇的词向量以及所述权值确定所述训练文本的文本向量;在同组内对所述文本向量的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。
-
公开(公告)号:CN117093702A
公开(公告)日:2023-11-21
申请号:CN202310854438.5
申请日:2023-07-12
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/335 , G06F16/36 , G06F16/35
Abstract: 本公开提供了一种数据服务套餐的生成方法、装置、存储介质及电子设备,涉及大数据服务技术领域。该方法包括,获取目标业务的业务信息,并根据业务信息,获取目标业务关联的元数据信息;响应于目标业务的数据服务套餐请求,获取相应数据服务套餐的元数据信息生成数据服务套餐,根据数据服务套餐中包含的元数据信息,获取相应元数据信息的数据内容。上述方法实现了快速生成数据服务套餐,将数据服务套餐生成过程与数据内容获取过程分离,且数据提供方不需要向数据服务平台提供全量数据,确保了数据安全。
-
公开(公告)号:CN119179631A
公开(公告)日:2024-12-24
申请号:CN202411244607.4
申请日:2024-09-05
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
Abstract: 本公开提供了一种大语言模型系统的评估方法、装置及相关设备,涉及计算机技术领域。该方法包括:生成多组问答对,每组问答对包括:评估问题和标准答案;将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取大语言模型问答系统输出的问题答案;基于预先构建的量化评估模型,根据多组问答对的评估问题和标准答案,对大语言模型问答系统输出的问题答案进行评估。本公开利用预先构建的量化评估模型,根据标准答案对模型输出的答案进行评分,解决了传统评估方法中主观性和不一致性的问题,提高了评估的效率,自动化处理大量数据,节省了人力和时间成本。增强了评估的客观性,减少了人为误差,确保了评估结果的可靠性。
-
公开(公告)号:CN117035516A
公开(公告)日:2023-11-10
申请号:CN202310994819.3
申请日:2023-08-08
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06Q10/0639 , G01D21/02 , G06Q50/26 , G06Q50/30 , G06F30/15 , G06F30/20 , G06F111/04
Abstract: 本公开提供了一种环境监测方法、环境监测装置、电子设备及计算机可读存储介质,属于人工智能技术领域。该方法包括:获取多个候选车辆在监测区域内的行驶数据;采用预先构建的车辆选取模型对各所述候选车辆的行驶数据进行处理,以从所述多个候选车辆中选取目标车辆;通过所述目标车辆上配置的传感设备采集环境中的传感数据,并根据所述传感数据对所述环境进行监测。本公开可以对环境进行准确、便捷的监测。
-
-
-
-
-
-
-
-
-