-
公开(公告)号:CN117763084A
公开(公告)日:2024-03-26
申请号:CN202311715572.3
申请日:2023-12-13
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/33 , G06F16/332 , G06F18/22 , G06F40/35 , G06N20/00
Abstract: 本公开提供了一种基于文本压缩的知识库检索方法及相关设备,涉及自然语言处理技术领域。该方法包括,获取待回答问题;根据待回答问题,在预先构建的知识库中检索得到待回答问题对应的多个文本信息;根据待回答问题与多个文本信息的相似度对多个文本信息进行压缩,确定压缩后的多个文本信息;将待回答问题和压缩后的多个文本信息输入预训练的大型语言模型,输出待回答问题的答案。本公开通过对知识库中检索得到的文本信息进行压缩处理,精简在输入大型语言模型中文本信息的长度,能够让大型语言模型能够根据更全面的文本信息来回答问题,解决大型语言模型输入受限于知识库中拼接文本影响回答问题准确性的问题。
-
公开(公告)号:CN119760086A
公开(公告)日:2025-04-04
申请号:CN202411884975.5
申请日:2024-12-19
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/3329 , G06F18/22 , G06F18/25
Abstract: 本公开提供了一种基于大语言模型的问答方法及相关设备,涉及人工智能技术领域,该方法包括:获取原始问题,获取多个不同方向的思维链提示,根据每个思维链提示对原始问题进行重写处理,得到多个不同方向的重写问题,对原始问题、第一重写问题和多个第二重写问题分别进行向量表示,并进行融合,得到融合向量,根据向量表示、融合向量和问答大语言模型,生成问题答案。利用思维链技术优化重写问题的输出,并且通过多个方向的思维链来处理,最终融合以提高问答答案检索的准确性,保留原问题的基础上,考虑问题可能会出现的不同角度话题及上下文信息,提升召回率。
-
公开(公告)号:CN117609495A
公开(公告)日:2024-02-27
申请号:CN202311301217.1
申请日:2023-10-09
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F18/2111 , G06F18/214 , G06F18/241 , G06N3/006
Abstract: 本公开提供了一种文本特征分类方法、分类装置、电子设备和存储介质,涉及人工智能技术领域。其中,文本特征分类方法包括:基于语义向量编码模型提取历史文本中的高维文本特征向量;基于所述高维文本特征向量配置粒子,以基于混合粒子群算法对所述高维文本特征向量进行特征优化选择,得到优化选择的低维文本特征向量;基于所述低维文本特征向量对分类器进行模型训练,得到特征分类模型;将待分类文本输入所述特征分类模型,得到分类结果。通过本公开的技术方案,将待分类文本输入特征分类模型得到的输出结果能够具有较高的分类准确性。
-
公开(公告)号:CN117312564A
公开(公告)日:2023-12-29
申请号:CN202311345040.5
申请日:2023-10-17
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/35 , G06F16/36 , G06F18/214 , G06F18/22 , G06F18/241
Abstract: 本公开提供了一种文本分类方法、分类装置、电子设备和存储介质,涉及机器学习技术领域。其中,文本分类方法包括:基于对原始文本的因果约束关系挖掘操作生成因果事件图谱;将因果事件图谱和预设文本库进行匹配操作,基于匹配结果配置因果事件图谱的提示模板;基于目标数据集执行多感知并行的模型预训练,得到多个预训练模型;基于多个预训练模型以及对应的模型权重和提示模板得到预测分类模型;基于预测分类模型对待分类文本进行预测分类并输出预测分类标签;对预测分类标签和备选目标标签进行相似度计算,以基于计算结果确定目标分类标签。通过本公开的技术方案,基于预设文本库所包含的结构化知识有利于降低提示模板的构建成本。
-
公开(公告)号:CN119848833A
公开(公告)日:2025-04-18
申请号:CN202411995668.4
申请日:2024-12-31
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F21/55 , G06F40/284 , G06N5/022 , G06N3/092
Abstract: 本申请涉及一种防御方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集;根据样本攻击文本集和防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于测试结果在防御后缀文本中识别防御关键词;根据防御关键词强化防御后缀文本,得到各强化防御文本,并在各强化防御文本中确定目标强化防御文本;目标强化防御文本用于防御大语言模型应用过程中的越狱攻击。采用本方法能够提高防御方法的成功率。
-
公开(公告)号:CN119202158A
公开(公告)日:2024-12-27
申请号:CN202411208172.8
申请日:2024-08-30
Applicant: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC: G06F16/332 , G06F18/24 , G06F18/214 , G06F16/33 , G06F40/30 , G06F18/22
Abstract: 本申请涉及一种文本评测方法、装置、计算机设备、可读存储介质和程序产品。通过获取大语言模型对应的待评测的问答对文本,将问答对文本输入经训练的检索器,由检索器基于问答对文本输出对应的各个参考文本,将问答对文本以及各个参考文本输入经训练的文本评测模型,由文本评测模型将各个参考文本作为评测标准,对问答对文本进行异常文本评测,输出对应的异常文本评测结果。相较于传统的通过封闭式问题或人工评估的方式进行评估,本方案通过预训练检索器和文本评测模型,利用检索器检索对应的参考文本,并通过文本评测模型,基于各个参考文本作为评测标准,对问答对文本进行异常文本评测,实现提高对大语言模型输出的问答对的评测效率的技术效果。
-
公开(公告)号:CN114065060A
公开(公告)日:2022-02-18
申请号:CN202010737579.5
申请日:2020-07-28
Applicant: 中国电信股份有限公司
IPC: G06F16/9536 , G06F16/28 , G06F16/2458 , G06F16/36 , G06Q50/00 , G06N20/00
Abstract: 本公开提出一种数据分析方法、装置和存储介质,涉及大数据技术领域。本公开的一种数据分析方法,包括:根据原始数据生成时序图,其中,时序图的节点包括时间或人员中的至少一项,时序图的边包括节点之间的关联关系;根据时序图确定图推理模型,图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,图搜索模式的特征类型包括度、关联和环链中的一项或多项;根据查询的源节点信息,在时序图中基于图推理模型确定目标节点。通过这样的方法,能够将海量数据归纳成以人为节点、以行为为边的图,通过图计算快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
-
公开(公告)号:CN108540760A
公开(公告)日:2018-09-14
申请号:CN201710115194.3
申请日:2017-03-01
Applicant: 中国电信股份有限公司
Abstract: 本发明公开了一种视频监控识别方法、装置和系统,涉及视频监控技术领域。其中的方法包括:接收视频监控设备发送的监控时间信息和在该监控时间采集的视频图像信息;接收身份标识采集设备发送的采集时间信息和在该采集时间采集的各用户设备标识信息;根据视频图像信息识别出各用户生物特征信息;若监控时间与采集时间的时间差在阈值时间范围内,则确定用户设备标识对应的用户身份记录信息与各用户生物特征信息匹配程度;识别该用户设备标识为与该用户设备标识对应的用户身份记录信息匹配程度最高的用户生物特征信息的用户所携带的设备标识,因此可以区分出在同一时间进入视频监控范围内各用户的设备标识,进而可以区分视频图像中各用户的具体信息。
-
公开(公告)号:CN108540760B
公开(公告)日:2021-02-26
申请号:CN201710115194.3
申请日:2017-03-01
Applicant: 中国电信股份有限公司
Abstract: 本发明公开了一种视频监控识别方法、装置和系统,涉及视频监控技术领域。其中的方法包括:接收视频监控设备发送的监控时间信息和在该监控时间采集的视频图像信息;接收身份标识采集设备发送的采集时间信息和在该采集时间采集的各用户设备标识信息;根据视频图像信息识别出各用户生物特征信息;若监控时间与采集时间的时间差在阈值时间范围内,则确定用户设备标识对应的用户身份记录信息与各用户生物特征信息匹配程度;识别该用户设备标识为与该用户设备标识对应的用户身份记录信息匹配程度最高的用户生物特征信息的用户所携带的设备标识,因此可以区分出在同一时间进入视频监控范围内各用户的设备标识,进而可以区分视频图像中各用户的具体信息。
-
公开(公告)号:CN114004224A
公开(公告)日:2022-02-01
申请号:CN202010692414.0
申请日:2020-07-17
Applicant: 中国电信股份有限公司
IPC: G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种复杂地址分词方法和装置、计算机可读存储介质。该方法包括:对训练样本标注数据集进行预训练,得到地址切分模型;进行当前模型应用,确定当前模型的切分精度;判断当前模型的切分精度是否大于预定阈值;在当前模型的切分精度大于预定阈值的情况下,根据标准地址库里的标准地址或专家判断对模型切分结果进行纠正,得到训练样本增量标注数据集;基于训练样本增量标注数据集,采用增量学习方式,学习新增样本数据的规律,进行模型重构,得到新的地址切分模型;将新的地址切分模型作为当前模型,之后执行进行当前模型应用,确定当前模型的切分精度的步骤。本公开可以基于增量学习实现复杂地址的精准切分。
-
-
-
-
-
-
-
-
-