面向客服场景的生成匹配式大模型构建方法、介质及设备

    公开(公告)号:CN117709969B

    公开(公告)日:2024-08-27

    申请号:CN202311760197.4

    申请日:2023-12-20

    Abstract: 本发明提供了一种面向客服场景的生成匹配式大模型构建方法、介质及设备;该方法包括依次执行的模型设定阶段、预训练阶段、领域迁移阶段和下游微调阶段;预训练阶段是指:采用跨领域中文语料库的文本作为样本,对智慧客服大模型的大模型基座进行预训练;领域迁移阶段是指:采用客服场景数据作为样本;对智慧客服大模型的大模型基座进行弱监督训练;下游微调阶段是指:采用客服场景人工标注数据作为样本,对智慧客服大模型进行训练以学习新业务的相关知识。该方法分阶段逐步地实现和优化大模型的功能,使其具备深度挖掘大规模客服文本数据知识的能力,同时对新增的业务需求和变化的业务内容具备精准迁移和快速扩展的能力。

    基于语言模型与主动学习的数据标注方法、介质及设备

    公开(公告)号:CN117669764A

    公开(公告)日:2024-03-08

    申请号:CN202311419459.0

    申请日:2023-10-30

    Abstract: 本发明提供了一种基于语言模型与主动学习的数据标注方法、介质及设备;其中方法为:通过标注任务的本质与定义确定标注形式生成指引提示语;选取试标注数据与提示语拼接或填充,经人工与预训练语言模型标注后,计算综合分歧指标;利用强化学习对提示语进行优化;利用领域模型评估未标注数据集,并基于主动学习方法选择当前批注数据;基于双标注策略发至预训练语言模型,结合指引语、优化后的提示语进行标注,得到标注结果;计算分歧度,对提示语进行优化。该方法通过引入预训练语言模型的生成泛化能力与主动学习的采样策略,智能地选择具有较大信息量的数据进行标注,实现自动化标注和审核,确保标注质量和一致性,减少人工标注需求。

    基于图网络的汉字及结构的关联分析方法、介质及设备

    公开(公告)号:CN117610543A

    公开(公告)日:2024-02-27

    申请号:CN202311476751.6

    申请日:2023-11-08

    Inventor: 张通 邓忠易

    Abstract: 本发明提供了一种基于图网络的汉字及结构的关联分析方法、介质及设备;其中方法为:构建字频共现矩阵;遍历字频共现矩阵,构建以有向图为网络结构的汉字关联网络;构建汉字到结构序列的映射表;根据映射表中汉字到结构序列的映射关系,对中文语料库的每个句子采用结构序列随机替换部分汉字,在汉字关联网络中引入结构节点,得到汉字‑结构关联网络;当汉字‑结构关联网络的关键指标有提升则视为有效操作;输出每个汉字的权重以及汉字‑结构关联网络。该方法更关注于字与字之间关联,利用不同汉字间存在相同结构的数据特点有效地缓解词性失衡问题对分析结果的干扰,有效提升中文语料库学习效率和学习准确率。

    面向客服场景的生成匹配式大模型构建方法、介质及设备

    公开(公告)号:CN117709969A

    公开(公告)日:2024-03-15

    申请号:CN202311760197.4

    申请日:2023-12-20

    Abstract: 本发明提供了一种面向客服场景的生成匹配式大模型构建方法、介质及设备;该方法包括依次执行的模型设定阶段、预训练阶段、领域迁移阶段和下游微调阶段;预训练阶段是指:采用跨领域中文语料库的文本作为样本,对智慧客服大模型的大模型基座进行预训练;领域迁移阶段是指:采用客服场景数据作为样本;对智慧客服大模型的大模型基座进行弱监督训练;下游微调阶段是指:采用客服场景人工标注数据作为样本,对智慧客服大模型进行训练以学习新业务的相关知识。该方法分阶段逐步地实现和优化大模型的功能,使其具备深度挖掘大规模客服文本数据知识的能力,同时对新增的业务需求和变化的业务内容具备精准迁移和快速扩展的能力。

    基于图网络的汉字及结构的关联分析方法、介质及设备

    公开(公告)号:CN117610543B

    公开(公告)日:2024-08-02

    申请号:CN202311476751.6

    申请日:2023-11-08

    Inventor: 张通 邓忠易

    Abstract: 本发明提供了一种基于图网络的汉字及结构的关联分析方法、介质及设备;其中方法为:构建字频共现矩阵;遍历字频共现矩阵,构建以有向图为网络结构的汉字关联网络;构建汉字到结构序列的映射表;根据映射表中汉字到结构序列的映射关系,对中文语料库的每个句子采用结构序列随机替换部分汉字,在汉字关联网络中引入结构节点,得到汉字‑结构关联网络;当汉字‑结构关联网络的关键指标有提升则视为有效操作;输出每个汉字的权重以及汉字‑结构关联网络。该方法更关注于字与字之间关联,利用不同汉字间存在相同结构的数据特点有效地缓解词性失衡问题对分析结果的干扰,有效提升中文语料库学习效率和学习准确率。

Patent Agency Ranking