一种基于大模型的保险行业对话数据增强方法

    公开(公告)号:CN118095218B

    公开(公告)日:2024-07-05

    申请号:CN202410503601.8

    申请日:2024-04-25

    摘要: 本发明公开了一种基于大模型的保险行业对话数据增强方法,通过大模型对获取的数据进行单句和全文方面的语义重写,涉及对话增强技术领域,解决了增强语义时所生成的内容逻辑混乱和缺失且语意不够完整,而且效率过低的同时精准度较低的技术问题;通过获取保险行业领域客户和业务员真实的历史对话语音,通过对语音的识别转换,同时对其进行筛选,而且对连续文本进行对话切分之后得到切分文本,在对若干扩增文本进行重组后,再次通过大模型进行重写,得到的重写对话,不仅能兼顾单句级别和对话级别的增强,同时提高了保险行业对话的质量,再通过设置多个语句、对话和全文提示标签进一步增强了保险行业对话的多样性和规模。

    一种客服对话工单总结方法
    2.
    发明公开

    公开(公告)号:CN112686674A

    公开(公告)日:2021-04-20

    申请号:CN202011566028.3

    申请日:2020-12-25

    摘要: 本发明涉及工单总结,具体涉及一种客服对话工单总结方法,根据对话主题设计不同类型的工单槽位,建立槽位提取模型,并进行模型训练,根据业务场景及主题边界对对话内容进行主题拆解,判断当前拆解主题的类别,并根据工单槽位调用对应的槽位提取模型,获取工单槽位要素信息,将所有工单槽位要素信息进行整合,并输出工单总结;本发明提供的技术方案能够有效克服现有技术所存在的业务工单生成效率较低、无法统一规范、不能真实反映客户需求的缺陷。

    一种基于大模型的保险行业对话数据增强方法

    公开(公告)号:CN118095218A

    公开(公告)日:2024-05-28

    申请号:CN202410503601.8

    申请日:2024-04-25

    摘要: 本发明公开了一种基于大模型的保险行业对话数据增强方法,通过大模型对获取的数据进行单句和全文方面的语义重写,涉及对话增强技术领域,解决了增强语义时所生成的内容逻辑混乱和缺失且语意不够完整,而且效率过低的同时精准度较低的技术问题;通过获取保险行业领域客户和业务员真实的历史对话语音,通过对语音的识别转换,同时对其进行筛选,而且对连续文本进行对话切分之后得到切分文本,在对若干扩增文本进行重组后,再次通过大模型进行重写,得到的重写对话,不仅能兼顾单句级别和对话级别的增强,同时提高了保险行业对话的质量,再通过设置多个语句、对话和全文提示标签进一步增强了保险行业对话的多样性和规模。

    一种基于动态概率模型的负载均衡方法、装置和系统

    公开(公告)号:CN110035122A

    公开(公告)日:2019-07-19

    申请号:CN201910271466.8

    申请日:2019-04-04

    发明人: 廖奇

    IPC分类号: H04L29/08 H04L12/26

    摘要: 本发明提出的一种基于动态概率模型的负载均衡方法,包括以下步骤:周期性获取所有服务节点的状态信息;根据服务节点的状态信息对服务节点进行评分,获取与各服务节点对应的评分值;根据各服务节点的评分值计算对应的命中概率;根据命中概率将区间(0,1]划分为与各服务节点对应的命中区间;根据服务请求,在区间(0,1]范围内生成均匀分布随机数作为投射值;获取投射值所在命中区间对应的服务节点作为本次服务的负载节点。本发明提出的负载均衡方法,不需要完全依赖服务器的瞬时状态,并且能有效地利用次优节点的信息,能有效优化高并发下节点访问的峰值问题,避免硬判决,使各服务节点的负载变得均衡而平滑。

    一种对话处理方法、系统、存储介质及终端

    公开(公告)号:CN116303949B

    公开(公告)日:2024-03-19

    申请号:CN202310183051.1

    申请日:2023-02-24

    摘要: 本申请公开了一种对话处理方法、系统、存储介质及终端,方法包括:获取针对客户端输入的原始问题文本,在存在历史对话文本时,拼接原始问题文本与历史对话文本,将拼接的文本输入预先训练的文本生成模型,输出多条目标响应文本;预先训练的文本生成模型基于预先训练的奖励模型中文本喜欢程度最大化损失函数训练生成,损失函数用于最大化得分更高的文本与得分更低的文本之间的差值;将任意一个符合预设条件的目标响应文本响应客户端。本申请通过文本喜欢程度最大化损失函数训练模型,损失函数能最大化得分更高的文本与得分更低的文本之间的差值,使训练的模型在应用中输出的回复文本符合客观事实和科学原理,提升了问答系统生成回复文本的准确性。

    基于Pipeline处理和ES储存问答系统构建方法

    公开(公告)号:CN113742469B

    公开(公告)日:2023-12-15

    申请号:CN202111030767.5

    申请日:2021-09-03

    发明人: 黄洋 廖奇 罗汉 邬杰

    摘要: 本发明涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法,对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;对改写后的问题语句进行多维度语义特征标签抽取,并转化为查询语句,召回候选问答对;对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;本发明提供的技术方案能够克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。

    一种基于预训练的地址提取和标准化方法

    公开(公告)号:CN114398886A

    公开(公告)日:2022-04-26

    申请号:CN202111582633.4

    申请日:2021-12-22

    IPC分类号: G06F40/289 G06K9/62

    摘要: 本发明涉及地址提取,具体涉及一种基于预训练的地址提取和标准化方法,收集含有地址信息的语料,对模型进行预训练;基于增强型地址语料,通过半监督自学习模式对预训练模型进行微调,并利用微调后的模型进行地名识别;基于自更新自维护字典进行地址纠正;基于多头注意力机制生成模型进行地址规范化;本发明提供的技术方案能够有效克服现有技术所存在的标注语料成本较高、提取得到地址不够标准规范的缺陷。

    基于Pipeline处理和ES储存问答系统构建方法

    公开(公告)号:CN113742469A

    公开(公告)日:2021-12-03

    申请号:CN202111030767.5

    申请日:2021-09-03

    发明人: 黄洋 廖奇 罗汉 邬杰

    摘要: 本发明涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法,对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;对改写后的问题语句进行多维度语义特征标签抽取,并转化为查询语句,召回候选问答对;对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;本发明提供的技术方案能够克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。

    一种对话处理方法、系统、存储介质及终端

    公开(公告)号:CN116303949A

    公开(公告)日:2023-06-23

    申请号:CN202310183051.1

    申请日:2023-02-24

    摘要: 本申请公开了一种对话处理方法、系统、存储介质及终端,方法包括:获取针对客户端输入的原始问题文本,在存在历史对话文本时,拼接原始问题文本与历史对话文本,将拼接的文本输入预先训练的文本生成模型,输出多条目标响应文本;预先训练的文本生成模型基于预先训练的奖励模型中文本喜欢程度最大化损失函数训练生成,损失函数用于最大化得分更高的文本与得分更低的文本之间的差值;将任意一个符合预设条件的目标响应文本响应客户端。本申请通过文本喜欢程度最大化损失函数训练模型,损失函数能最大化得分更高的文本与得分更低的文本之间的差值,使训练的模型在应用中输出的回复文本符合客观事实和科学原理,提升了问答系统生成回复文本的准确性。

    一种应用于垂直领域的固定格式文档结构化识别的方法

    公开(公告)号:CN115995088A

    公开(公告)日:2023-04-21

    申请号:CN202211477364.X

    申请日:2022-11-23

    IPC分类号: G06V30/418 G06V30/19

    摘要: 本发明公开了一种应用于垂直领域的固定格式文档结构化识别的方法,属于图像识别技术领域,具体方法包括:步骤一:定义参照区域和目标区域,制作模板文档;从所有文档中选择无形变的图片,进行图片预处理,根据参照区域和目标区域的定义对文档中的参照区域和目标区域进行标注,形成预定好的模板文档格式;步骤二:生成标记数据;步骤三:对参照区域的OCR检测和识别模型进行优化;步骤四:优化目标区域的OCR识别模型;步骤五:通过优化OCR检测和识别模型与优化OCR识别模型对文档进行结构化识别;利用在通用场景训练好的OCR模型并结合模板匹配,自动生成标记数据,对模型进行优化,无需人为标记垂直领域的文档数据。