-
公开(公告)号:CN117407494A
公开(公告)日:2024-01-16
申请号:CN202311265875.X
申请日:2023-09-27
Applicant: 支付宝(杭州)信息技术有限公司 , 浙江大学
IPC: G06F16/332 , G06F16/35 , G06F40/117 , G06F40/194 , G06F40/279
Abstract: 本说明书实施例提供对话知识点生成方法及装置。在生成对话知识点时,首先,确定多会话序列中的各个会话词元的词元级显著性信息、话语级显著性信息和会话级显著性信息,所确定出的词元级显著性信息、话语级显著性信息和会话级显著性信息分别用于反映会话词元在词元级、话语级和会话级的知识点关联度。随后,对各个会话词元的词元级显著性信息、话语级显著性信息和会话级显著性信息进行显著性信息融合;并使用各个会话词元的经过融合后的显著性信息来指导基于多会话序列中的会话词元的对话知识点生成。
-
公开(公告)号:CN117453868A
公开(公告)日:2024-01-26
申请号:CN202311267005.6
申请日:2023-09-27
Applicant: 支付宝(杭州)信息技术有限公司 , 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/194 , G06N5/022
Abstract: 本说明书实施例提供一种多轮问答数据生成方法、装置、设备与存储介质,该方法包括:通过获取给定的上下文数据对应的第一三元组数据,基于第一三元组数据生成上下文数据的知识图谱,基于上下文数据生成单轮问答数据,确认单轮问答数据对应的第二三元组数据,将第二三元组数据与知识图谱进行匹配处理,得到序列化问答数据,在多轮对话场景下获取序列化问答数据中的待改写问题,基于序列化问答数据中待改写问题对应的历史对话数据对待改写问题进行改写,以得到目标问题,采用目标问题替换待改写问题,以得到序列化问答数据对应的多轮问答数据。
-
公开(公告)号:CN114638217A
公开(公告)日:2022-06-17
申请号:CN202210246775.1
申请日:2022-03-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/279 , G06F16/33 , G06N5/02
Abstract: 本说明书实施例提供了地址文本处理方法及装置,其中,一种地址文本处理方法包括:获取对语音数据进行识别获得的地址文本,对所述地址文本进行切分处理获得地址关键词;对所述地址关键词进行层级标注,并基于层级标注结果搜索与所述地址关键词匹配的标准地址关键词;根据所述地址文本、所述地址关键词以及所述标准地址关键词,构建地址层级关系图;利用所述地址层级关系图计算所述地址关键词以及处于各候选地址链路的所述标准地址关键词的权重,并根据所述权重计算所述各候选地址链路的链路权重;根据所述各候选地址链路的链路权重确定所述地址文本对应的目标地址链路。
-
公开(公告)号:CN112364146A
公开(公告)日:2021-02-12
申请号:CN202011365079.X
申请日:2020-11-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/194 , G06F40/279 , G06F40/30 , G06N20/00
Abstract: 本说明书一个或多个实施例提供一种查询文档排序方法、装置及电子设备,包括:基于用户输入的查询问句和与所述查询问句对应的多个查询文档,构建输入向量;其中,所述输入向量中与各个查询文档对应的位置上被分别添加了代表所述查询文档的语义的预设标识;将所述输入向量输入至BERT模型进行语义表示计算,并获取所述BERT模型输出的与各个预设标识对应的语义向量;将与各个预设标识对应的语义向量输入至训练完成的排序学习模型,计算与各个语义向量对应的匹配度评分,并输出按照所述匹配度评分进行排序的排序结果。
-
公开(公告)号:CN110909145A
公开(公告)日:2020-03-24
申请号:CN201911203428.5
申请日:2019-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/35 , G06F16/33
Abstract: 本说明书实施例提供一种针对多任务模型的训练方法,其中多任务模型包括语义编码层,针对搜索交互场景的搜索输出层以及针对问答交互场景的问答输出层,其中训练方法包括:首先,获取搜索交互场景和问答交互场景下采集的多个训练样本;然后,对于其中任意的第一样本,至少将其中的用户输入文本输入语义编码层,得到语义向量,并且,将语义向量分别输入搜索输出层和问答输出层;进一步地,根据第一样本所对应的采集场景,从对应场景的输出层获取预测结果,并结合第一样本中的样本标签,确定所述第一样本对应的预测损失;最后,基于多个训练样本各自对应的预测损失之和,调整所述多任务模型的参数。
-
公开(公告)号:CN110705717A
公开(公告)日:2020-01-17
申请号:CN201910942795.0
申请日:2019-09-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本说明书实施例提供一种计算机执行的机器学习模型的训练方法、装置及设备,在训练方法中,获取在当前时间段内的增量数据,作为训练样本集。基于训练样本集,对在上一时间段训练后的机器学习模型进行增量训练,得到初始机器学习模型。将测试样本集中的各测试样本输入初始机器学习模型,以得到测试结果。基于测试结果,确定初始机器学习模型的准确率。若准确率大于第一阈值,则将初始机器学习模型作为在当前时间段训练后的机器学习模型。若准确率不大于第一阈值,则将测试样本集中测试结果错误的测试样本加入训练样本集,得到更新后的训练样本集,并基于更新后的训练样本集,对初始机器学习模型进行训练,以得到在当前时间段训练后的机器学习模型。
-
公开(公告)号:CN115293147A
公开(公告)日:2022-11-04
申请号:CN202210916980.4
申请日:2022-08-01
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供信息提取方法及装置,其中所述信息提取方法包括:获取待处理文本和所述待处理文本对应的标记信息;基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息;将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息。通过包括自回归解码器的信息提取模型可以结合上下文信息与当前轮语句直接预测出关键信息,并通过包括有非自回归解码器的信息校正模型对信息提取模型的预测结果进行校正处理,使得生成的目标文本信息更为准确,提高后续保险人员的作业效率。
-
公开(公告)号:CN112395405A
公开(公告)日:2021-02-23
申请号:CN202011602065.5
申请日:2020-12-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/338 , G06F40/35
Abstract: 本说明书一个或多个实施例提供一种查询文档排序方法、装置及电子设备,包括:基于训练样本集对作为老师模型的第一排序模型进行有监督的训练;其中,训练样本包括查询问句和与查询问句对应的查询文档,并被标注了指示查询文档与查询问句是否匹配的标签;第一排序模型包括对至少一个评分子模型进行模型融合得到的排序模型;评分子模型用于输出查询文档对应于查询问句的匹配度评分;基于第一排序模型输出的与训练样本集对应的排序结果对作为学生模型的第二排序模型进行预训练,并基于训练样本集对预训练后的第二排序模型进行模型微调;其中,第一排序模型和第二排序模型用于按照匹配度评分对与同一查询问句对应的多个查询文档进行排序。
-
公开(公告)号:CN111382271A
公开(公告)日:2020-07-07
申请号:CN202010156375.2
申请日:2020-03-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种文本分类模型的训练方法,此方法包括:首先,获取N个原始文本和对应的N个文本类别标签,其中N为大于1的正整数;接着,对N个原始文本进行拼接,得到拼接文本;然后,分别对N个文本类别标签进行独热编码,得到N个类别标签向量;再接着,对N个类别标签向量进行平均处理,得到综合标签向量;再然后,将该拼接文本输入文本分类模型中,得到综合分类结果;再基于该综合分类结果和该综合标签向量,训练所述文本分类模型。此外,本说明书实施例还提供一种文本分类方法,此方法包括:获取待分类的目标文本,并对其复制得到N个目标文本,进行拼接后输入利用上述训练方法得到的文本分类模型中,得到目标文本的文本分类结果。
-
公开(公告)号:CN110688471A
公开(公告)日:2020-01-14
申请号:CN201910942797.X
申请日:2019-09-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06K9/62
Abstract: 本说明书实施例提供一种训练样本获取方法、装置及设备,在获取方法中,收集两批已标注样本,包括第一批样本和第二批样本。第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注。基于第一批样本,训练样本分类模型。对于第二批样本,将第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率。基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。当差异度大于第一阈值时,对第一样本进行编辑。基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
-
-
-
-
-
-
-
-
-