地址文本处理方法及装置
    1.
    发明公开

    公开(公告)号:CN114638217A

    公开(公告)日:2022-06-17

    申请号:CN202210246775.1

    申请日:2022-03-14

    Abstract: 本说明书实施例提供了地址文本处理方法及装置,其中,一种地址文本处理方法包括:获取对语音数据进行识别获得的地址文本,对所述地址文本进行切分处理获得地址关键词;对所述地址关键词进行层级标注,并基于层级标注结果搜索与所述地址关键词匹配的标准地址关键词;根据所述地址文本、所述地址关键词以及所述标准地址关键词,构建地址层级关系图;利用所述地址层级关系图计算所述地址关键词以及处于各候选地址链路的所述标准地址关键词的权重,并根据所述权重计算所述各候选地址链路的链路权重;根据所述各候选地址链路的链路权重确定所述地址文本对应的目标地址链路。

    查询文档排序方法、装置及电子设备

    公开(公告)号:CN112364146A

    公开(公告)日:2021-02-12

    申请号:CN202011365079.X

    申请日:2020-11-27

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书一个或多个实施例提供一种查询文档排序方法、装置及电子设备,包括:基于用户输入的查询问句和与所述查询问句对应的多个查询文档,构建输入向量;其中,所述输入向量中与各个查询文档对应的位置上被分别添加了代表所述查询文档的语义的预设标识;将所述输入向量输入至BERT模型进行语义表示计算,并获取所述BERT模型输出的与各个预设标识对应的语义向量;将与各个预设标识对应的语义向量输入至训练完成的排序学习模型,计算与各个语义向量对应的匹配度评分,并输出按照所述匹配度评分进行排序的排序结果。

    针对多任务模型的训练方法及装置

    公开(公告)号:CN110909145A

    公开(公告)日:2020-03-24

    申请号:CN201911203428.5

    申请日:2019-11-29

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种针对多任务模型的训练方法,其中多任务模型包括语义编码层,针对搜索交互场景的搜索输出层以及针对问答交互场景的问答输出层,其中训练方法包括:首先,获取搜索交互场景和问答交互场景下采集的多个训练样本;然后,对于其中任意的第一样本,至少将其中的用户输入文本输入语义编码层,得到语义向量,并且,将语义向量分别输入搜索输出层和问答输出层;进一步地,根据第一样本所对应的采集场景,从对应场景的输出层获取预测结果,并结合第一样本中的样本标签,确定所述第一样本对应的预测损失;最后,基于多个训练样本各自对应的预测损失之和,调整所述多任务模型的参数。

    计算机执行的机器学习模型的训练方法、装置及设备

    公开(公告)号:CN110705717A

    公开(公告)日:2020-01-17

    申请号:CN201910942795.0

    申请日:2019-09-30

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种计算机执行的机器学习模型的训练方法、装置及设备,在训练方法中,获取在当前时间段内的增量数据,作为训练样本集。基于训练样本集,对在上一时间段训练后的机器学习模型进行增量训练,得到初始机器学习模型。将测试样本集中的各测试样本输入初始机器学习模型,以得到测试结果。基于测试结果,确定初始机器学习模型的准确率。若准确率大于第一阈值,则将初始机器学习模型作为在当前时间段训练后的机器学习模型。若准确率不大于第一阈值,则将测试样本集中测试结果错误的测试样本加入训练样本集,得到更新后的训练样本集,并基于更新后的训练样本集,对初始机器学习模型进行训练,以得到在当前时间段训练后的机器学习模型。

    信息提取方法及装置
    5.
    发明公开

    公开(公告)号:CN115293147A

    公开(公告)日:2022-11-04

    申请号:CN202210916980.4

    申请日:2022-08-01

    Abstract: 本说明书实施例提供信息提取方法及装置,其中所述信息提取方法包括:获取待处理文本和所述待处理文本对应的标记信息;基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息;将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息。通过包括自回归解码器的信息提取模型可以结合上下文信息与当前轮语句直接预测出关键信息,并通过包括有非自回归解码器的信息校正模型对信息提取模型的预测结果进行校正处理,使得生成的目标文本信息更为准确,提高后续保险人员的作业效率。

    查询文档排序方法、装置及电子设备

    公开(公告)号:CN112395405A

    公开(公告)日:2021-02-23

    申请号:CN202011602065.5

    申请日:2020-12-30

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书一个或多个实施例提供一种查询文档排序方法、装置及电子设备,包括:基于训练样本集对作为老师模型的第一排序模型进行有监督的训练;其中,训练样本包括查询问句和与查询问句对应的查询文档,并被标注了指示查询文档与查询问句是否匹配的标签;第一排序模型包括对至少一个评分子模型进行模型融合得到的排序模型;评分子模型用于输出查询文档对应于查询问句的匹配度评分;基于第一排序模型输出的与训练样本集对应的排序结果对作为学生模型的第二排序模型进行预训练,并基于训练样本集对预训练后的第二排序模型进行模型微调;其中,第一排序模型和第二排序模型用于按照匹配度评分对与同一查询问句对应的多个查询文档进行排序。

    文本分类模型的训练方法及装置、文本分类方法及装置

    公开(公告)号:CN111382271A

    公开(公告)日:2020-07-07

    申请号:CN202010156375.2

    申请日:2020-03-09

    Abstract: 本说明书实施例提供一种文本分类模型的训练方法,此方法包括:首先,获取N个原始文本和对应的N个文本类别标签,其中N为大于1的正整数;接着,对N个原始文本进行拼接,得到拼接文本;然后,分别对N个文本类别标签进行独热编码,得到N个类别标签向量;再接着,对N个类别标签向量进行平均处理,得到综合标签向量;再然后,将该拼接文本输入文本分类模型中,得到综合分类结果;再基于该综合分类结果和该综合标签向量,训练所述文本分类模型。此外,本说明书实施例还提供一种文本分类方法,此方法包括:获取待分类的目标文本,并对其复制得到N个目标文本,进行拼接后输入利用上述训练方法得到的文本分类模型中,得到目标文本的文本分类结果。

    训练样本获取方法、装置及设备
    8.
    发明公开

    公开(公告)号:CN110688471A

    公开(公告)日:2020-01-14

    申请号:CN201910942797.X

    申请日:2019-09-30

    Abstract: 本说明书实施例提供一种训练样本获取方法、装置及设备,在获取方法中,收集两批已标注样本,包括第一批样本和第二批样本。第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注。基于第一批样本,训练样本分类模型。对于第二批样本,将第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率。基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。当差异度大于第一阈值时,对第一样本进行编辑。基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。

    用于确定问题答案的方法及问答装置

    公开(公告)号:CN110516060A

    公开(公告)日:2019-11-29

    申请号:CN201911018680.9

    申请日:2019-10-24

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供用于确定问题答案的方法及装置。该方法由问答装置执行,该问答装置具备利用多个问答引擎进行问题答案确定的能力,多个问答引擎中的召回模型和第一评价模型分别组成召回模型层和评价模型层。在该方法中,使用召回模型层中的各个召回模型来分别获取问题的答案;将经由各个召回模型得到的答案提供给各个第一评价模型来分别进行评价,以得到各个答案的第一评价结果集,第一评价结果集包括基于各个第一评价模型得到的第一评价结果;针对各个答案,对所得到的第一评价结果集中的各个第一评价结果进行聚合处理,以得到该答案的第二评价结果;以及根据各个答案的第二评价结果进行答案评估,以确定问题的至少一个目标答案。

    医疗模型预训练的方法、装置、电子设备及存储介质

    公开(公告)号:CN118114743A

    公开(公告)日:2024-05-31

    申请号:CN202410536960.3

    申请日:2024-04-29

    Abstract: 本申请涉及人工智能技术领域,具体提供了一种医疗模型预训练的方法、装置、电子设备及存储介质。一种医疗模型预训练的方法,包括针对各预训练文本的医疗实体信息,对各预训练文本分别进行采样,获得各预训练文本分别对应的采样片段集合;采样片段集合中采样片段中至少包含医疗实体信息;对各预训练文本中的采样片段分别进行掩码处理,获得相应的损坏文本;通过文本预测通用模型,根据各损坏文本及其分别对应的采样片段集合进行文本预测,获得相应的文本预测结果;根据各预训练文本及文本预测结果,进行参数调整,直至获得训练好的医疗预训练模型。这样,提高了医疗预训练模型在医疗领域中的语义理解能力以及逻辑处理能力。

Patent Agency Ranking