一种机器阅读标注数据的生成方法和装置

    公开(公告)号:CN111488448A

    公开(公告)日:2020-08-04

    申请号:CN202010459357.1

    申请日:2020-05-27

    Inventor: 彭爽 崔恒斌

    Abstract: 本发明实施例提供了一种机器阅读标注数据的生成方法,该方法包括:获取第一人工对话日志,其中包含多轮问答对话语句;根据预先统计得到的高频答案语句集合,从多轮问答对话语句中确定出第一高频答案语句;对于多轮问答对话语句中位于第一高频答案语句之前的若干问题语句中的任意问题语句,根据第一高频答案语句与该任意问题语句之间的语义相似度,以及根据该两者之间的文本间隔距离,确定对应的总相关度;从若干问题语句中提取与第一高频答案的总相关度最高的问题语句,作为第一问题语句;根据第一人工对话日志、第一高频答案语句和第一问题语句,生成带有标注的机器阅读数据。

    数据挖掘的方法和系统
    32.
    发明公开

    公开(公告)号:CN111475652A

    公开(公告)日:2020-07-31

    申请号:CN202010441154.X

    申请日:2020-05-22

    Abstract: 本说明书提供的数据挖掘的方法和系统,通过聚类算法对海量的样本数据进行聚类,生成多个样本簇,每个样本簇中的多个样本数据对应相似的话题;从所述样本簇中选取样本数据数量最多的至少一个样本簇作为热门话题;并通过意图识别模型对热门话题中的样本数据进行分类,从中识别出有价值的样本数据。所述方法和系统可以对海量数据进行聚类,从而挖掘出共性的问题,以进行批量解决,大大提高了工作效率;同时,所述方法和系统可以从海量数据中挖掘出对产品经理有价值的信息,以帮助产品经理从用户的角度解决用户的诉求,大大提升了产品的体验感,提高用户满意度。

    用于推送知识点的数据处理、训练方法及装置

    公开(公告)号:CN111475637A

    公开(公告)日:2020-07-31

    申请号:CN202010588724.8

    申请日:2020-06-24

    Abstract: 本说明书实施例提供一种用于推送知识点的数据处理、训练方法及装置,基于异构图提取符合预设格式的多组元路径,获取异构图中各个节点的对应的第一特征,然后将多组元路径输入预先训练得到的图神经网络模型,通过图神经网络模型对元路径上节点的第一特征进行聚合,至少输出作为路径端点的用户节点和/或知识点节点对应的第二特征,第二特征用于对用户节点和知识点节点进行匹配,以向用户推送相应知识点。该方案能够更精确地匹配用户需求。

    基于图结构的知识点推荐方法及装置

    公开(公告)号:CN111460085A

    公开(公告)日:2020-07-28

    申请号:CN202010307133.9

    申请日:2020-04-17

    Abstract: 本说明书的实施例提供基于图结构的知识点推荐方法及装置。在该知识点推荐方法中,基于历史连续问答会话数据构建知识图谱,知识图谱是有向图结构,节点表示知识点,有向边的方向表示所连接的知识点对的出现顺序,以及有向边的边权重用于反映对应的知识点对的出现次数。在接收用户的问题语句后,在知识库中获取与问题语句对应的第一知识点;在知识图谱中确定与第一知识点关联的第二知识点,并将所确定的第二知识点中的问题推荐给用户。

    一种训练文本关键内容提取模型的方法和系统

    公开(公告)号:CN111401042A

    公开(公告)日:2020-07-10

    申请号:CN202010223432.4

    申请日:2020-03-26

    Abstract: 本说明书实施例公开了一种训练文本关键内容提取模型的方法和系统。所述方法包括:获取若干个训练样本,所述训练样本包括问题和拼接文档,所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符;基于所述问题和所述拼接文档,利用机器阅读模型处理得到对应的表示向量;利用所述表示向量训练初始模型得到文本关键内容提取模型,其中,所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值;基于所述预测值,构建损失函数,迭代优化所述文本关键内容提取模型。本说明书采用用户的反馈数据构造训练样本,可以有效提升机器阅读模型的质量和难度。

    一种训练文本相似度模型的方法和系统

    公开(公告)号:CN111353033A

    公开(公告)日:2020-06-30

    申请号:CN202010126357.X

    申请日:2020-02-27

    Abstract: 本说明书实施例公开了一种训练文本相似度模型的方法及系统,该方法包括:获取多组训练数据,多组训练数据中的一组包括:第一文本、第二文本和第三文本,第二文本和第三文本为用户输入的询问内容,第一文本为知识库中对应于第二文本和第三文本的问题;其中,第二文本为与第一文本匹配的用户反馈好评的文本,第三文本为与第一文本不匹配的用户反馈差评的文本;基于多组训练数据调整文本相似度模型的参数进而优化损失函数,得到训练后的文本相似度模型;其中,损失函数基于第一相似度和第二相似度的相对关系确定;第一相似度为文本相似度模型基于第一文本和第二文本计算的相似度,第二相似度为文本相似度模型基于第一文本与第三文本计算的相似度。

    训练话术生成模型、生成应答话术的方法和装置

    公开(公告)号:CN111339278A

    公开(公告)日:2020-06-26

    申请号:CN202010130638.2

    申请日:2020-02-28

    Abstract: 本说明书实施例提供一种训练话术生成模型、生成应答话术的方法和装置。训练话术生成模型的方法包括:针对用户与人工客服的第一历史对话,得到第一意图关键词对应的第一应答话术;将第一意图关键词以字为单位按照各字的位置关系输入待训练的话术生成模型,话术生成模型包括编码器和解码器,编码器根据位置关系以及第一意图关键词中的各字对第一意图关键词进行编码,得到第一意图关键词对应的第一语义向量,并将第一语义向量输入到解码器进行多次迭代解码,得到话术预测结果;根据第一应答话术和话术预测结果,对话术生成模型进行训练。能够在给定用户意图下生成应答话术,极大减轻了运营人员的工作量,提升运营效率。

    文本检索方法、模型训练方法、文本检索装置及存储介质

    公开(公告)号:CN111274808A

    公开(公告)日:2020-06-12

    申请号:CN202010086368.X

    申请日:2020-02-11

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书涉及一种文本检索方法包括:对接收的第一文本进行分词,得到至少一个词语;根据所述至少一个词语从知识库中召回至少一个第二文本;将所述至少一个词语输入经过训练的文本向量模型,得到所述第一文本的文本向量;根据所述第一文本的向量从所述知识库中召回至少一个第三文本;以及将所述至少一个第二文本和所述至少一个第三文本进行融合,得到文本检索结果。本说明书还提供了词权重模型和文本向量模型的训练方法、文本检索装置、电子设备以及计算机可读存储介质。

    文本生成方法、装置和电子设备

    公开(公告)号:CN111241263A

    公开(公告)日:2020-06-05

    申请号:CN202010334292.8

    申请日:2020-04-24

    Abstract: 本说明书实施例提出了一种文本生成方法、装置和电子设备,其中,上述文本生成方法中,获取当前对话中的对话上文和预先设定的用户意图,以及获取已生成的输出文本之后,将对话上文、用户意图和输出文本进行拼接,获得输入文本;然后对输入文本进行编码获得输入向量,通过单向注意力模型对上述输入向量进行自注意力计算,获得上述输入向量对应的上下文向量,根据上述上下文向量,获得输出文本候选集合中的每个输出文本作为下一个输出文本的概率,最后根据上述概率从上述输出文本候选集合中选择下一个输出文本,循环执行上述步骤,直至下一个输出文本为结束符,或者已生成的输出文本的长度达到预定的长度,这样最终获得的所有输出文本组成对话下文。

    一种剔除干扰问题对的方法及系统

    公开(公告)号:CN110717028A

    公开(公告)日:2020-01-21

    申请号:CN201910995960.9

    申请日:2019-10-18

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书实施例公开了一种剔除干扰问题对的方法及系统。所述方法包括:获取至少一个问题对,将所述至少一个问题对输入初始剔除模型,剔除所述至少一个问题对中的干扰问题对;所述干扰问题对是指与目标主题不相关的问题对;将所述至少一个问题对中未剔除的第一问题对输入匹配模型,确定所述第一问题对的第一匹配结果;基于所述第一匹配结果以及所述第一问题对标定的第二匹配结果,得到反馈值;根据所述反馈值调整所述初始剔除模型,得到目标剔除模型,采用所述目标剔除模型剔除目标问题对中的干扰问题对。

Patent Agency Ranking