语言处理方法、装置、设备及存储介质

    公开(公告)号:CN110147881B

    公开(公告)日:2022-11-22

    申请号:CN201810206125.8

    申请日:2018-03-13

    Abstract: 本发明是关于一种语言处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:将源语句进行预处理,生成第一向量;从第一参考向量集中,获取与第一向量间相似度大于第一阈值的第一参考向量;利用第一神经网络,对第一向量及第一参考向量进行解码处理,确定与源语句对应的目标语句,其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。由此,实现了在进行语言处理过程中,使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,从而提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。

    一种分布式的趋同行为挖掘方法与系统

    公开(公告)号:CN108563715B

    公开(公告)日:2020-12-04

    申请号:CN201810271602.9

    申请日:2018-03-29

    Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。

    确定候选输入的方法和装置及输入提示方法和装置

    公开(公告)号:CN107688398A

    公开(公告)日:2018-02-13

    申请号:CN201610630302.6

    申请日:2016-08-03

    Abstract: 本发明涉及一种确定候选输入的方法和装置及输入提示方法和装置,该方法根据当前语句的输入文字以及上文和/或下文计算的当前语句的输入文字的可能连接词,并且未达到候选句子更新的结束条件时,将候选句子连接不具有结束标识的可能连接词后更新候选句子,循环计算更新候选句子的可能连接词,直到达到候选句子更新的结束条件。将具有结束标识的连接词连接到对应的候选句子中得到具有结束标识的候选句子,计算具有结束标识的候选句子的出现概率,并将出现概率最大的预设个具有结束标识的候选句子作为候选输入。通过确定符合上下文语境的长句的候选输入,用户无需多次输入得到长句,能够提高输入效率。

    语言处理方法、装置、设备及存储介质

    公开(公告)号:CN110147881A

    公开(公告)日:2019-08-20

    申请号:CN201810206125.8

    申请日:2018-03-13

    Abstract: 本发明是关于一种语言处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:将源语句进行预处理,生成第一向量;从第一参考向量集中,获取与第一向量间相似度大于第一阈值的第一参考向量;利用第一神经网络,对第一向量及第一参考向量进行解码处理,确定与源语句对应的目标语句,其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。由此,实现了在进行语言处理过程中,使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,从而提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。

    一种会话摘要生成方法、装置、服务器设备以及终端设备

    公开(公告)号:CN106407178B

    公开(公告)日:2019-08-13

    申请号:CN201610727972.X

    申请日:2016-08-25

    Abstract: 本发明涉及数据分析技术领域,特别是涉及一种会话摘要生成方法、装置、服务器设备以及终端设备。本发明通过获取用户与用户之间或者用户与聊天机器人之间的会话内容,得到与会话内容对应的会话文本,根据不同的意图和/或主题将会话文本划分为若干个会话组,并对会话组的会话文本进行分析,生成对应的会话摘要,为用户提供一种新颖的服务产品。本发明可以自动梳理用户的聊天内容,生成简洁的摘要,进而在用户查看聊天记录时,可以通过呈现会话摘要替代冗长的聊天记录,使呈现内容更简洁、直观,提升用户体验。

    描述型多维度事件序列的并行频繁情节挖掘方法与系统

    公开(公告)号:CN106203631B

    公开(公告)日:2019-04-30

    申请号:CN201610524750.8

    申请日:2016-07-05

    Abstract: 本发明提出描述型多维度事件序列的并行频繁情节挖掘方法与系统,涉及互联网技术领域,该方法包括按照事件属性将所述事件序列分为多个事件子序列,对每个事件子序列进行挖掘,并将挖掘结果进行存储,将相同的事件子序列进行计数累加,将计数结果小于预设阈值的事件子序列过滤,生成事件子序列集合;以待扩展情节为前缀,连接所述事件子序列集合中任一项所述事件子序列,生成新的情结,计算所述新的情结的发生,并存储到发生集合,通过递归对所述新的情结进行扩展。本发明实现了子序列之间挖掘的完全并行,即在多节点同时计算各子序列的所有情节及其发生集合,最终合并所有子序列的挖掘结果获得全局频繁情节。

Patent Agency Ranking