人机对话异常检测系统及方法

    公开(公告)号:CN106328166A

    公开(公告)日:2017-01-11

    申请号:CN201610794627.8

    申请日:2016-08-31

    Abstract: 一种人机对话异常检测系统及方法,首先通过收集历史对话收据并进行标注,利用标注好的数据对异常检测模型进行训练,在收到实时对话数据时利用训练好的异常检测模型进行异常检测并获得结果;该系统包括语音识别模块(ASR模块)、语音合成模块(TTS模块)、语义识别模块(SLU模块)、对话状态跟踪模块(DST模块)、对话决策模块(DM模块)、数据库查询模块(DATA模块)、自然语言生成模块(NLG模块)、异常检测及处理模块。本发明能够保证机器能够给出的回复都是可靠的,从而可以应用在任何场景下。

    多语言大模型优化训练方法、电子设备、存储介质和程序产品

    公开(公告)号:CN119150923A

    公开(公告)日:2024-12-17

    申请号:CN202411435577.5

    申请日:2024-10-15

    Abstract: 本申请公开一种多语言大模型优化训练方法、电子设备、存储介质和程序产品,该方法包括:获取第一初始多语言大模型所支持的多种语言的多语言数据集;将多语言数据集中的至少一种语言数据输入至第一初始多语言大模型以确定优化训练目标所对应的神经元集合;根据优化训练目标对所述神经元集合对应的神经元参数进行预设处理,以得到第二初始多语言大模型;采用优化训练目标所对应的训练样本集对第二初始多语言大模型进行训练。本申请结合优化训练目标所对应神经元集合对多语言大模型优化训练,解决了现有技术中存在的灾难性遗忘的问题,提升了模型的训练效率。

    基于编辑链的多轮text-to-SQL方法、系统、存储介质和电子设备

    公开(公告)号:CN118394777A

    公开(公告)日:2024-07-26

    申请号:CN202410478526.4

    申请日:2024-04-19

    Inventor: 陈露 俞凯 张晗翀

    Abstract: 本发明实施例提供一种基于编辑链的多轮text‑to‑SQL方法、系统、存储介质和电子设备。该方法包括:利用在训练对话数据集中获取的当前轮次SQL查询语句以及对应于当前轮次的在先SQL查询语句,构造当前抽象语法树以及在先抽象语法树;确定当前抽象语法树与在先抽象语法树之间的差异子节点;利用差异子节点构造当前抽象语法树以及在先抽象语法树之间变换的编辑链;利用编辑链对大语言模型进行上下文学习,学习后的大语言模型用于多轮text‑to‑SQL。本发明实施例不需要依赖大规模且高质量的数据集进行模型训练微调,节省了大量的算力和时间成本。本方法不需要将多轮text‑to‑SQL任务转化为单轮text‑to‑SQL任务,整个过程自动化,不需要具备专家知识的人员进行人工标注,取得了更好的性能表现。

    音频数据识别方法及系统

    公开(公告)号:CN108389575B

    公开(公告)日:2020-06-26

    申请号:CN201810025834.6

    申请日:2018-01-11

    Abstract: 本发明实施例提供一种音频数据识别方法。该方法包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据各帧音频数据帧的预测概率集合,确定各帧音频数据帧的类型;通过非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧来确定非空白音频数据帧的最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别音频数据。本发明实施例还提供一种音频数据识别系统。本发明实施例的音频数据识别方法可用于任意声学模型,并且进一步提升了识别速度。

    非平行语料声音转换数据增强模型训练方法及装置

    公开(公告)号:CN110600013A

    公开(公告)日:2019-12-20

    申请号:CN201910863861.5

    申请日:2019-09-12

    Abstract: 本申请公开一种非平行语料声音转换数据增强模型训练方法,包括:为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块;所述声学注意力层包括第一GRU层和第一注意力层,所述文本注意力层包括第二GRU层和第二注意力层;将样本源文本序列编码为嵌入序列;将样本目标声学特征序列输入至所述第一GRU层;将所述嵌入序列输入至所述第一注意力层和第二注意力层,以训练所述增强模型。本申请通过声学注意力层和文本注意力层保留了源语音中包含的持续时间和语言上下文,从而确保了训练得到的增强模型的准确性,能够更好的用于音频与文本之间的对齐,有助于提升语音转换的效果。

    对话状态跟踪方法、系统、电子设备及存储介质

    公开(公告)号:CN109036380A

    公开(公告)日:2018-12-18

    申请号:CN201810724610.4

    申请日:2018-07-04

    Inventor: 俞凯 任立椋 陈露

    Abstract: 本发明公开一种对话状态跟踪方法,包括:在每轮对话中,获取用户语句表示信息和系统动作表示信息;基于所述用户语句表示信息和所述系统动作表示信息分别确定用户语句特征和系统动作特征;获取当前状态槽的特征向量信息;根据所述用户语句特征、系统动作特征和特征向量信息确定对应于所述当前状态槽的预测向量值;基于所述预测向量值确定所述当前状态槽在槽值集合上的概率分布,槽值集合包含对应于所有状态槽的所有可能的状态值。本发明实施例由于槽值集合对应于所有状态槽,所以实现了槽之间的参数的共享,通过这些共享参数不仅可以在槽间传输知识,还减少了参数数量,简化了状态跟踪系统,提升了对话状态跟踪效率。

    语言模型压缩方法和系统
    67.
    发明公开

    公开(公告)号:CN108874754A

    公开(公告)日:2018-11-23

    申请号:CN201810539084.4

    申请日:2018-05-30

    Abstract: 本发明公开语言模型压缩方法和系统,方法包括:响应于获取的输入参数,查找与所述输入参数对应的二值化向量;至少将所述二值化向量经过二值化的循环网络层,以得到二值化的循环网络层输出;至少将所述循环网络层输出经过二值化的线性层并输出结果。通过使用二值化向量来编码词嵌入以及LSTM的参数,从而达到较高的内存压缩率。开创性地探索了二值化LSTM在大词表语言模型中的应用。进一步地,通过实验表明,本申请提出的模型在中文和英文数据集上达到了11.3的无损压缩比,在损失小部分性能的情况下,可以达到31.6的压缩比。

    声纹识别方法及系统
    68.
    发明公开

    公开(公告)号:CN108766445A

    公开(公告)日:2018-11-06

    申请号:CN201810539335.9

    申请日:2018-05-30

    Inventor: 俞凯 黄子砾 王帅

    Abstract: 本发明实施例提供一种声纹识别方法。该方法包括:通过VAD语音活动检测提取训练语料集中有声帧的特征;基于A‑softmax损失函数扩大有声帧的特征的类间角边界,限制有声帧的特征的类内角度,以训练神经网络模型;根据训练后的神经网络模型确定待注册目标的深度声纹特征,将待注册目标以及深度声纹特征在声纹数据库中注册;根据训练后的神经网络模型确定待识别目标的深度声纹特征;通过声纹数据库中各深度声纹特征与待识别目标的深度声纹特征的相似度,进行识别。本发明实施例还提供一种声纹识别系统。本发明实施例的声纹识别方法使用A‑softmax损失函数限制了类内角度,使得不同类对应的嵌入向量之间有明显的角度边界,提高了区分性,使得识别准确率更高。

    深度学习语言模型的词图重打分方法和系统

    公开(公告)号:CN108415898A

    公开(公告)日:2018-08-17

    申请号:CN201810054749.2

    申请日:2018-01-19

    Abstract: 本发明公开用于智能对话语音平台的深度学习语言模型的词图重打分方法、系统和电子设备,方法包括:在词图的每一条边或各节点上存储一个输出词;自词图的开始节点按序遍历词图的各节点和每一条边,记录自开始节点到各第i节点经过的ki条路径,并将每条路径上的所有边或所有节点上的输出词串联,以形成ki个词序列;将ki个词序列进行缩减处理,形成ji个词序列;调用深度学习语言模型计算各第i节点的ji个词序列的分数。本发明采用词图作为重打分的目标,解决搜索空间小的问题,用历史缓存解决冗余重复计算的问题,用历史聚类、令牌剪枝、集束剪枝减少词图的扩展,加快计算,减少内存消耗,采用节点并行化计算,加速词图重打分效率。

Patent Agency Ranking