-
公开(公告)号:CN118968997A
公开(公告)日:2024-11-15
申请号:CN202411015188.7
申请日:2024-07-26
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L15/28 , G06N3/047 , G06N3/0455 , G06N3/08
摘要: 本申请公开了一种低复杂度的高效注意力方法、装置、设备及存储介质,通过引入一个压缩向量s,使用了两步全局交互注意力,但每一次的使用中浮点计算仅仅为D×d和d×D次,当输入序列特别长时,计算复杂度不受输入序列长度的影响,仅与嵌入维度相关,可以降低计算资源的占用,进一步降低网络的计算代价,解决了现有的基于自注意力机制的语音识别方法在面对大规模输入序列时,存在的内存消耗大且计算时间长的技术问题。
-
公开(公告)号:CN118964612A
公开(公告)日:2024-11-15
申请号:CN202411065732.9
申请日:2024-08-05
申请人: 平安科技(深圳)有限公司
IPC分类号: G06F16/35 , G06F16/332 , G06F18/2431 , G06F18/21 , G06F18/2415 , G06N3/0455 , G06N3/0499 , G06N3/082 , G06N3/084 , G06N5/04
摘要: 本发明公开了一种对话推理识别模型训练的方法、装置、系统及介质,方法包括:收集对话数据,根据所述对话数据构造识别模型的输入向量;所述输入向量包括文本向量、角色段落向量和位置编码向量;将所述输入向量输入到识别模型的编码器中,获得文本表示向量;将所述文本表示向量通过全连接映射到类别上,得到类别向量;根据所述类别向量和类别阈值识别对话数据命中的意图类别,完成对识别模型的训练。本发明通过改变编码方式和模型结构,解决识别中的输入文本长度受限问题,以此进行对话过程不同角色之间的上下文交互,使识别模型既可以进行单轮推理也可以完成多轮推理,提高识别模型识别率。
-
公开(公告)号:CN118942482A
公开(公告)日:2024-11-12
申请号:CN202411013012.8
申请日:2024-07-25
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L25/24 , G10L21/007 , G10L15/26 , G10L15/02 , G10L25/03
摘要: 本申请提供了一种语音转换方法、装置、电子设备及存储介质,属于金融科技领域,方法包括:获取待处理的客服音频,通过预训练的转换模型的语音转换得到目标客服音频;转换模型训练步骤如下:获取包括多个训练音频及其标签内容特征的音频训练集;基于梅尔谱图转换和图像变换得到每个训练音频的目标梅尔谱图,音频训练集中的训练音频交替选择图像伸展或者图像压缩中的一种进行图像变换;通过初始模型得到每个训练音频的目标内容特征;当未满足预设训练结束条件,根据多个目标内容特征及其标签内容特征对初始模型的内容编码器进行第一调参;基于音频训练集对调参后的初始模型继续进行训练,直至得到转换模型。本申请能够提高语音转换的稳定性。
-
公开(公告)号:CN112466273B
公开(公告)日:2024-11-08
申请号:CN202011433981.0
申请日:2020-12-10
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L13/02 , G10L13/08 , G10L19/00 , G10L19/02 , G10L19/26 , G06N3/0464 , G06N3/0455 , G06N3/045
摘要: 本发明涉及人工智能领域,揭露了一种语音合成方法,包括:获取训练文本,利用预构建的语音合成模型对训练文本进行位置向量编码和声音频谱编码,生成声音频谱;对声音频谱进行音高投影及持续时间投影,得到音高频谱和持续时间频谱,将音高频谱与声音频谱进行残差连接,生成残差声音频谱;将持续时间频谱和残差声音频谱进行汇总及平滑处理,得到目标声音频谱;计算目标声音频谱与对应标签值的损失值,根据损失值,调整语音合成模型的参数,得到训练完成的语音合成模型;利用训练完成的语音合成模型对待合成语音文本进行语音合成,得到合成结果。此外,本发明还涉及区块链技术,所述目标声音频谱可存储于区块链中。本发明可以提高语音合成的准确性。
-
公开(公告)号:CN118885821A
公开(公告)日:2024-11-01
申请号:CN202410911624.2
申请日:2024-07-08
申请人: 平安科技(深圳)有限公司
摘要: 本申请涉及人工智能领域,提供了一种视频质量评价方法、装置、设备及存储介质,该方法包括:获取待评价的数字人说话视频,并从数字人说话视频中分离出数字人说话数据和数字人图像数据;确定数字人说话数据的第一质量评分,并确定数字人图像数据的第二质量评分;对数字人说话数据中的语音特征进行编码处理,得到语音特征向量,对数字人图像数据中的人脸特征进行编码处理,得到人脸特征向量;确定语音特征向量与人脸特征向量之间的相似度,根据相似度,确定第三质量评分;根据第一质量评分、第二质量评分和第三质量评分,确定数字人说话视频的目标质量评分。本申请提高了确定数字人说话视频的质量的效率和准确性。
-
公开(公告)号:CN112634867B
公开(公告)日:2024-10-15
申请号:CN202011453440.4
申请日:2020-12-11
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/183 , G10L15/26
摘要: 本申请提供一种模型训练方法、方言识别方法、装置、服务器及存储介质,该方法包括:获取样本数据,该样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列,基于第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,并根据该方言语音序列和普通话语音序列,得到第一文本、第二文本和第三文本,之后根据目标文本、第一文本、第二文本和第三文本,确定方言识别模型的目标损失值,并根据该目标损失值确定方言识别模型是否收敛,当确定方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛,本方案使方言识别模型的训练更加简便和准确。
-
公开(公告)号:CN118553255A
公开(公告)日:2024-08-27
申请号:CN202410471631.5
申请日:2024-04-18
申请人: 平安科技(深圳)有限公司
摘要: 本发明适用于人工智能领域,尤其涉及一种基于人工智能的语音增强方法、装置、计算机设备及介质。本发明分别使用第一频率和第二频率对样本语音数据进行处理,得到第一语音特征和第二语音特征,将第二语音特征上采样为第三语音特征,根据第一语音特征和第三语音特征更新编码器,使用更新好的编码器提取目标语音数据的目标语音特征,并提取视频数据的目标视频特征,根据目标语音特征和目标视频特征融合得到的目标增强特征,得到增强语音数据,以不同频率提取语音特征,同时结合上采样保证采样一致性,从而得到更为丰富的语音特征,并结合视频特征进一步丰富特征信息,从而提高语音增强的准确性,提高金融服务平台下智能语音交互的效果。
-
公开(公告)号:CN118447128A
公开(公告)日:2024-08-06
申请号:CN202410472631.7
申请日:2024-04-18
申请人: 平安科技(深圳)有限公司
IPC分类号: G06T11/40 , G06V10/44 , G06V10/82 , G06V10/776 , G06N3/0455 , G06N3/0475 , G06N3/0464
摘要: 本发明涉及图像增强技术领域,尤其涉及一种针对沙尘图像的去尘重构方法、装置、设备及介质。获取同一场景下的带有沙尘的第一图像与不带有沙尘的第二图像,使用第一生成与第二生成器对第一图像与第二图像进行重构,得到重构后不带有沙尘的预测图像与带有沙尘的预测图像,根据带有沙尘的与不带有沙尘的图像,分别计算对应的损失,将损失融合得到目标损失,根据目标损失,得到微调后的第一生成器,根据微调后的第一生成器,对第一图像进行去尘重构,得到重构后的去尘图像。本申请中,使用生成器生成的预测图像与真实图像进行交替判别计算,为生成器的微调提供了可靠的支撑,使生成的预测图像更接近真实图像,从而提高沙尘图像的去尘重构效果。
-
公开(公告)号:CN114913877B
公开(公告)日:2024-07-19
申请号:CN202210516102.3
申请日:2022-05-12
申请人: 平安科技(深圳)有限公司
摘要: 本发明公开了一种声韵母发音时长预测方法、结构、终端及存储介质。所述方法包括:将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;将所述第一隐状态映射为均值序列和标准差序列;将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。本发明实施例可以有效地减少标注时间与标注成本,同时,考虑了文本与音频对齐的单调性,有效减少了文本与音频对齐重复和对齐遗漏等问题,显著提升了对齐精度。
-
公开(公告)号:CN118351828A
公开(公告)日:2024-07-16
申请号:CN202410397722.9
申请日:2024-04-02
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L13/10 , G10L13/027
摘要: 本发明适用于语音合成技术领域,尤其涉及一种基于人工智能的语音合成方法、装置、计算机设备及介质。本发明提取待合成文本中所有音素的音素特征序列,预测得到音素特征序列中所有音素特征单元的丢弃率,根据丢弃率筛选得到所有的目标音素特征单元,组成对应的目标音素特征序列,并预测对应音素的发音时长,解码所有音素的发音时长和音素特征序列,得到音素发音特征,对音素发音特征进行语音合成,得到目标语音,通过筛选出丢弃率最小的音素特征单元来预测音素的发音时长,消除了对发音时长不具备预测作用的音素特征单元对预测发音时长的影响,提高了音素发音时长的预测准确性和目标语音的合成准确性,在金融业务场景中提升了对客户的服务质量。
-
-
-
-
-
-
-
-
-