-
公开(公告)号:CN110909823B
公开(公告)日:2024-03-26
申请号:CN201911221593.3
申请日:2019-12-03
Applicant: 携程计算机技术(上海)有限公司
Abstract: 本发明公开了一种图片特征点提取及相似度的判断方法、系统、设备和介质,图片特征点提取方法包括以下步骤:根据原始图片获取具有多个通道的待处理图片;对所述待处理图片分别进行每个通道的线性变换,得到与每个通道相对应的第一中间图片;对每个第一中间图片在水平方向和垂直方向分别进行多个倾斜角度变换,并针对每个倾斜角度变换均生成一个对应的第二中间图片;对每个第二中间图片进行ORB算法处理或SIFT算法处理,得到每个第二中间图片的特征点;对每个第二中间图片的特征点进行合并,得到所述原始图片的特征点。本发明解决了在不同曝光、颜色处理、白天黑夜等同内容的图片判断其相似的缺陷。
-
公开(公告)号:CN111710326B
公开(公告)日:2024-01-23
申请号:CN202010534462.7
申请日:2020-06-12
Applicant: 携程计算机技术(上海)有限公司
Abstract: 本发明公开了一种英文语音的合成方法及系统、电子设备及存储介质。其中,英文语音的合成方法包括:将目标英文文本转换为对应的文本向量;提取与目标句式对应的模板音频的参数,并将所述参数转换为对应的参数向量;其中,所述参数用于表征所述模板音频的语调特征;将所述文本向量与所述参数向量拼接后输入声学模型,预测得到对应的声学特征;将所述声学特征转换为可播放的音频。本发明利用英文文本与模板音频的参数合成对应的音频,使得机器能够带有语调播放相应句式的英文,并且能够保证语音合成的质量以及实时性。
-
公开(公告)号:CN110598686B
公开(公告)日:2023-08-04
申请号:CN201910874487.9
申请日:2019-09-17
Applicant: 携程计算机技术(上海)有限公司
IPC: G06V10/22 , G06V10/56 , G06V10/774 , G06V30/413
Abstract: 本发明公开了一种发票的识别方法、系统、电子设备和介质,其中发票的识别方法包括以下步骤:获取发票图片;在发票图片的预选区域中获取目标区域的位置信息,目标区域包括待识别的目标文字;根据位置信息在目标区域中识别出目标文字。本发明提高了发票文字的识别效率,节省了人工成本。
-
公开(公告)号:CN112233646A
公开(公告)日:2021-01-15
申请号:CN202011125561.6
申请日:2020-10-20
Applicant: 携程计算机技术(上海)有限公司
IPC: G10L13/027 , G10L13/08 , G10L25/03 , G10L25/30 , G06F40/151 , G06F40/289 , G06N3/04
Abstract: 本发明提供了一种基于神经网络的语音克隆方法、系统、设备及存储介质,该方法包括:获取训练样本,构建并训练特征提取模型,建立基于神经网络的声学模型,将目标文本和目标音频输入模型,将模型输出的梅尔谱特征转化为音频。本发明可将不同被模仿者的目标文本以及少量音频送入模型,输出与目标文本对应的被模仿者语音音频。本发明的语音克隆方法仅需几分钟的音频学习即能模仿被模仿者的音色,并且处理大量数据时处理效率更高,训练次数相同时合成的语音效果更好,从技术上提升了语音合成呼叫系统的效率,降低了成本。
-
公开(公告)号:CN112349273B
公开(公告)日:2024-05-31
申请号:CN202011223486.7
申请日:2020-11-05
Applicant: 携程计算机技术(上海)有限公司
IPC: G10L13/08 , G10L19/00 , G10L25/30 , H04M3/493 , G06F40/151 , G06F40/284 , G06F40/289 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明涉及语音处理技术领域,提供一种基于说话人的语音合成方法、模型训练方法及相关设备。所述基于说话人的语音合成方法包括:获得待合成文本,将所述待合成文本转换成文本向量;随机确定一说话人标识,对所述文本向量进行基于所述说话人标识的映射,获得特征向量;根据所述特征向量,通过一声学模型获得声学特征;以及根据所述声学特征,通过一声码器合成目标音频。本发明在进行语音合成时,对待合成文本对应的文本向量进行基于说话人标识的映射,获得包含文本信息和说话人信息的特征向量,实现基于特定说话人的音色进行语音合成,提升用户的交互体验。
-
公开(公告)号:CN112233646B
公开(公告)日:2024-05-31
申请号:CN202011125561.6
申请日:2020-10-20
Applicant: 携程计算机技术(上海)有限公司
IPC: G10L13/027 , G10L13/08 , G10L25/03 , G10L25/30 , G06F40/151 , G06F40/289 , G06N3/0455 , G06N3/0464
Abstract: 本发明提供了一种基于神经网络的语音克隆方法、系统、设备及存储介质,该方法包括:获取训练样本,构建并训练特征提取模型,建立基于神经网络的声学模型,将目标文本和目标音频输入模型,将模型输出的梅尔谱特征转化为音频。本发明可将不同被模仿者的目标文本以及少量音频送入模型,输出与目标文本对应的被模仿者语音音频。本发明的语音克隆方法仅需几分钟的音频学习即能模仿被模仿者的音色,并且处理大量数据时处理效率更高,训练次数相同时合成的语音效果更好,从技术上提升了语音合成呼叫系统的效率,降低了成本。
-
公开(公告)号:CN112331177A
公开(公告)日:2021-02-05
申请号:CN202011224950.4
申请日:2020-11-05
Applicant: 携程计算机技术(上海)有限公司
Abstract: 本发明涉及语音处理技术领域,提供一种基于韵律的语音合成方法、模型训练方法及相关设备。所述基于韵律的语音合成方法包括:对待合成文本进行预处理,获得分词文本;根据所述分词文本,通过一韵律模型获得包含韵律信息的韵律文本;将所述韵律文本转换成包含韵律特征的向量;根据所述包含韵律特征的向量,通过一声学模型获得梅尔谱特征;以及根据所述梅尔谱特征,合成目标音频。本发明根据文本的韵律特征进行语音合成,生成发音自然的音频数据,避免断句错误,使合成的音频数据播放起来更加自然真实,提升用户体验。
-
公开(公告)号:CN111710326A
公开(公告)日:2020-09-25
申请号:CN202010534462.7
申请日:2020-06-12
Applicant: 携程计算机技术(上海)有限公司
Abstract: 本发明公开了一种英文语音的合成方法及系统、电子设备及存储介质。其中,英文语音的合成方法包括:将目标英文文本转换为对应的文本向量;提取与目标句式对应的模板音频的参数,并将所述参数转换为对应的参数向量;其中,所述参数用于表征所述模板音频的语调特征;将所述文本向量与所述参数向量拼接后输入声学模型,预测得到对应的声学特征;将所述声学特征转换为可播放的音频。本发明利用英文文本与模板音频的参数合成对应的音频,使得机器能够带有语调播放相应句式的英文,并且能够保证语音合成的质量以及实时性。
-
公开(公告)号:CN111627418A
公开(公告)日:2020-09-04
申请号:CN202010463946.7
申请日:2020-05-27
Applicant: 携程计算机技术(上海)有限公司
Abstract: 本发明公开了一种语音合成模型的训练方法、合成方法、系统、设备和介质,该训练方法包括:获取若干个历史文本信息及其历史语音信息;获取历史文本信息的历史文本向量;基于CNN网络和双向LSTM网络构建初始声学模型;基于历史文本向量及其历史语音信息的第一梅尔谱,对初始声学模型进行模型训练以得到目标声学模型;基于第二梅尔谱以及历史语音信息,对预设神经网络模型进行模型训练以得到目标声码器模型。本发明中通过基于CNN网络、双向LSTM网络以及线性层搭建声学模型,基于生成式对抗网络GAN构建声码器模型,实现在保证语音合成质量的同时,大大地提升了语音合成速度,从而能够满足电商平台对大量外呼的需求。
-
公开(公告)号:CN110909823A
公开(公告)日:2020-03-24
申请号:CN201911221593.3
申请日:2019-12-03
Applicant: 携程计算机技术(上海)有限公司
Abstract: 本发明公开了一种图片特征点提取及相似度的判断方法、系统、设备和介质,图片特征点提取方法包括以下步骤:根据原始图片获取具有多个通道的待处理图片;对所述待处理图片分别进行每个通道的线性变换,得到与每个通道相对应的第一中间图片;对每个第一中间图片在水平方向和垂直方向分别进行多个倾斜角度变换,并针对每个倾斜角度变换均生成一个对应的第二中间图片;对每个第二中间图片进行ORB算法处理或SIFT算法处理,得到每个第二中间图片的特征点;对每个第二中间图片的特征点进行合并,得到所述原始图片的特征点。本发明解决了在不同曝光、颜色处理、白天黑夜等同内容的图片判断其相似的缺陷。
-
-
-
-
-
-
-
-
-