一种基于变声能力的人机接力服务方法

    公开(公告)号:CN112669863A

    公开(公告)日:2021-04-16

    申请号:CN202011579324.7

    申请日:2020-12-28

    IPC分类号: G10L21/013 H04M3/51

    摘要: 本发明公开了一种基于变声能力的人机接力服务方法,变声服务中每一个电话机器人发音音色对应一个变声模型,且电话机器人音色编号与变声模型编号相同;提取人工客服语音流中的BN数据,所述BN数据包括与人工客服发音音色无关的语义和韵律参数信息;变声服务根据电话机器人发音音色编号载入对应编号的变声模型,通过变声模型将BN数据转变成与机器人发音音色相同的音频序列,并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中。利用变声模型将人工客服的说话声音转换成与电话机器人发音音色相同的声音,使得用户对人机切换无感知,提升业务服务效果及水平。

    一种快递场景智能录入地址方法及系统

    公开(公告)号:CN109903771A

    公开(公告)日:2019-06-18

    申请号:CN201910093017.9

    申请日:2019-01-30

    摘要: 本发明提出的一种快递场景智能录入地址方法,其特征在于,包括以下步骤:训练多条地址提取模型,并建立地址库,地址库用于存储已知地址;获取客户播报地址的语音信息;根据语音信息获取转写文字;将转写文字与地址提取模型匹配,提取地址信息,并获取地址库中与地址信息匹配的已知地址作为校验地址;将校验地址合成为语音地址并向客户播报;获取客户对语音地址的反馈,判断校验地址是否正确。本发明中,最终获得的校验地址经过了地址提取模型的训练并经过了地址库校验,大大提高了校验地址的精确。本发明中,通过向客户播报语音地址,进一步通过客户直接验证校验地址,保证了最终获取的寄件地址的准确。

    一种基于深度学习的语义端点检测系统

    公开(公告)号:CN115132178B

    公开(公告)日:2023-01-10

    申请号:CN202210836360.X

    申请日:2022-07-15

    IPC分类号: G10L15/02 G10L15/05 G10L15/18

    摘要: 本发明公开了一种基于深度学习的语义端点检测系统,涉及语义端点检测技术领域,解决了现有技术中语音端点检测不准的技术问题;包括:音频信息采集模块、语音特征提取模块、音频片段能量判断模块、信息提取触发器、单轮语义端点检测模块、多轮语义端点检测模块、语音语义多模态端点检测模块以及语音语义端点检测汇总模块;本发明在端点检测中,分别对单轮、多轮和序列化的对话进行语义分析,使端点检测不仅有语音的声学特征还同时具有语义特征,真正做到了智能化、拟人化的端点检测,极大提升了人机对话的流畅度和智能度。

    一种快递场景智能录入地址方法及系统

    公开(公告)号:CN109903771B

    公开(公告)日:2021-06-18

    申请号:CN201910093017.9

    申请日:2019-01-30

    摘要: 本发明提出的一种快递场景智能录入地址方法,其特征在于,包括以下步骤:训练多条地址提取模型,并建立地址库,地址库用于存储已知地址;获取客户播报地址的语音信息;根据语音信息获取转写文字;将转写文字与地址提取模型匹配,提取地址信息,并获取地址库中与地址信息匹配的已知地址作为校验地址;将校验地址合成为语音地址并向客户播报;获取客户对语音地址的反馈,判断校验地址是否正确。本发明中,最终获得的校验地址经过了地址提取模型的训练并经过了地址库校验,大大提高了校验地址的精确。本发明中,通过向客户播报语音地址,进一步通过客户直接验证校验地址,保证了最终获取的寄件地址的准确。

    一种应用于垂直领域的固定格式文档结构化识别的方法

    公开(公告)号:CN115995088A

    公开(公告)日:2023-04-21

    申请号:CN202211477364.X

    申请日:2022-11-23

    IPC分类号: G06V30/418 G06V30/19

    摘要: 本发明公开了一种应用于垂直领域的固定格式文档结构化识别的方法,属于图像识别技术领域,具体方法包括:步骤一:定义参照区域和目标区域,制作模板文档;从所有文档中选择无形变的图片,进行图片预处理,根据参照区域和目标区域的定义对文档中的参照区域和目标区域进行标注,形成预定好的模板文档格式;步骤二:生成标记数据;步骤三:对参照区域的OCR检测和识别模型进行优化;步骤四:优化目标区域的OCR识别模型;步骤五:通过优化OCR检测和识别模型与优化OCR识别模型对文档进行结构化识别;利用在通用场景训练好的OCR模型并结合模板匹配,自动生成标记数据,对模型进行优化,无需人为标记垂直领域的文档数据。

    一种基于深度学习的语义端点检测系统

    公开(公告)号:CN115132178A

    公开(公告)日:2022-09-30

    申请号:CN202210836360.X

    申请日:2022-07-15

    摘要: 本发明公开了一种基于深度学习的语义端点检测系统,涉及语义端点检测技术领域,解决了现有技术中语音端点检测不准的技术问题;包括:音频信息采集模块、语音特征提取模块、音频片段能量判断模块、信息提取触发器、单轮语义端点检测模块、多轮语义端点检测模块、语音语义多模态端点检测模块以及语音语义端点检测汇总模块;本发明在端点检测中,分别对单轮、多轮和序列化的对话进行语义分析,使端点检测不仅有语音的声学特征还同时具有语义特征,真正做到了智能化、拟人化的端点检测,极大提升了人机对话的流畅度和智能度。

    一种多模态监督服务系统及方法
    8.
    发明公开

    公开(公告)号:CN112700255A

    公开(公告)日:2021-04-23

    申请号:CN202011578972.0

    申请日:2020-12-28

    摘要: 本发明公开了一种多模态监督服务系统及方法,包括文本情绪判别模块、面部情绪判别模块和综合情绪判别模块;所述文本情绪判别模块用于将语音信息转换成文本信息并判断该文本信息代表的情绪特征及概率;所述面部情绪判别模块用于提取面部信息并判断该面部信息代表的情绪特征及概率;所述综合情绪判别模块用于将文字情绪判别模块和面部情绪判别模块输入的情绪概率加权计算得到最终的情绪判别结果。通过客服人员说话内容情绪判别与面部表情判别相结合,保证判别结果的准确性;进行逐句抓取实时判断,保证监督的及时性,使得客服人员可以以最好的状态为用户提供服务,提升业务服务效果及水平用。