一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质

    公开(公告)号:CN115171647A

    公开(公告)日:2022-10-11

    申请号:CN202210792457.5

    申请日:2022-07-05

    Abstract: 本发明公开了一种具有自然停顿处理的语音合成方法,包括如下步骤:从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息;所述标点符号标记,由所述原始文本中不同的标号和点号分别标记为不同标签而形成;根据所述输入信息提取第一隐层特征变量;根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量;根据所述第二隐层特征变量进行解码得到梅尔频谱变量;根据所述梅尔频谱变量合成与所述原始文本对应的语音。本发明还公开了一种具有自然停顿处理的语音合成装置、电子设备及计算机可读介质。本发明能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题。

    基于视频词边界的句子级别唇语识别方法、装置及介质

    公开(公告)号:CN117173779A

    公开(公告)日:2023-12-05

    申请号:CN202310990801.6

    申请日:2023-08-07

    Abstract: 本发明公开了一种基于视频词边界的句子级别唇语识别方法、系统、装置及介质,属于机器视觉与自然语言处理领域。其中方法包括以下步骤:获取视频数据,根据视频数据获取视觉特征序列;其中,视觉特征序列的长度与视频数据的长度一致;将视觉特征序列输入利用视频词边界的句子级别唇语识别模型,输出视频中每一帧对应各个字符的预测概率,实现句子级别唇语的识别。本发明通过在句子级别唇语识别模型中引入视频词边界信息,提高模型对视频中各个词汇对应视频持续时间的掌握程度,从而使模型预测句子的词数更准确,进而提高模型识别出的句子长度的准确性。

    一种统一的中文信息抽取方法
    3.
    发明公开

    公开(公告)号:CN116842947A

    公开(公告)日:2023-10-03

    申请号:CN202310428161.X

    申请日:2023-04-19

    Abstract: 本发明提出了一种统一的中文信息抽取方法,包括以下步骤:S1、针对三大任务设计了一套prompt模板将三大任务进行统一表征,达到仅使用一个模型就可以完成中文信息抽取三大任务的效果;S2、使用MacBert预训练语言模型获取对应的prompt文本表征;S3、使用K‑GlobalPointer模型获取文本对应的表格表示;S4、解析表格得到相应的信息。本发明通过设计一套prompt模板,将命名实体识别任务、关系抽取任务、事件抽取任务均视为命名实体识别任务,达到仅使用一个模型完成这三大任务的效果。使模型能学习到各个任务之间相互的特征,提升各个方面的性能,还能减少模型参数、降低部署成本。

Patent Agency Ranking