Patent search ap:("华南理工大学") AND inv:"甄泓忠" Page 1

1.

发明公开
一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质审中-实审

公开(公告)号：CN115171647A

公开(公告)日：2022-10-11

申请号：CN202210792457.5

申请日：2022-07-05

Applicant: 华南理工大学

Inventor： 高英 , 蒋成龙 , 甄泓忠 , 吴永贤 , 钟竞辉

IPC: G10L13/02 , G10L25/27

Abstract: 本发明公开了一种具有自然停顿处理的语音合成方法，包括如下步骤：从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；根据所述输入信息提取第一隐层特征变量；根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；根据所述第二隐层特征变量进行解码得到梅尔频谱变量；根据所述梅尔频谱变量合成与所述原始文本对应的语音。本发明还公开了一种具有自然停顿处理的语音合成装置、电子设备及计算机可读介质。本发明能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题。

2.

发明公开
基于视频词边界的句子级别唇语识别方法、装置及介质审中-实审

公开(公告)号：CN117173779A

公开(公告)日：2023-12-05

申请号：CN202310990801.6

申请日：2023-08-07

Applicant: 华南理工大学

Inventor： 高英 , 甄泓忠 , 蒋成龙 , 周纪咏

IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06N3/0455 , G10L15/25

Abstract: 本发明公开了一种基于视频词边界的句子级别唇语识别方法、系统、装置及介质，属于机器视觉与自然语言处理领域。其中方法包括以下步骤：获取视频数据，根据视频数据获取视觉特征序列；其中，视觉特征序列的长度与视频数据的长度一致；将视觉特征序列输入利用视频词边界的句子级别唇语识别模型，输出视频中每一帧对应各个字符的预测概率，实现句子级别唇语的识别。本发明通过在句子级别唇语识别模型中引入视频词边界信息，提高模型对视频中各个词汇对应视频持续时间的掌握程度，从而使模型预测句子的词数更准确，进而提高模型识别出的句子长度的准确性。

3.

发明公开
一种统一的中文信息抽取方法审中-实审

公开(公告)号：CN116842947A

公开(公告)日：2023-10-03

申请号：CN202310428161.X

申请日：2023-04-19

Applicant: 华南理工大学

Inventor： 高英 , 周纪咏 , 蒋成龙 , 甄泓忠

IPC: G06F40/295 , G06F40/205 , G06F40/18 , G06F40/186

Abstract: 本发明提出了一种统一的中文信息抽取方法，包括以下步骤：S1、针对三大任务设计了一套prompt模板将三大任务进行统一表征，达到仅使用一个模型就可以完成中文信息抽取三大任务的效果；S2、使用MacBert预训练语言模型获取对应的prompt文本表征；S3、使用K‑GlobalPointer模型获取文本对应的表格表示；S4、解析表格得到相应的信息。本发明通过设计一套prompt模板，将命名实体识别任务、关系抽取任务、事件抽取任务均视为命名实体识别任务，达到仅使用一个模型完成这三大任务的效果。使模型能学习到各个任务之间相互的特征，提升各个方面的性能，还能减少模型参数、降低部署成本。

Patent Agency Ranking