Patent search ap:("华南理工大学") AND inv:"蒋成龙" Page 1

1.

发明公开
一种联邦学习模式下医疗图像数据隐私保护方法及系统审中-实审

公开(公告)号：CN119946202A

公开(公告)日：2025-05-06

申请号：CN202510421995.7

申请日：2025-04-07

Applicant: 华南理工大学

Inventor： 高英 , 陈冲 , 蒋成龙 , 林菁 , 刘鑫

IPC: H04N1/44 , H04L9/00 , G06N3/098 , G06N3/045 , G06N3/0475 , G06N3/094

Abstract: 本发明公开一种联邦学习模式下医疗图像数据隐私保护方法及系统，包括以下步骤：各客户端基于本地医疗影像数据运用梯度下降法训练原始联邦学习模型作为本地模型，计算本地模型训练梯度信息和本地医疗影像数据的统计量，将本地医疗影像数据的统计量以及本地模型训练梯度信息上传至服务器端；服务器端接收各客户端上传的统计量和信息生成扰动模型；各客户端接收扰动模型并更新本地模型参数；攻击者基于泛化误差导向的对抗优化机制训练替代模型，服务器端依据替代模型的攻击态势和防御反馈更新生成器参数以优化防御；经过攻击者多轮训练替代模型以及服务器端优化防御，评估联邦学习模型抵御替代模型攻击的防御效果，若未达到预期效果，则继续训练。

2.

发明公开
基于视频词边界的句子级别唇语识别方法、装置及介质审中-实审

公开(公告)号：CN117173779A

公开(公告)日：2023-12-05

申请号：CN202310990801.6

申请日：2023-08-07

Applicant: 华南理工大学

Inventor： 高英 , 甄泓忠 , 蒋成龙 , 周纪咏

IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06N3/0455 , G10L15/25

Abstract: 本发明公开了一种基于视频词边界的句子级别唇语识别方法、系统、装置及介质，属于机器视觉与自然语言处理领域。其中方法包括以下步骤：获取视频数据，根据视频数据获取视觉特征序列；其中，视觉特征序列的长度与视频数据的长度一致；将视觉特征序列输入利用视频词边界的句子级别唇语识别模型，输出视频中每一帧对应各个字符的预测概率，实现句子级别唇语的识别。本发明通过在句子级别唇语识别模型中引入视频词边界信息，提高模型对视频中各个词汇对应视频持续时间的掌握程度，从而使模型预测句子的词数更准确，进而提高模型识别出的句子长度的准确性。

3.

发明公开
一种统一的中文信息抽取方法审中-实审

公开(公告)号：CN116842947A

公开(公告)日：2023-10-03

申请号：CN202310428161.X

申请日：2023-04-19

Applicant: 华南理工大学

Inventor： 高英 , 周纪咏 , 蒋成龙 , 甄泓忠

IPC: G06F40/295 , G06F40/205 , G06F40/18 , G06F40/186

Abstract: 本发明提出了一种统一的中文信息抽取方法，包括以下步骤：S1、针对三大任务设计了一套prompt模板将三大任务进行统一表征，达到仅使用一个模型就可以完成中文信息抽取三大任务的效果；S2、使用MacBert预训练语言模型获取对应的prompt文本表征；S3、使用K‑GlobalPointer模型获取文本对应的表格表示；S4、解析表格得到相应的信息。本发明通过设计一套prompt模板，将命名实体识别任务、关系抽取任务、事件抽取任务均视为命名实体识别任务，达到仅使用一个模型完成这三大任务的效果。使模型能学习到各个任务之间相互的特征，提升各个方面的性能，还能减少模型参数、降低部署成本。

4.

发明公开
一种动态多视图融合的语音伪造鉴别方法及装置审中-实审

公开(公告)号：CN119864055A

公开(公告)日：2025-04-22

申请号：CN202510355281.0

申请日：2025-03-25

Applicant: 华南理工大学

Inventor： 高英 , 蒋成龙 , 陈冲 , 林菁 , 刘鑫

IPC: G10L25/51 , G10L25/27 , G06F18/2413 , G06F18/23

Abstract: 本发明公开了一种动态多视图融合的语音伪造鉴别方法及装置。所述方法包括以下步骤：根据原始语音信号，获取多视图动态特征数据，构建多视图数据集；采用动态权重聚类集成算法对多视图数据集中的数据进行聚类，生成伪标签；将伪标签与多视图动态特征数据整合，得到第一增强数据集，训练K近邻分类器；利用训练好的K近邻分类器对需要鉴别的语音信号中原始语音信号之外的未见数据点进行预测。本发明采用无监督学习挖掘多视角语音信息，解决了现有方法在泛化、鲁棒及特征利用上的不足。本发明在多数据集上性能卓越，关键指标显著提升，面对不同伪造数据点泛化与鲁棒性强，为语音深度伪造检测提供新路径。

5.

发明公开
一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质审中-实审

公开(公告)号：CN115171647A

公开(公告)日：2022-10-11

申请号：CN202210792457.5

申请日：2022-07-05

Applicant: 华南理工大学

Inventor： 高英 , 蒋成龙 , 甄泓忠 , 吴永贤 , 钟竞辉

IPC: G10L13/02 , G10L25/27

Abstract: 本发明公开了一种具有自然停顿处理的语音合成方法，包括如下步骤：从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；根据所述输入信息提取第一隐层特征变量；根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；根据所述第二隐层特征变量进行解码得到梅尔频谱变量；根据所述梅尔频谱变量合成与所述原始文本对应的语音。本发明还公开了一种具有自然停顿处理的语音合成装置、电子设备及计算机可读介质。本发明能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题。

Patent Agency Ranking