-
公开(公告)号:CN119889283A
公开(公告)日:2025-04-25
申请号:CN202510101817.6
申请日:2025-01-22
Applicant: 厦门大学
IPC: G10L13/08 , G10L15/04 , G10L15/02 , G10L15/00 , G10L15/16 , G10L25/30 , G10L25/45 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06F40/117 , G06F40/58
Abstract: 一种基于语音到单元的端到端闽南语翻译、合成方法及系统,涉及计算机技术。翻译方法,从用户端获取闽南语音频数据,经重采样和分割,音频片段预处理,位置编码后输入Transformer网络的编码器编码,编码后的低维表征与解码器输出一同送入解码器自回归解码得翻译序列,剔除特殊标记符号得中文文本翻译结果。合成方法,从用户端获取中文文本,过滤部分标点符号,获取词嵌入与位置嵌入后经Transformer编码器编码得中间隐变量,解码器解码得初始梅尔频谱输出,经后处理修正得到梅尔频谱作为声学特征,通过微调的Hifi‑Gan声码器生成闽南语音频。提高闽南语语音翻译准确度,合成闽南语语音生动流畅,适用于多场合。
-
公开(公告)号:CN119963679A
公开(公告)日:2025-05-09
申请号:CN202510101392.9
申请日:2025-01-22
Applicant: 厦门大学
Abstract: 一种基于AIGC的影视角色及场景图生成方法及系统,涉及人工智能。获取用户输入的剧本文字内容,提取角色描述及场景描述;通过大语言模型将角色描述及场景描述转换成标准格式的Prompt并输入Stable Diffusion,生成基准角色图或基准场景图。对于角色一致性:根据IP‑Adapter身份保持模块,输入基准参考图和文字描述生成同一角色的不同状态。对于场景一致性:从基准场景图中提取边缘轮廓信息,将轮廓信息、文字描述作为controlnet的输入,生成不同天气、光照的状态。提升AIGC生成的角色一致性和场景一致性,高效生成同一角色同一场景下不同状态,为生成角色小传、勘景选景提供参考。
-