-
公开(公告)号:CN120086332A
公开(公告)日:2025-06-03
申请号:CN202510148266.9
申请日:2025-02-10
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/3329 , G06F16/334 , G06F40/30
Abstract: 本发明涉及大语言模型技术领域,具体为一种基于大语言模型的高效任务型对话构建方法,该方法通过将用户的输入话术和当前的实体信息共同更新到当前的Prompt中;Prompt更新后大语言模型会根据Prompt给出特定的输出,接着对于大语言模型的输出至Response进行后处理,根据后处理的结果更新实体信息,并判断是否继续进行对话;当判断不需要继续对话时,会在用户的下一轮对话中进行对话收尾与结束会话并输出内容。通过将大语言模型与任务型对话系统融合,可以快速搭建一个任务型对话流程,不需要模型训练与人工标注,也不需要预先定义特定的流程树,整个搭建过程速度快并且可调整性强,同时整个对话流程会更加流畅。
-
公开(公告)号:CN118379321B
公开(公告)日:2025-05-23
申请号:CN202410476312.3
申请日:2024-04-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/194
Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。
-
公开(公告)号:CN119893015A
公开(公告)日:2025-04-25
申请号:CN202510059091.4
申请日:2025-01-14
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域。其中,字幕生成模型设计方法包括:输入一段语音和对应的正确内容,以及字幕单行最大限制字数;使用基于深度学习的人声检测模型进行人声检测;使用预训练的深度模型进行语音识别;使用所述正确内容与识别文字进行匹配、校正,得到字幕文字;根据字幕单行最大限制字数,对字幕文字进行分行、整合,得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯,字幕与音频呈现更高的匹配度,且字幕文字更加易读;本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数,进一步提高了生成字幕的可读性。
-
公开(公告)号:CN119884161A
公开(公告)日:2025-04-25
申请号:CN202411965467.X
申请日:2024-12-27
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/245 , G06F16/25 , G06F16/248 , G06N5/025
Abstract: 本发明提供一种多模态知识库构建与检索方法、系统、存储介质和程序产品,涉及计算机技术领域。其中多模态知识库构建方法包括以下步骤:获取原始资料,对原始资料进行结构化知识拆分,得到结构化的知识单元;对结构化的知识单元进行知识重组,得到多层次的索引;根据多层次的索引,对结构化的知识单元进行多模态知识整合,得到多模态知识库。本发明能够将非结构化的资料数据转化为多模态结构化数据、多模态知识库构建、多模态知识检索等算法模块功能与相关知识。整个多模态知识库构建与检索流程可信性、可拓展性强,可明显提高知识管理的整体效能。
-
公开(公告)号:CN119831882A
公开(公告)日:2025-04-15
申请号:CN202411860635.9
申请日:2024-12-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T5/70 , G06T5/60 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本公开提供了一种人脸修复模型的训练方法、人脸修复方法、系统和设备,该训练方法包括:基于预先训练好的生成对抗网络蒸馏得到人脸修复模块;基于预设卷积神经网络训练得到降噪去除模块;基于通道分割特征变换层连接人脸修复模块和降噪去除模块的潜在特征,以得到目标人脸修复模型。本公开将包括深度可分离调制卷积层的人脸修复模块和包括深度可分离层的降噪去除模块连接,得到目标人脸修复模型,采用了更适合边缘设备的深度可分离卷积,显著地减小了模型的计算量和参数量,降低了计算资源消耗,提高了运行效率,更适用于边缘设备,提升了普适性。
-
公开(公告)号:CN119646156A
公开(公告)日:2025-03-18
申请号:CN202411761150.4
申请日:2024-12-03
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/3329 , G06F16/334 , G06F16/38 , G06N5/04
Abstract: 本发明公开了一种基于自记忆增强的检索文本生成方法、系统、产品及设备。所述检索文本生成方法包括:接收检索任务并获取大语言模型的知识检索结果;分析所述知识检索结果以得到对应的知识缺口;所述知识缺口包括所述大语言模型未完成检索任务时缺失的信息;以所述检索任务、所述知识缺口和上一次的知识检索结果作为下一次检索的输入,并进行迭代直到知识检索结果不存在知识缺口。该检索文本生成方法,通过使每次输出作为下一轮检索的输入进行迭代,反复优化生成内容,逐步填补知识缺口,确保每轮生成都能利用最新的知识和信息,使得生成文本的质量显著提高,进而显著提高了生成内容的完整性和连贯性,特别适用于需要多跳推理的复杂任务。
-
公开(公告)号:CN119478136A
公开(公告)日:2025-02-18
申请号:CN202411581532.9
申请日:2024-11-06
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/60 , G06T5/70 , G06T3/4038 , G06N3/045 , G06N3/08
Abstract: 本发明提供一种文本生成图像的方法、系统、存储介质和程序产品,方法包括:对给定的待形变图像和给定的训练目标图像进行编码;对给定的文本输入进行编码;利用图像关键点提取方法,获得待形变图像和训练目标图像的图像关键点集合;利用薄板样条差值方法,获得图像关键点的变化方向;将图像关键点的变化方向和文本编码,拼接到待形变图像的编码,进行扩散模型的加噪操作;利用扩散模型的去噪操作,获得去噪后的图片编码;将去噪后的图片编码,利用可训练的解码器进行图像生成;利用生成的图像和给定的训练目标图像组成损失函数,训练解码器网络,获得薄板样条差值引导的文生图模型。本发明能够在保持位置合理性的情况下生成丰富的图像。
-
公开(公告)号:CN118823635A
公开(公告)日:2024-10-22
申请号:CN202410825520.X
申请日:2024-06-24
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V20/40
Abstract: 本发明提供一种视频未来事件预测方法、装置、存储介质和程序产品,其中方法包括以下步骤:输入视频和视频内容描述;将视频拆分为视频片段;从视频片段中过滤出视频关键片段和视频关键帧;采用因果注意力机制,从视频关键片段和视频关键帧中提取影响未来事件的信息;构建思维推理链,引导模型;通过语言生成模型解码,预测视频未来事件。本发明克服了在处理复杂的、多变的现实世界场景时的局限性,增强了对复杂场景和细微变化的理解能力,实现了对复杂视频数据的深度分析和未来事件的准确预测,提高了在未来事件预测方面的准确性和可靠性,能够基于当前数据预测长期趋势和潜在风险,为决策提供更全面的支持。
-
公开(公告)号:CN118377865A
公开(公告)日:2024-07-23
申请号:CN202410381970.4
申请日:2024-03-29
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F3/01 , G06T13/40 , G10L21/10 , G10L13/02
Abstract: 本发明提供一种基于大模型与深度学习的数字人实时问答方法及系统,其中方法包括以下步骤:生成静默音频;获得用户问题;在获得所述用户问题时,通过大模型将所述用户问题生成对应的问答文本后,转换为若干标准时长的问答音频;在没有获得所述用户问题时,生成静默音频后循环使用;基于所述问答音频、所述静默音频和对应的人脸图像,使用深度模型,计算并渲染出对应的人脸图像帧;对所述问答音频、所述静默音频和所述人脸图像帧进行处理,输入到对应的通道,得到实时渲染的唇型人脸视频;使用实时驱动技术将所述唇型人脸视频推送到用户端。本发明能够实现用户对虚拟现实产品的实时体验,并借助大模型的特性生成更加合理的互动模版,增加产品的灵活性。
-
公开(公告)号:CN118333152A
公开(公告)日:2024-07-12
申请号:CN202410350501.6
申请日:2024-03-26
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明公开了一种基于知识消歧的知识图谱扩充方法、系统、设备及介质,涉及计算机技术领域。该方法包括:获取目标文本数据和待扩充知识图谱,基于知识抽取模型对目标文本数据进行知识抽取得到目标知识数据,将目标知识数据进行聚类消歧处理,获得目标聚类簇,选取目标聚类簇的聚类中心为目标知识节点,将目标知识节点与待扩充知识图谱建立关联。本发明通过对自然语言文本进行知识抽取,并对该知识进行消歧聚类处理,避免语义重复、知识体系冗余,同时还能减小计算量,选取聚类中心作为新的知识节点扩充到知识图谱中,提升知识图谱的完备性,提高其在实际应用中的效能,整个知识图谱扩充流程完备,可信度高、可拓展性强。
-
-
-
-
-
-
-
-
-