-
公开(公告)号:CN115186147B
公开(公告)日:2023-08-25
申请号:CN202210612157.4
申请日:2022-05-31
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 蔡华
IPC: G06F16/9032 , G06F16/9035 , G06F16/901 , G06F16/906
Abstract: 一种对话内容的生成方法及装置、存储介质、终端,所述方法包括:获取用户输入的当前话语;读取预先设置的话题转移图和目标话题,其中,话题转移图包括多个节点以及节点之间的连接线,节点和话题一一对应,连接线从第一节点指向第二节点,连接线的权重用于指示从第一节点对应的话题转移至第二节点对应的话题的概率,话题转移图包括目标话题对应的节点;至少根据当前话语、话题转移图和目标话题确定当前话语的回复内容的话题,记为回复话题;至少根据回复话题生成当前话语的回复内容。采用上述方案,可以在人机对话过程中实现话题的主动引导,并将对话自然地将引导至目标话题。
-
公开(公告)号:CN113360646A
公开(公告)日:2021-09-07
申请号:CN202110614527.3
申请日:2021-06-02
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 蔡华
IPC: G06F16/35 , G06F40/216 , G06F40/289 , G06K9/62
Abstract: 本发明公开了一种基于动态权重的文本生成方法、设备及存储介质,所述文本生成方法包括:构建热词词库,热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,每个热搜词的热搜权重根据每个热搜词的频率参数和每个热搜词的构建时间生成;接收输入的任一文本;从任一文本中提取多个主题词;匹配主题词与热词词库,得到每个主题词的热搜权重;根据包含热搜权重的主题词生成更新后的文本。本申请实现动态加权的新闻事件多主题自动生成方法,根据增量自动搜索构建的热词,结合词的频次信息和热搜时间信息动态地赋予热词相应权重,用以处理更新快的实时性网络新闻数据。
-
公开(公告)号:CN119962673A
公开(公告)日:2025-05-09
申请号:CN202510019761.X
申请日:2025-01-06
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06N5/04 , G06F40/211 , G06F40/30
Abstract: 本发明提供一种大纲生成模型设计方法、装置、存储介质和程序产品,涉及文本理解和处理技术领域。其中,长文本大纲生成模型设计方法包括:通过困惑度分析模块得到困惑度评分;通过语义分段模块得到语义相似度、句法结构信息;根据所述困惑度评分、语义相似度、句法结构信息生成综合评分;通过逻辑边界检测模块进行初步段落切分;根据综合评分对初步段落切分进行优化;使用大语言模型生成多级大纲。本发明方法相对于现有技术更为高效精准,集成化程度更高,可解释性更强,并可在多个应用领域进行推广。
-
公开(公告)号:CN119889551A
公开(公告)日:2025-04-25
申请号:CN202510060705.0
申请日:2025-01-14
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种人格评估系统设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域及心理学人格评估技术领域。其中,人格评估系统设计方法包括:管理用户注册与登录,并控制对评估结果的访问权限;采集数据并对数据进行预处理;使用大语言模型分析经过预处理的数据,得到评估数据;设定人格评估体系,对所述评估数据进行特征提取,生成实时特征维度评分;根据实时特征维度评分生成定期解析报告,并根据用户反馈调整解析报告;对数据传输和存储进行加密处理,确保数据安全。本发明基于心理学人格评估的相关理论与方法,利用大语言模型的语义理解和情感分析能力进行人格评估,实现了使用指定的人格评估体系进行精准、便捷和实时的评估。
-
公开(公告)号:CN119884504A
公开(公告)日:2025-04-25
申请号:CN202510034399.3
申请日:2025-01-09
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/9536 , G06F18/213 , G06F18/214 , G06N3/0464
Abstract: 本公开提供了一种重排序模型的处理方法、系统、设备、介质及程序产品,该重排序模型包括原始输出层、序列模型层、多个新增输出层,每个新增输出层包括多个分支结构,该方法包括:获取训练数据集,训练数据集包括高维特征数据集和低维特征数据集;冻结序列模型层和多个新增输出层,基于高维特征数据集和低维特征数据集训练原始输出层;冻结序列模型层和训练后的原始输出层,基于训练后的原始输出层训练新增输出层得到训练后的新增输出层。本公开的重排序模型包含多分支结构的,先基于高维特征数据集和低维特征数据集训练原始输出层,再基于训练后的原始输出层训练新增输出层,能够自动判断早停,大大提升了重排序模型的处理速度和准确性。
-
公开(公告)号:CN119229872A
公开(公告)日:2024-12-31
申请号:CN202411260877.4
申请日:2024-09-09
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L15/26 , G06F40/232 , G06F40/103
Abstract: 本发明提供一种语音识别错误纠正处理方法、系统、存储介质和程序产品。其中方法包括以下步骤:获取原始语音数据;将原始语音数据转换成第一文本;基于第一文本预设专业术语提示;使用大语言模型对第一文本进行纠错处理,得到第二文本;使用大语言模型对第二文本进行正式化转换,得到最终文本。本发明能够提高专业术语识别准确性、转换口语化文本为正式化文本、降低人工校正的成本和时间,以及提升文本的专业性和可用性。总而言之,本发明能够显著提高ASR系统转换效率、处理专业名词和行业特定名词的准确性和文本正式化程度。
-
公开(公告)号:CN118297107B
公开(公告)日:2024-12-10
申请号:CN202410390211.4
申请日:2024-04-02
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种大语言模型的处理方法、系统、设备、介质及程序产品,处理方法包括:获取数据集;根据数据集生成伪标签数据;根据伪标签数据获取指令微调数据;利用指令微调数据对原始大语言模型进行指令微调,得到新的大语言模型。本公开根据获取的数据集生成伪标签数据;再根据伪标签数据获取指令微调数据;利用指令微调数据对原始大语言模型进行指令微调,得到新的大语言模型,实现了基于伪标签数据对大语言模型进行指令微调,有效的缓解了大语言模型灾难性遗忘的问题,严格遵守了连续学习的形式,降低了计算的复杂度,提高了计算的效率和准确率。
-
公开(公告)号:CN117234369B
公开(公告)日:2024-06-21
申请号:CN202311057771.X
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0481 , G06T13/40 , G06V10/80
Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN118014056A
公开(公告)日:2024-05-10
申请号:CN202410217289.6
申请日:2024-02-27
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06N3/098 , G06N3/0455 , G06N20/20 , G06N5/04
Abstract: 本发明提供一种数据增强与预测增强方法协同的数学大语言模型微调方法、系统、设备及介质,其特征在于,包括:获取原问题、原答案,通过问题重写和答案细化的方式补充有效的训练样例,获取增广问题和增广答案;基于所述增广问题和增广答案,进行数据集简化计算,获取简化计算数据集;基于所述简化计算数据集,进行预测输出的增强。LLM的性能有较大弊端,没有解题过程,直接给出结果的问答对难以提高推理能力,而受污染或本身就有错的答案标签甚至会降低微调后LLM的正确率,同时仅限简单问题的数据在复杂多步推理的任务中也很少有帮助。针对上述问题,本发明使用合理增广的优质数学推理数据集和针对高精度与复杂运算的简化计算数据集进行训练,对LLM的预测输出进行多次采样和多轮对话后再进行反向传播,最终提高微调后通用大语言模型正确求解算术计算问题的能力。
-
公开(公告)号:CN116881398A
公开(公告)日:2023-10-13
申请号:CN202310818447.9
申请日:2023-07-04
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/33 , G06F16/338 , G06F16/31
Abstract: 本发明公开一种提升大模型生成信息质量的方法及装置,该方法包括:接收用户输入信息;利用知识库确定所述用户输入信息的辅助信息;根据所述用户输入信息和所述辅助信息,生成基于大模型的反馈信息。利用本发明方案,可以提升大型预训练模型生成信息的时效性和准确性。
-
-
-
-
-
-
-
-
-