-
公开(公告)号:CN119168074A
公开(公告)日:2024-12-20
申请号:CN202411042039.X
申请日:2024-07-31
Applicant: 清华大学 , 杭州阿里云飞天信息技术有限公司
IPC: G06N5/043 , G06N5/04 , G06N5/022 , G06F18/214
Abstract: 本发明提供一种基于偏好学习增强大语言模型的领域特定能力的方法及系统,包括:获取无标签数据,通过预设的领域专家模型对所述无标签数据进行推理,生成相应的输出分布;将所述输出分布输入至大语言模型,通过所述大语言模型基于输出分布生成偏好增强数据;对所述偏好增强数据进行汇总,整理为新的训练数据集,通过新的训练数据集对所述大语言模型进行微调;对微调后的大语言模型进行模型评估,基于评估结果对大语言模型进行二次调整,完成大语言模型的领域特定能力增强。本发明解决了现有大语言模型在特定领域生成文本不准确的问题。
-
公开(公告)号:CN119152520A
公开(公告)日:2024-12-17
申请号:CN202411153906.7
申请日:2024-08-21
Applicant: 清华大学 , 杭州阿里云飞天信息技术有限公司
Abstract: 本发明提供一种基于图文全局信息的图文模型训练方法及系统,包括:获取原始的文本信息、多图范式和图像信息;将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征;将所述多图范式和图像信息输入至预设的图文模型中的图文语义转换器获取转换后的图像特征;将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型,对所述大语言模型进行训练,完成多图与视频图文之间的关联识别,得到训练后的多模态图文模型。本发明解决了现有图文模态之间存在数据壁垒,难以深入协同理解处理的问题。
-
公开(公告)号:CN119293170A
公开(公告)日:2025-01-10
申请号:CN202411353270.0
申请日:2024-09-26
Applicant: 清华大学 , 杭州阿里云飞天信息技术有限公司
IPC: G06F16/3329
Abstract: 本发明提供一种针对跨问询大语言模型回复可靠性评估的模型微调方法和装置,方法包括:获取样本问答对数据集;通过可靠性评估模型对目标问答对的回复可靠性进行评估,得到目标回复可靠性初始评估结果;通过可靠性评估模型对各样本问答对进行评估,得到样本回复可靠性评估结果;基于各样本问答对的回复可靠性标签信息,将目标回复可靠性初始评估结果与各样本问答对的样本回复可靠性评估结果进行比较;对各比较结果进行聚合,得到所述目标问答对的回复可靠性评估分数;对可靠性评估模型的参数进行微调,采用参数微调后的可靠性评估模型重复进行评估、比较和聚合,直至得到的目标问答对的回复可靠性评估分数达到预设指标。本发明能够使较弱的大语言模型在推理任务中有效评估大语言模型回复的可靠性。
-
公开(公告)号:CN119961386A
公开(公告)日:2025-05-09
申请号:CN202311456162.1
申请日:2023-11-02
Applicant: 杭州阿里云飞天信息技术有限公司
IPC: G06F16/3329 , G06F16/334 , G06F16/338 , G06F18/214 , G06N3/0499
Abstract: 本说明书实施例提供对话处理、文本生成以及目标对话模型训练方法,其中对话处理方法包括:获取对话文本和对话关联数据,其中,对话关联数据与对话文本的模态不同;将对话文本和对话关联数据输入目标对话模型,获得对话关联数据对应的第一模态特征和对话文本对应的文本模态特征,其中,目标对话模型基于第一样本集对预训练对话模型进行对话任务训练得到,预训练对话模型基于第二样本集对初始对话模型中的第一编码单元和自适应单元中的第一模态参数进行文本预测任务训练得到;利用第一模态参数对第一模态特征进行处理,并利用文本模态参数对文本模态特征进行处理,获得多模态特征;根据多模态特征,生成对话文本对应的答复文本。
-
公开(公告)号:CN119721135A
公开(公告)日:2025-03-28
申请号:CN202311284265.4
申请日:2023-09-28
Applicant: 杭州阿里云飞天信息技术有限公司
IPC: G06N3/0475 , G06N3/0985 , G06F40/20 , G06N3/048
Abstract: 本申请公开了一种深度学习模型生成方法、电子设备和存储介质。其中,该方法包括:获取预测结果,其中,预测结果采用预训练语言模型对输入数据进行预测后得到,输入数据为预设应用场景下预先输入的真实请求数据;依据预测结果获取用户反馈数据,其中,用户反馈数据用于记录预测结果的接受反馈与拒绝反馈;基于用户反馈数据对预训练语言模型与待优化语言模型进行模型对齐,得到补齐后语言模型;将补齐后语言模型确定为生成目标语言模型。本申请解决了相关技术提供的深度学习模型生成方法其训练效率低、训练得到的模型在特定场景下性能较差的技术问题。
-
公开(公告)号:CN119668891A
公开(公告)日:2025-03-21
申请号:CN202311213755.5
申请日:2023-09-19
Applicant: 杭州阿里云飞天信息技术有限公司
Abstract: 本说明书实施例提供任务处理方法、自动问答方法以及任务处理系统,其中所述任务处理方法包括:接收任务处理请求,其中,任务处理请求携带待处理数据;从多个候选模型参数中筛选出目标请求方对应的目标模型参数,其中,候选模型参数基于请求方指定的样本集对预训练处理模型训练得到,各候选模型参数对应的请求方不同;根据目标模型参数和共享模型参数,构建任务处理模型,其中,共享模型参数为预训练处理模型中各请求方共享的模型参数,预训练处理模型在训练过程中共享模型参数固定不变;将待处理数据输入任务处理模型,获得任务处理结果。无需为各请求方单独提供任务处理模型,降低了模型部署成本以及任务处理资源消耗量。
-
公开(公告)号:CN118070209A
公开(公告)日:2024-05-24
申请号:CN202311620129.8
申请日:2023-11-29
Applicant: 杭州阿里云飞天信息技术有限公司
IPC: G06F18/25 , G06F18/22 , G06F18/214 , G06F18/20 , G06N20/00
Abstract: 本申请公开了一种多模态数据处理方法、电子设备及存储介质,涉及大模型技术、文本处理领域。其中,该方法包括:获取预设格式数据,以及与预设格式数据匹配的场景文本数据,其中,场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据;基于场景文本数据对预设格式数据进行识别,得到与预设格式数据匹配的总结文本数据,其中,总结文本数据用于表征对预设格式数据进行概括总结的文本数据;基于场景文本数据和总结文本数据对预设格式数据进行数据分析,得到与预设格式数据的分析文本数据,其中,分析文本数据用于表征对预设格式数据进行解释说明的文本数据。本申请解决了大型语言模型的图表分析准确度较低的技术问题。
-
公开(公告)号:CN117332035A
公开(公告)日:2024-01-02
申请号:CN202311235192.X
申请日:2023-09-22
Applicant: 杭州阿里云飞天信息技术有限公司
IPC: G06F16/31 , G06F16/2458 , G06F40/30 , G06F16/332
Abstract: 本申请公开了一种索引生成方法、电子设备和存储介质。其中,该方法包括:获取原始数据,其中,原始数据包括:多个知识点,多个知识点用于确定多个不同语义的索引片段;对原始数据进行挖掘,得到控制标识,其中,控制标识用于指定原始数据的索引生成方向;采用可控生成方式,对原始数据与控制标识进行索引构建,生成目标索引,其中,目标索引包括:多个不同语义的索引信息中的至少部分索引信息,目标索引用于确定原始数据对应的检索召回覆盖范围。本申请解决了相关技术直接基于整段多知识点内容进行索引创建的方法其内容识别准确度差、检索召回覆盖率低的技术问题。
-
公开(公告)号:CN117633540B
公开(公告)日:2024-04-30
申请号:CN202410109946.5
申请日:2024-01-25
Applicant: 杭州阿里云飞天信息技术有限公司
IPC: G06F18/214 , G06F16/332 , G06F16/36 , G06N5/022
Abstract: 本说明书实施例提供样本数据构建方法及装置,其中所述方法包括:确定目标数据以及目标数据中的事项标签数据和事项知识数据;根据事项标签数据和事项知识数据生成知识链路,并基于知识链路确定目标数据的图结构信息;确定事项标签数据中的事项标签子数据,并在知识链路中选择事项标签子数据对应的链路节点,根据链路节点生成图结构信息对应的链路节点组信息;利用图结构信息和链路节点组信息构建目标数据对应的样本对话数据,其中,样本对话数据用于训练对话模型。通过图结构信息和链路节点组信息构建出样本对话数据,利于后续利用样本对话数据训练出更准确的对话模型,为用户提供更好的对话问答服务。
-
公开(公告)号:CN119597865A
公开(公告)日:2025-03-11
申请号:CN202311093206.9
申请日:2023-08-28
Applicant: 杭州阿里云飞天信息技术有限公司
IPC: G06F16/3329 , G06F16/338 , G06F40/289 , G06F40/30
Abstract: 本申请公开了一种信息交互系统、方法和电子设备,涉及大模型技术、应用开发领域。其中,该系统包括:客户端,用于检测交互界面中的查询请求,其中,查询请求至少包括待答复的查询内容;文本处理端,用于基于查询请求中的查询内容,检索与查询内容关联的文本;引导信息处理端,用于基于检索到的文本和查询内容,生成引导信息,其中,引导信息用于生成查询内容对应的答复信息;信息答复端,用于调用机器学习模型对引导信息进行分析,输出答复信息。本申请解决了信息交互的准确性低的技术问题。
-
-
-
-
-
-
-
-
-