-
公开(公告)号:CN118378633A
公开(公告)日:2024-07-23
申请号:CN202410480796.9
申请日:2024-04-22
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
IPC: G06F40/35 , G06F16/332 , G06F16/33 , G06N5/04
Abstract: 本申请提供一种模型训练方法、装置、设备、存储介质及程序产品,涉及人工智能领域,包括:获取包括第一图像和第一图像的提示词文本的第一训练数据集;利用第一图像编码器对第一图像进行编码,得到第一视觉标记特征;利用第一文本编码器对提示词文本进行编码,得到第一文本标记特征;与同一个目标对象相关的第一文本标记特征和第一视觉标记特征对齐;根据第一视觉标记特征和第一文本标记特征,对与提示词文本对应的原始语言指令进行位置信息增强,获得增强语言指令;利用增强语言指令和经过线性层编码的第一视觉标记特征,训练LLM,得到多模态对话模型,多模态对话模型用于针对多模态的输入信息进行推理问答。本方案不依赖其他目标检测模型。
-
公开(公告)号:CN117528195A
公开(公告)日:2024-02-06
申请号:CN202311501052.2
申请日:2023-11-13
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
IPC: H04N21/81 , H04N21/845 , H04N21/8547 , H04N21/233 , H04N21/439 , G10L25/54
Abstract: 本发明提供一种音频处理方法、装置、电子设备及存储介质,涉及通信技术领域。该音频处理方法包括:获取待处理音频信息,所述待处理音频信息包括主音轨音频文件和至少两个子音轨音频文件;获取所述至少两个子音轨音频文件中的每一个第一语音片段在主音轨中的时间戳信息,所述主音轨为所述主音轨音频文件所对应的音轨;基于每一第一语音片段的时间戳信息以及对应的说话人标签信息,生成音频日志信息。这样可以提升音频日志信息的准确性。
-
公开(公告)号:CN119887520A
公开(公告)日:2025-04-25
申请号:CN202411724468.5
申请日:2024-11-28
Applicant: 南京大学 , 中移(苏州)软件技术有限公司 , 中国移动通信集团江苏有限公司 , 中国移动通信集团有限公司
IPC: G06T3/4053 , G06T3/4046 , G06F18/213 , G06V10/774 , G06N5/04
Abstract: 一种高分辨率多模态大模型架构的实现方法,实现一种多模态大模型架构,配置用于已有的多模态大模型,用于处理包含高分辨率图像的输入,所述多模态大模型架构对视觉特征提取部分引入局部随机采样机制,并采用分层注入机制将多次随机采样的结果分层注入LLM中。本发明将多次局部随机采样得到的视觉特征划分到LLM的不同层注入,显著减少了LLM在每一层中需要处理的视觉特征,在保证MLLM模型性能前提下,节省了模型训练和推理时的时间开销和显存开销,本发明的局部随机采样机制去除了大量的冗余视觉特征,提高了LLM模型的性能,解决了模型输入高分辨率图像时导致性能下降的问题。
-
公开(公告)号:CN119025674A
公开(公告)日:2024-11-26
申请号:CN202410994764.0
申请日:2024-07-24
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
IPC: G06F16/35 , G06F18/24 , G06F18/22 , G06N3/0455 , G06N3/08
Abstract: 本申请提供一种文本分类模型的训练方法、文本分类方法及相关设备,所述文本分类模型包括编码器和解码器,所述方法包括:获取训练数据集,所述训练数据集包括训练文本、所述训练文本对应的第一标签和所述第一标签对应的标签扩充信息,所述标签扩充信息为对所述第一标签内容的描述信息;对所述文本分类模型进行训练,得到目标文本分类模型。本申请通过对文本分类模型中的编码器和解码器利用训练文本、训练文本对应的第一标签和第一标签对应的标签扩充信息进行训练,得到目标文本分类模型,从而提高了对文本的分类效率。
-
-
-