一种大模型集群训练方法、系统、装置和介质

    公开(公告)号:CN118966383A

    公开(公告)日:2024-11-15

    申请号:CN202411096068.4

    申请日:2024-08-12

    摘要: 本发明提供了一种大模型集群训练方法、系统、装置和介质,属于大模型技术领域。通过以下技术方案实现:根据模型层级关系将集群服务器进行分层管理,每个层级服务器集群包含主控节点和计算节点;输入训练样本训练大模型,获取训练后的模型参数;主控节点存储模型参数,并与其他层级服务器的主控节点交换计算数据;主控节点分配计算任务到当前层级服务器的计算节点;计算节点部署高性能GPU,接收主控节点的计算任务并传递计算结果。本发明的通过采用集群训练方法,特别是根据模型层级关系对集群服务器进行分层管理,能够更有效地利用高性能GPU集群或超级计算机的计算资源,提高了计算资源的整体利用效率。

    路由器装置和用于2D网状网络结构的NoC系统

    公开(公告)号:CN118921319A

    公开(公告)日:2024-11-08

    申请号:CN202410945439.5

    申请日:2024-07-15

    IPC分类号: H04L45/60 H04L49/109

    摘要: 本申请涉及集成电路设计技术领域,公开一种路由器装置,应用于2D网状网络结构的NoC系统,包括五个端口,包括东、南、西、北四个方向端口和一个本地数据端口,其中东、南、西、北端口之间的非直行数据链路被去除,仅保留直行数据链路和与本地端口的连接;逻辑控制单元,用于在数据包需要转向时执行弹出到本地数据端口并重新注入目标方向端口的操作。本公开通过去除未充分利用的数据链路和采用弹出重新注入机制的方案,在减少功耗和面积占用的同时,尽管可能引入一定的性能损失,但由于转向跳数在总跳数中所占比例较小,因此对整个NoC系统的整体性能影响较小,且显著提升了能效。本申请还公开了一种用于2D网状网络结构的NoC系统。

    用于提升片间通信效率的方法及系统、装置、介质

    公开(公告)号:CN118916324A

    公开(公告)日:2024-11-08

    申请号:CN202411188959.2

    申请日:2024-08-28

    IPC分类号: G06F15/17 G06F11/10 G06F13/40

    摘要: 本申请涉及芯片技术领域,公开一种用于提升片间通信效率的方法,包括:发送设备将待发送数据包发送至USB发送模块;USB发送模块对待发送数据包进行校验后编码,得到编码数据包;再基于pipe通信机制,将编码数据包发送至USB接收模块;USB接收模块对编码数据包进行解码后校验,得到待接收数据包;再将待接收数据包发送至接收设备。这样,通过USB接口,数据能够实时传输,从而将待处理的数据发送至其他设备以实现协同处理。利用USB连接,可以实现不同设备间直接的信息交流,并且能够扩展原有设备的功能,形成具有更高计算能力的设备组合,进而执行整体的协同工作。本申请还公开一种用于提升片间通信效率的系统、装置及介质。

    用于浮点融合乘加的运算单元及方法

    公开(公告)号:CN118897664A

    公开(公告)日:2024-11-05

    申请号:CN202410933216.7

    申请日:2024-07-12

    IPC分类号: G06F7/487 G06F7/485

    摘要: 本申请涉及芯片设计技术领域,公开一种用于浮点融合乘加的运算单元及方法,输入接口用于接收至少三个输入操作数,输入操作数包括浮点操作数和至少一个整型操作数;整型‑浮点转换器内置于单元内部用于将输入的整型操作数直接转换为符合IEEE 754标准的浮点数,转换过程在融合乘加运算之前完成;融合乘加运算器接收由整型操作数转换而来的浮点操作数,将转换的浮点操作数与输入的浮点型操作数直接执行浮点融合乘加运算,即先对两个操作数进行融合乘加运算;输出接口用于输出融合乘加运算的结果。本申请能够在不增加额外转换步骤的情况下,直接对包含整型操作数的融合乘加运算进行处理,从而显著提高运算效率和速度。

    一种基于大模型的智能问答方法、系统及存储介质

    公开(公告)号:CN118626627B

    公开(公告)日:2024-11-05

    申请号:CN202411102673.8

    申请日:2024-08-13

    摘要: 本发明涉及人工智能技术领域,特别是涉及一种基于大模型的智能问答方法、系统及存储介质,本发明通过使用复杂度评估函数对用户问题进行复杂度评估,并根据复杂度评估结果,通过动态规划和外部工具的调用来采用不同的处理策略对用户问题进行处理,从而有助于避免简单问题处理过度复杂,而复杂问题处理不够充分的现象,通过对最终回答的质量进行评估和迭代优化的机制,有助于避免输出的最终回答不稳定或质量不佳的现象,并且在知识提取过程中,充分考虑用户的实际满意度,有助于能提升用户体验。

    一种融合文字、图像与音频的多模态模型及方法

    公开(公告)号:CN118861988A

    公开(公告)日:2024-10-29

    申请号:CN202411065437.3

    申请日:2024-08-05

    摘要: 本发明提出一种基于多模态信息融合的视频检索方法及系统,属于人工智能设备技术领域,包括:视频帧抽取与编码模块用于获取视频,对视频进行视频帧抽取获得图形序列,对图形序列进行特征编码;音频分离与编码模块用于提取视频的音频部分;文本编码模块用于对视频的描述文件进行编码;对齐模块用于对音频,图像和文字及进行对齐,多模态融合与理解模块用于实现不同模态间的深度交互和信息融合;文字生成模块基于多模态特征进行文字信息的生成,不仅能够高效地融合和处理文字、图像、音频等多元信息,还包含了先进的量化技术以降低模型体积、减少计算资源消耗,同时确保模型性能。

    一种自动挖掘低代码平台用户行为模式的系统和方法

    公开(公告)号:CN118861528A

    公开(公告)日:2024-10-29

    申请号:CN202410998210.8

    申请日:2024-07-24

    发明人: 仵夺 李彬 李圣伟

    摘要: 本发明涉及数据挖掘领域,具体是一种自动挖掘低代码平台用户行为模式的系统和方法。本发明通过实时数据采集和处理,能够及时捕捉用户行为变化,确保分析结果的时效性。采用先进的深度学习、NLP、图神经网络和增强学习算法,自动化程度高,无需人工干预,极大提升了分析效率。综合分析用户的多种行为数据,包括点击、文本、图像等,全面捕捉用户行为特征,提高分析的准确性和全面性。通过深入挖掘用户行为模式,能够为用户提供个性化的操作建议和推荐,提升用户体验,增强用户粘性。通过图神经网络和增强学习的结合,能够及时发现并预警异常用户行为,提升平台的安全性和可靠性。

    基于FPGA的多场景数据处理加速系统及方法

    公开(公告)号:CN118860653A

    公开(公告)日:2024-10-29

    申请号:CN202410958220.9

    申请日:2024-07-17

    摘要: 本发明公开了基于FPGA的多场景数据处理加速系统及方法,属于FPGA加速运算技术领域,本发明要解决的技术问题为如何在充分发挥通用加速卡价值的基础上,实现切换到其他场景的推理运算中,避免资源浪费,采用的技术方案为:包括RISC‑V架构的CPU、GDDR6显存、PCIe控制器、HBM2内存以及N个FPGA计算核心,N大于等于1;RISC‑V架构的CPU、GDDR6显存、PCIe控制器、HBM2内存以及FPGA计算核心通过内部互连高速总线相连;其中,FPGA计算核心由FPGA编程后实现,用于接受主机卸载的计算任务,并根据主机指令,分配制定的资源进行并行处理;在混合加速场景中,根据加速任务中各类型任务所占比重,将N个FPGA计算核心办成为不同类型的计算核心。