-
公开(公告)号:CN120012913A
公开(公告)日:2025-05-16
申请号:CN202411888199.6
申请日:2024-12-20
Applicant: 南京工程学院
Abstract: 本申请适用于计算机技术领域,提供了一种基于共享指数的矩阵乘的文本生成方法、装置及终端设备,包括:获取输入LLM模型文本数据和LLM模型模型参数,再将文本数据和模型参数转换为第一浮点格式数据集,根据预设共享指数算法对第一浮点格式数据集中的每个数据进行指数对齐,生成第二浮点格式数据集,再对第一矩阵和第二矩阵进行矩阵乘运算,生成第三矩阵,再将第三矩阵输入至自注意力机制层输出注意力加权表示,将注意力加权表示输入至前馈神经网络输出高级特征表示,最后将高级特征表示输入解码器中输出文本数据对应的文本。本申请的方法在维持高计算精度的同时,大幅降低原先浮点运算的计算功耗,进一步降低LLM模型的推理延迟,提高文本生成的效率。
-
公开(公告)号:CN120067300A
公开(公告)日:2025-05-30
申请号:CN202510222805.9
申请日:2025-02-27
Applicant: 南京工程学院
IPC: G06F16/334 , G06F16/31 , G06N3/045 , G06N3/0499 , G06N5/04
Abstract: 本申请适用于计算机技术领域,提供了一种基于共享指数的softmax算法的文本生成方法,包括:获取输入LLM模型的文本数据和模型参数,将文本数据和模型参数确定为输入值,输入值包括指数部分和尾数部分,再根据双查表对输入值进行查询,获取输入值的尾数近似值,根据共享指数公式对输入值的尾数近似值进行缩放处理,获取输入值的第一近似值,再根据Softmax函数对第一近似值进行归一化处理,再将第一近似值输入至自注意力机制层,输出注意力加权表示,将注意力加权表示输入至前馈神经网络,输出高级特征表示,将高级特征表示输入至解码器中,输出文本数据对应的文本。本申请在维持高计算精度的同时,可大幅降低计算功耗,降低模型的推理延迟,提高文本生成效率。
-