用于大语言模型的富文本数据处理方法、设备、存储介质

    公开(公告)号:CN117252153B

    公开(公告)日:2024-02-02

    申请号:CN202311532530.6

    申请日:2023-11-17

    Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。

    用于大语言模型的富文本数据处理方法、设备、存储介质

    公开(公告)号:CN117252153A

    公开(公告)日:2023-12-19

    申请号:CN202311532530.6

    申请日:2023-11-17

    Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。

Patent Agency Ranking