Patent search ap:("之江实验室") AND inv:"张计宝" Page 1

1.

发明授权
一种适用于金融大模型的文本数据预处理方法及系统有权

公开(公告)号：CN118211131B

公开(公告)日：2024-07-30

申请号：CN202410627083.0

申请日：2024-05-21

Applicant: 之江实验室

Inventor： 张计宝 , 李亮 , 贾坤澔 , 李栓 , 朱健平 , 向宗元

IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00

Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统，属于金融文本自然语言处理技术领域，包括：对金融数据集中的样本添加次数标签和时间标签，其中，时间标签为从样本中抽取的时间信息；将样本转换为文本向量，对文本向量进行小批量聚类，得到多个子集，计算子集中样本间的相似度，删除相似度高且时间标签小的数据；将样本切分为子串，遍历找到包含图片注释信息且长度小于阈值的子串并删除；遍历找到包含表格表达字段的子串并检测错误，结合提示工程和生成模型修复错误，得到高质量金融数据集。本发明通过将金融数据聚类后去重，极大程度上节省了计算开销和时间成本，通过处理图片注释并修复表格，得到高质量的金融数据集。

2.

发明公开
一种适用于金融大模型的文本数据预处理方法及系统有权

公开(公告)号：CN118211131A

公开(公告)日：2024-06-18

申请号：CN202410627083.0

申请日：2024-05-21

Applicant: 之江实验室

Inventor： 张计宝 , 李亮 , 贾坤澔 , 李栓 , 朱健平 , 向宗元

IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00

Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统，属于金融文本自然语言处理技术领域，包括：对金融数据集中的样本添加次数标签和时间标签，其中，时间标签为从样本中抽取的时间信息；将样本转换为文本向量，对文本向量进行小批量聚类，得到多个子集，计算子集中样本间的相似度，删除相似度高且时间标签小的数据；将样本切分为子串，遍历找到包含图片注释信息且长度小于阈值的子串并删除；遍历找到包含表格表达字段的子串并检测错误，结合提示工程和生成模型修复错误，得到高质量金融数据集。本发明通过将金融数据聚类后去重，极大程度上节省了计算开销和时间成本，通过处理图片注释并修复表格，得到高质量的金融数据集。

Patent Agency Ranking