-
公开(公告)号:CN119107660A
公开(公告)日:2024-12-10
申请号:CN202411549300.5
申请日:2024-11-01
Applicant: 之江实验室
IPC: G06V30/41 , G06V30/14 , G06V30/19 , G06F40/186 , G06F40/258 , G06F40/30
Abstract: 本发明公开了一种基于多模态信息的论文排序方法、系统、电子设备、介质,所述方法包括:将待处理的论文PDF文档按页拆分,并将每页保存为图像数据;对每页对应的图像数据进行处理,得到每一版面区域类别以及对应的包围框坐标、文字字段;对每页中的包围框坐标进行归一化及偏移处理,对归一化及偏移处理后的包围框坐标按照从上到下、从左到右的顺序进行排序;设置无效版面区域类别,并删除,得到全文粗排序结果;设置提示词模板,将全文粗排序结果填入提示词模板后输入至大语言模型,得到全文精排序结果。
-
公开(公告)号:CN118211131A
公开(公告)日:2024-06-18
申请号:CN202410627083.0
申请日:2024-05-21
Applicant: 之江实验室
IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00
Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。
-
公开(公告)号:CN116306657B
公开(公告)日:2023-08-22
申请号:CN202310565366.2
申请日:2023-05-19
Applicant: 之江实验室
IPC: G06F40/295 , G06F16/33 , G06N20/00 , G06F16/35
Abstract: 本发明公开一种基于方阵标注和双仿射层注意力的实体抽取方法及系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。该系统是首次将图像语义分割的思想融入文本实体抽取的任务中,将传统的序列标注任务转变成方阵标注任务,并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵,缓解了中文文本实体识别任务中实体边缘检测难,检测精度低的问题。
-
公开(公告)号:CN115545027A
公开(公告)日:2022-12-30
申请号:CN202211072425.4
申请日:2022-09-02
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/169
Abstract: 本发明公开了一种基于弱标签标注文本的公司名实体识别方法。该方法包括:将清洗后的弱标签文本集使用通用公司名词库继续标注并切分成多个包含5000样本的文本子集;然后由BERT预训练神经网络和Softmax回归模型构建的模型在每个文本子集上进行训练,在每轮训练结束后,识别并筛选文本中的未标注公司名字段,并使用分词模型过滤无用字段。重复该步骤,直至不再产生新的未标注公司名;最后,将未标注公司名在文本集上继续标注,并将模型在最终标注的文本集上继续训练。此外,本方法在弱标签公司名实体识别场景中,首次考虑了模型在欠拟合状态下能够识别未标注公司名的特性,并使用分词模型过滤模型识别出的无用字段,提高了弱标签公司名实体识别的准确率。
-
公开(公告)号:CN119046444B
公开(公告)日:2025-05-06
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/3329
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN117312862B
公开(公告)日:2024-02-27
申请号:CN202311605593.X
申请日:2023-11-29
Applicant: 之江实验室
IPC: G06F18/214 , G06F40/242 , G06F40/284 , G06F40/216 , G06F40/268
Abstract: 本发明公开了一种基于GLM的金融事件抽取样本的生成方法及系统,包括:在语料库中查找每个事件类型对应的关键词并构建关键词字典,基于关键词字典查找每个样本中描述文本对应的关键词列表,其中关键词列表还包括每个样本对应的事件论元;基于关键词列表为每个样本查找关键词的候选替换词,构建候选替换词字典;对每个样本的原描述文本的非关键词进行掩码处理后,基于GLM对掩码处理后的描述文本进行掩码预测生成新描述文本;基于候选替换词字典将原描述文本和新描述文本中的关键词替换为候选替换词,以生成增强的金融事件抽取样本。该方法及系统能够生成质量和数量都满足要求的金融事件抽取样本数据。
-
公开(公告)号:CN117312862A
公开(公告)日:2023-12-29
申请号:CN202311605593.X
申请日:2023-11-29
Applicant: 之江实验室
IPC: G06F18/214 , G06F40/242 , G06F40/284 , G06F40/216 , G06F40/268
Abstract: 本发明公开了一种基于GLM的金融事件抽取样本的生成方法及系统,包括:在语料库中查找每个事件类型对应的关键词并构建关键词字典,基于关键词字典查找每个样本中描述文本对应的关键词列表,其中关键词列表还包括每个样本对应的事件论元;基于关键词列表为每个样本查找关键词的候选替换词,构建候选替换词字典;对每个样本的原描述文本的非关键词进行掩码处理后,基于GLM对掩码处理后的描述文本进行掩码预测生成新描述文本;基于候选替换词字典将原描述文本和新描述文本中的关键词替换为候选替换词,以生成增强的金融事件抽取样本。该方法及系统能够生成质量和数量都满足要求的金融事件抽取样本数据。
-
公开(公告)号:CN115860929A
公开(公告)日:2023-03-28
申请号:CN202210931653.6
申请日:2022-08-04
Applicant: 之江实验室 , 浙江农村商业联合银行股份有限公司
IPC: G06Q40/04 , G06F16/35 , G06F40/205 , G06F40/30 , G06F18/23 , G06F18/22 , G06F18/2433
Abstract: 本发明公开了一种基于张量分布搜索特征空间的异常交易行为检测方法,选取可能涉及到异常交易流水的n维原始数据,并对其预处理,将n维原始数据统一转化为包含多个描述金融行为的离散枚举类型属性A的n维矩阵R(A1,A2,…,An);计算得到每一条数据记录的权重X;将离散枚举类型属性A与权重X处理数据得到的多维张量R(A1,A2,…,An,X)作为当前候选数据,进行子张量搜索,在当前候选数据中选取最有可能得到异常权重分布的属性搜索当前属性组合集合与当前候选数据R权重分布差异最大的集合作为异常子张量集合,即异常交易行为集合。本发明方法增加了模型的适应性与泛化能力。对获得的不同异常子张量可进行异常度排序,提高异常挖掘效率。
-
公开(公告)号:CN115859143A
公开(公告)日:2023-03-28
申请号:CN202211424557.9
申请日:2022-11-14
Applicant: 之江实验室
IPC: G06F18/24 , H04L41/142 , H04L9/40 , G06F18/23213
Abstract: 本发明公开了基于邻域节点结构编码的图神经网络异常检测方法与装置,包括:将原始数据转换为图神经网络的输入数据,输入数据包括节点属性矩阵、邻接矩阵;从邻接矩阵抽取出结构特征并进行矩阵分解,得到节点角色特征与角色结构特征因子;将节点角色特征与其转置矩阵相乘,得到高阶邻接矩阵;将节点属性矩阵与邻接矩阵、节点属性矩阵与高阶邻接矩阵分别输入图神经网络,得到节点角色语义潜变量和节点角色语义潜变量;并进行动态加权,得到最终节点表示,将其输入至激活函数,训练图神经网络,直至图神经网络收敛,将激活函数的输出向量中概率最高的标签作为分类结果即异常类别,异常类别对应的节点即为检测到的异常目标。
-
公开(公告)号:CN115048940A
公开(公告)日:2022-09-13
申请号:CN202210724689.7
申请日:2022-06-23
Applicant: 之江实验室
IPC: G06F40/30 , G06F40/58 , G06F40/295 , G06F40/242 , G06Q40/06
Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。
-
-
-
-
-
-
-
-
-