一种基于多模态信息的论文排序方法、系统、电子设备、介质

    公开(公告)号:CN119107660A

    公开(公告)日:2024-12-10

    申请号:CN202411549300.5

    申请日:2024-11-01

    Inventor: 宋子奇 杨江 李栓

    Abstract: 本发明公开了一种基于多模态信息的论文排序方法、系统、电子设备、介质,所述方法包括:将待处理的论文PDF文档按页拆分,并将每页保存为图像数据;对每页对应的图像数据进行处理,得到每一版面区域类别以及对应的包围框坐标、文字字段;对每页中的包围框坐标进行归一化及偏移处理,对归一化及偏移处理后的包围框坐标按照从上到下、从左到右的顺序进行排序;设置无效版面区域类别,并删除,得到全文粗排序结果;设置提示词模板,将全文粗排序结果填入提示词模板后输入至大语言模型,得到全文精排序结果。

    一种适用于金融大模型的文本数据预处理方法及系统

    公开(公告)号:CN118211131A

    公开(公告)日:2024-06-18

    申请号:CN202410627083.0

    申请日:2024-05-21

    Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。

    一种基于弱标签标注文本的公司名实体识别方法

    公开(公告)号:CN115545027A

    公开(公告)日:2022-12-30

    申请号:CN202211072425.4

    申请日:2022-09-02

    Abstract: 本发明公开了一种基于弱标签标注文本的公司名实体识别方法。该方法包括:将清洗后的弱标签文本集使用通用公司名词库继续标注并切分成多个包含5000样本的文本子集;然后由BERT预训练神经网络和Softmax回归模型构建的模型在每个文本子集上进行训练,在每轮训练结束后,识别并筛选文本中的未标注公司名字段,并使用分词模型过滤无用字段。重复该步骤,直至不再产生新的未标注公司名;最后,将未标注公司名在文本集上继续标注,并将模型在最终标注的文本集上继续训练。此外,本方法在弱标签公司名实体识别场景中,首次考虑了模型在欠拟合状态下能够识别未标注公司名的特性,并使用分词模型过滤模型识别出的无用字段,提高了弱标签公司名实体识别的准确率。

    一种基于大模型的科学文献字段抽取方法及系统

    公开(公告)号:CN119046444B

    公开(公告)日:2025-05-06

    申请号:CN202411533982.0

    申请日:2024-10-31

    Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。

    基于GLM的金融事件抽取样本的生成方法及系统

    公开(公告)号:CN117312862B

    公开(公告)日:2024-02-27

    申请号:CN202311605593.X

    申请日:2023-11-29

    Inventor: 李栓 那崇宁

    Abstract: 本发明公开了一种基于GLM的金融事件抽取样本的生成方法及系统,包括:在语料库中查找每个事件类型对应的关键词并构建关键词字典,基于关键词字典查找每个样本中描述文本对应的关键词列表,其中关键词列表还包括每个样本对应的事件论元;基于关键词列表为每个样本查找关键词的候选替换词,构建候选替换词字典;对每个样本的原描述文本的非关键词进行掩码处理后,基于GLM对掩码处理后的描述文本进行掩码预测生成新描述文本;基于候选替换词字典将原描述文本和新描述文本中的关键词替换为候选替换词,以生成增强的金融事件抽取样本。该方法及系统能够生成质量和数量都满足要求的金融事件抽取样本数据。

    基于GLM的金融事件抽取样本的生成方法及系统

    公开(公告)号:CN117312862A

    公开(公告)日:2023-12-29

    申请号:CN202311605593.X

    申请日:2023-11-29

    Inventor: 李栓 那崇宁

    Abstract: 本发明公开了一种基于GLM的金融事件抽取样本的生成方法及系统,包括:在语料库中查找每个事件类型对应的关键词并构建关键词字典,基于关键词字典查找每个样本中描述文本对应的关键词列表,其中关键词列表还包括每个样本对应的事件论元;基于关键词列表为每个样本查找关键词的候选替换词,构建候选替换词字典;对每个样本的原描述文本的非关键词进行掩码处理后,基于GLM对掩码处理后的描述文本进行掩码预测生成新描述文本;基于候选替换词字典将原描述文本和新描述文本中的关键词替换为候选替换词,以生成增强的金融事件抽取样本。该方法及系统能够生成质量和数量都满足要求的金融事件抽取样本数据。

    基于邻域节点结构编码的图神经网络异常检测方法与装置

    公开(公告)号:CN115859143A

    公开(公告)日:2023-03-28

    申请号:CN202211424557.9

    申请日:2022-11-14

    Abstract: 本发明公开了基于邻域节点结构编码的图神经网络异常检测方法与装置,包括:将原始数据转换为图神经网络的输入数据,输入数据包括节点属性矩阵、邻接矩阵;从邻接矩阵抽取出结构特征并进行矩阵分解,得到节点角色特征与角色结构特征因子;将节点角色特征与其转置矩阵相乘,得到高阶邻接矩阵;将节点属性矩阵与邻接矩阵、节点属性矩阵与高阶邻接矩阵分别输入图神经网络,得到节点角色语义潜变量和节点角色语义潜变量;并进行动态加权,得到最终节点表示,将其输入至激活函数,训练图神经网络,直至图神经网络收敛,将激活函数的输出向量中概率最高的标签作为分类结果即异常类别,异常类别对应的节点即为检测到的异常目标。

    基于实体词属性特征和回译的中文金融文本数据增强方法

    公开(公告)号:CN115048940A

    公开(公告)日:2022-09-13

    申请号:CN202210724689.7

    申请日:2022-06-23

    Abstract: 本发明公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符‑实体映射关系字典;之后,使用回译的方法增强金融文本的中间文本,并使用指代字符‑实体映射关系字典还原文本中的指代字符,进而生成与原文本语义相似的新文本。此外,本方法在中文金融文本的数据增强任务中,首次关注并分析了实体词属性特征对文本数据增强结果的影响,并将不同种类的实体词属性特征分层次处理,提高了数据增强后得到文本的质量。

Patent Agency Ranking