一种基于图算法的企业识别方法,装置、设备及存储介质

    公开(公告)号:CN117708394A

    公开(公告)日:2024-03-15

    申请号:CN202311704818.7

    申请日:2023-12-12

    摘要: 本申请公开了一种基于图算法的企业识别方法,装置、设备及存储介质,涉及计算机技术领域,包括:基于采集的目标企业数据构建企业无向图,并确定企业无向图关联的目标企业子图,以通过预设图算法对目标企业子图进行社群划分,得到与目标企业对应的若干关联企业子团;分别构若干关联企业子团对应的若干特征信息,并基于若干特征信息以及历史成交数据生成样本集;利用样本集以及历史未成交数据对待训练企业预测模型进行训练,以通过得到的训练后企业预测模型对若干关联企业子团进行购买意向预测,以识别具有购买意向的目标企业子团。这样一来,可以通过图算法构建并筛选样本,并且可以基于构建的特征从企业的关联企业中筛选出具有购买意向的企业。

    基于LLaMA的财税问答模型构建方法、装置、设备及介质

    公开(公告)号:CN117076631A

    公开(公告)日:2023-11-17

    申请号:CN202311024423.2

    申请日:2023-08-15

    摘要: 本申请公开了一种基于LLaMA的财税问答模型构建方法、装置、设备及介质,涉及模型训练领域,包括:通过低阶自适应技术利用预设中文训练集对预设LLaMA‑7B模型进行微调,以得到通用中文语言大模型;获取预设财税数据,并基于预设过滤规则对所述财税数据进行数据过滤,以得到过滤后财税数据;对过滤后财税数据进行分词处理,以将所述过滤后财税数据切分为若干分词结果序列,并基于所述分词结果序列创建中文财税训练集;基于所述中文财税训练集对所述通用中文语言大模型进行训练,以得到基于LLaMA的目标财税问答模型。这样一来,可以基于收集的财税语料在垂直领域对模型进行训练,减小模型训练难度,得到应用于财税行业专项领域的问答模型。

    基于规则引擎的数据处理方法、装置、设备及存储介质

    公开(公告)号:CN114996319B

    公开(公告)日:2022-11-04

    申请号:CN202210913579.5

    申请日:2022-08-01

    IPC分类号: G06F16/2455 G06F16/2457

    摘要: 本申请公开了一种基于规则引擎的数据处理方法、装置、设备及存储介质,涉及计算机软件开发技术领域。该方法包括:获取不同的数据源以统一的数据装填格式进行装填后确定出的元数据和预设业务规则;其中,所述元数据为用于记录与所述预设业务规则相关的本体以及利用所述元数据中的目标本体进行聚合确定出相应的衍生指标的元数据;所述目标本体为根据用户需求从所述元数据中选择的本体;通过预设数据获取方式获取与所述元数据对应的相关数据,并将所述相关数据装载为对应的实体;根据所述预设业务规则对所述实体进行批量的规则运算,以返回相应的处理结果。通过本申请的技术方案,可以提升规则运算效率,提高规则引擎的适用范围。

    一种知识检索方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN112445904A

    公开(公告)日:2021-03-05

    申请号:CN202011473133.2

    申请日:2020-12-15

    摘要: 本发明公开了一种知识检索方法,该方法包括以下步骤:接收待检索的目标输入内容;通过ElasticSearch搜索引擎根据目标输入内容对预置知识库进行知识检索,得到知识候选集;利用word2vec词向量模型计算目标输入内容的第一句向量;获取知识候选集中各候选知识分别对应的第二句向量;分别计算各第二句向量与第一句向量的相似度;利用lambdaRank模型根据各相似度对各候选知识进行排序,得到知识检索结果;其中,lambdaRank模型为根据历史检索记录进行训练得到。应用本发明所提供的知识检索方法,较大地提高了知识检索结果的准确性。本发明还公开了一种知识检索装置、设备及存储介质,具有相应技术效果。

    一种跨语言机器学习方法及系统

    公开(公告)号:CN112269567A

    公开(公告)日:2021-01-26

    申请号:CN202011208898.3

    申请日:2020-11-03

    IPC分类号: G06F8/30 G06N20/00

    摘要: 本发明公开了一种跨语言机器学习方法及系统,应用于以web服务的形式形成的机器学习平台,根据机器学习算法的各算法流程,生成算法流程图框架;根据各算法流程各自对应的具体操作步骤,一一为算法流程图框架上的各流程节点配置相应的算法描述;遍历算法流程图框架上的各流程节点,生成节点执行顺序,并按照节点执行顺序分别将各流程节点配置的算法描述自主翻译成python代码,得到用python代码表示的机器学习算法,以利用此机器学习算法实现机器学习。可见,本申请既能让web服务系统选择最常用的java语言,又能让机器学习算法的实现使用python语言,从而发挥了两种语言的生态优势。

    一种企业发票数量预测方法、装置、设备及存储介质

    公开(公告)号:CN117744882A

    公开(公告)日:2024-03-22

    申请号:CN202311828790.8

    申请日:2023-12-27

    摘要: 本申请公开了一种企业发票数量预测方法、装置、设备及存储介质,涉及税务管理技术领域,包括:获取历史企业发票数据,并对所述历史企业发票数据进行数据预处理操作以得到发票训练数据;将所述发票训练数据输入至预设Pyraformer网络中,并通过所述预设Pyraformer网络中的粗尺度构建模块、注意力模块和预测模依次对所述发票训练数据进行处理、进行线性计算以得到目标发票数量预测模型,以便利用所述目标发票数量预测模型对企业的发票数量进行预测。这样一来,利用Pyraformer网络的特性,考虑到各发票数据内部的时间规律生成发票数量预测模型进行企业发票数量的预测可以提高预测结果的准确度。

    一种商品推荐方法、装置、设备及存储介质

    公开(公告)号:CN117635238A

    公开(公告)日:2024-03-01

    申请号:CN202311782104.8

    申请日:2023-12-22

    摘要: 本申请公开了一种商品推荐方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取目标企业输入的商品检索数据;利用基于DSSM双塔模型创建的编码模型对商品检索数据进行编码得到检索向量;计算检索向量和编码向量集合中各编码向量的相似度得到相似度值;对相似度值进行排序,并从排序后相似度中获取预设数量个相似度值,得到与目标企业相似的企业集合;对企业集合中各企业购买过的商品的购买频次进行统计得到频次统计结果,并对频次统计结果进行排序,再从排序后购买频次中获取预设数量个频次统计结果,并将预设数量个频次统计结果对应的商品推荐给目标企业。本申请能够提高商品推荐的准确度,不依赖于人工经验,适用于商品特征较少的场景。

    一种应用于会计科目的数据预测方法、装置、设备及介质

    公开(公告)号:CN117313827A

    公开(公告)日:2023-12-29

    申请号:CN202311336998.8

    申请日:2023-10-12

    摘要: 本申请公开了一种应用于会计科目的数据预测方法、装置、设备及介质,涉及人工智能领域,包括:获取待预测数据,对待预测数据进行清洗,基于预设的模型预测输入数据的格式以及清洗后数据确定输入数据;将输入数据输入基于Dice Loss的目标模型中进行预测,获取第一预测标签及第一预测概率;将输入数据输入基于BERT‑Attack对抗训练策略的目标模型中进行预测,获取第二预测标签及第二预测概率;将输入数据输入基于多轮欠采样的目标模型中进行预测,获取第三预测标签及第三预测概率;判断各预测标签是否相同,根据判断结果输出相应的目标预测标签以及目标预测概率。由此,本申请能够有效解决训练模型样本标签分布不均衡的情况。

    一种屏摄表单图像文本识别方法、装置、设备及存储介质

    公开(公告)号:CN117095417A

    公开(公告)日:2023-11-21

    申请号:CN202311076101.2

    申请日:2023-08-24

    摘要: 本申请公开了一种屏摄表单图像文本识别方法、装置、设备及存储介质,涉及图像识别技术领域,包括:将目标屏摄表单图像输入至预设摩尔纹消除模型以得到去掉摩尔纹的第一目标像素矩阵,并对所述第一目标像素矩阵进行曝光处理以确定与所述目标屏摄表单图像上的目标表单区域对应的第二目标像素矩阵;将所述第二目标像素矩阵输入至预设表格检测模型以得到目标单元格顶点坐标,并基于所述目标单元格顶点坐标确定单元格像素矩阵;对所述单元格像素矩阵中的单元格进行拼接得到目标图像,利用预设光学字符识别技术对所述目标图像进行文本检测得到所述目标表单区域上的文本。这样一来,实现了自动化的图像校准和文字识别,减少了人工干预,提高了识别效率。

    一种大语言模型训练方法、装置、设备及存储介质

    公开(公告)号:CN117332791A

    公开(公告)日:2024-01-02

    申请号:CN202311624845.3

    申请日:2023-11-30

    摘要: 本申请公开了一种大语言模型训练方法、装置、设备及存储介质,涉及大语言模型领域,包括:获取初始语料数据并进行数据清洗得到目标语料数据,以创建第一训练数据集;将P‑Tuning v2模块嵌入预训练语言大模型的适配器模块,并基于第一训练数据集对适配器模块进行训练;基于第一训练数据集构建第二训练数据集,并在底座大模型中嵌入预设门控模块;基于第二训练数据集对预设门控模块进行训练,在预训练语言大模型收敛后停止训练。通过将P‑Tuning v2模块嵌入预训练语言大模型的适配器模块,和基于前置的门控模块改造预训练的底座模型,将训练流程变成二段式,实现模型动态控制激活适配器参数,达到输出结果更稳定、泛化的目的。