一种将文本标注成表格的标注系统方法

    公开(公告)号:CN113761044A

    公开(公告)日:2021-12-07

    申请号:CN202111001283.8

    申请日:2021-08-30

    摘要: 一种将文本标注成表格的标注系统方法,它涉及一种标注方法。它通过导入数据模块,通过前端交互界面,将需要标注的文本数据、标签导入到后台数据库,采用两步标注方法,第一步采用传统的系列标注方法,对文本中的核心要素进行标注,确定要素的起始位置、要素内容以及要素的标签信息,并将结果传入到后台数据库,同时将要素的内容和索引ID以及标签返回到前端交互界面,第二步是结构化标注,基于回传的要素内容和标签,通过勾选加确定的交互方式,生成表格列表,再次通过索引ID进行各行数据的关联,展示成表格形态,确定表格数据无误则导入到数据库,完成一条文本的标注任务。本发明通过与Excel相比,极大提升了标注效率以及减少了错误的情况。

    一种将文本结构化为表格的深度学习模型装置

    公开(公告)号:CN113761131A

    公开(公告)日:2021-12-07

    申请号:CN202111045093.6

    申请日:2021-09-07

    摘要: 一种将文本结构化为表格的深度学习模型装置,它涉及数据处理技术领域。它包括以下具体步骤:预处理;数据预处理、数据清洗、文本分词、形成字符和词及表格行标签;词向量化;字符编码层;字符编码和词编码的连接层;列信息的预测;行信息的预测的前处理;行信息的预测;总loss函数的设置。本发明有益效果为:提出了一种多任务的神经网络,通过一个模型,直接将非结构文本转换为表格数据。在金融的数据领域,达到了商业化的标准,且相比于Pipeline的形式,其提高了3‑5个百分点,降低了pipeline的误差传递的问题。

    一种将金融文本结构化为表格的深度学习模型装置

    公开(公告)号:CN113326676A

    公开(公告)日:2021-08-31

    申请号:CN202110415793.3

    申请日:2021-04-19

    摘要: 一种将金融文本结构化为表格的深度学习模型装置,它包含以下步骤技术方案:步骤一,预处理,数据清洗,文本分词、形成字符和词,表格行标签;步骤二,词向量化;步骤三,字符编码层;步骤四,字符编码和词编码的连接层;步骤五,列信息的预测;步骤六,行信息的预测的前处理;步骤七,行信息的预测;步骤八,总loss函数的设置。通过一个模型,直接将非结构文本转换为表格数据,在金融的数据领域,达到了商业化的标准,相比于Pipeline的形式,其提高了3‑5个百分点,降低了pipeline的误差传递的问题。

    一种一套金融交易对话信息分析技术方案

    公开(公告)号:CN113239188A

    公开(公告)日:2021-08-10

    申请号:CN202110427364.8

    申请日:2021-04-21

    摘要: 一种一套金融交易对话信息分析技术方案,它涉及信息分析技术领域。它由通用化配置模块、过滤模块、分类模块、解析模块、结构化模块、标准化模块、校验模块、数据模块组成,所述通用化配置模块连接过滤模块,所述通用化配置模块依据不同的业务需要,将基于文本、业务,自动配置数据处理并定义配置表,过滤模块连接分类模块。它通过单轮分类器配合上下文分类器,针对语境不明朗的情况,能够提升分类器的准确率,然后通过将“过滤、分类、解析、结构化、标准化和校验”的各个模块完整的融合为一套系统,具有一定的容错设计,能够保障在金融领域这种对准确率要求很高的行业使用,达到了商用的水平。

    一种融合规则的文本数字抽取装置

    公开(公告)号:CN113239659A

    公开(公告)日:2021-08-10

    申请号:CN202110427381.1

    申请日:2021-04-21

    摘要: 一种融合规则的文本数字抽取装置,它涉及金融技术领域,它包括信息输出层模块、解码层模块、标签融合层模块、编码层模块、预处理提取模块,所述预处理提取模块连接编码层模块,所述编码层模块与标签融合层模块相连接,所述标签融合层模块通过解码层模块与信息输出层模块相连接本发明有益效果为:对有大量数字类数据的文本抽取,在针对金融领域的数据抽取中准确率能提升%‑%以上,针对金融行业,对算法模型要求高的行业中,使其信息抽取准确率更好的达到商用的标准。

    一种基于知识图谱的金融文本联合抽取分类方案

    公开(公告)号:CN113821636A

    公开(公告)日:2021-12-21

    申请号:CN202110992343.0

    申请日:2021-08-27

    摘要: 一种基于知识图谱的金融文本联合抽取分类方案,它涉及文本数据处理技术领域。它包含1)文本预训练模块,采用(包括但不限于)Bert等比较成熟的预训练模型,对文本进行预训练编码,获得固定维度的字符或词向量;2)数值定制化编码模块,传统的预训练针对数值编码,都采用与文本字符相同的编码方式。本发明首先构建了一套绸密的数值编码预训练模型,用于对文本中的数值信息进行预编码,其次是构建了一个融合无监督知识图谱的self‑attention网络层,作为文本编码和数值编码的融合训练学习层,整体系统实现了对金融债券交易意图识别和要素提取任务,对富含数值数据的任务中整体准确率提升了2%‑5%以上,具有较大的市场推广价值。

    一种半结构文本的信息提取装置

    公开(公告)号:CN113326690A

    公开(公告)日:2021-08-31

    申请号:CN202110414726.X

    申请日:2021-04-17

    摘要: 一种半结构文本的信息提取装置,它涉及AI技术领域,具体涉及一种半结构文本的信息提取装置。它包括了对句子的分词和结构提取;编码层模块,采用Albert或LSTM对文本的字符进行embedding;图注意力网络结构层,用于将融合了“结构特征”的词向量融合到“字符”向量的表达上;不同粒度特征的聚合层,采用transformer的decoder方式进行聚合;解码层,采用成熟的CRF算法,对编码结果R进行解码,获得最终序列标注的结果。采用上述技术方案后,本发明有益效果为:它能够实现对文本中“结构特征”的学习,在针对金融领域的数据抽取中能提升2%‑5%以上的准确率。

    一种将非结构金融Excel表格映射到数据库的优化系统

    公开(公告)号:CN113761202A

    公开(公告)日:2021-12-07

    申请号:CN202111000985.4

    申请日:2021-08-30

    摘要: 一种将非结构金融Excel表格映射到数据库的优化系统,它涉及数据处理技术领域。它包括以下具体流程:提供一个标准的excel文件输入服务接口,接收excel表格数据;判断excel中存在几个sheet文件,对每个sheet文件进行如下操作:依次对每个sheet进行操作;对单个sheet文件依次进行操作;构建一套神经网络模型,将每列的列名和内容整合,通过神经网络模型,预测没列信息和数据库中列名的映射关系;将结果写入到结构数据库。本发明有益效果为:实现了对Excel表格中非结构信息的标准化,并且依据表格中的数据将其映射到数据库的对应列,在金融业务中达到96%‑98%的准确率,基本满足商用要求。

    一种强化自注意力的债券交易意图识别系统

    公开(公告)号:CN113761106A

    公开(公告)日:2021-12-07

    申请号:CN202111048039.7

    申请日:2021-09-08

    摘要: 一种强化自注意力的债券交易意图识别系统,它涉及数据处理技术领域。它包括以下具体流程:构建一个知识库模块来存储预处理的关系库;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self‑attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。

    一种基于图注意力的半结构文本分类方案

    公开(公告)号:CN113312477A

    公开(公告)日:2021-08-27

    申请号:CN202110415787.8

    申请日:2021-04-19

    IPC分类号: G06F16/35

    摘要: 一种基于图注意力的半结构文本分类方案,它包含以下技术方案步骤:步骤一,文本预处理、数据清洗,形成图矩阵;步骤二,形成编码层,采用albert预训练模型获取embedding矩阵;步骤三,对embedding矩阵进行attention操作,并基于图矩阵进行加权计算;步骤四,对特征向量矩阵压缩后进行文本分类。针对金融领域文本分类问题,尤其是在半结构化的文本的情况下,寻常的分类器无法结合结构化信息进行识别,给出一种提取结构信息并且融入到分类系统中,对最终的分类器准确率提升是行之有效的,同时针对模型结构,尤其是取末尾几层transformer、跨句间结构权重比同句内更高、multi‑headattention等步骤,大大提高了信息表征抽取的能力,从而增加最后softmax分类的准确率,具有较大的市场推广价值。