利用DialoGPT作为特征标注器的对话摘要生成系统

    公开(公告)号:CN113204627B

    公开(公告)日:2022-08-23

    申请号:CN202110522932.2

    申请日:2021-05-13

    Abstract: 利用DialoGPT作为特征标注器的对话摘要生成系统,本发明涉及对话摘要生成系统。本发明是为了解决现有对话摘要生成方法对话摘要获取耗时耗力,效率差,准确率低的问题。系统包括:所述数据采集模块用于获取数据集;所述对话预训练模块用于获取DialoGPT;所述对话预处理模块将对话处理为上下文回复对以及对话序列;所述预测损失及对话上下文的表示模块用于得到预测损失以及对话上下文的表示形式;所述标注模块用于标记对话;所述摘要生成模块生成目标摘要;当生成的目标摘要符合要求,则将待处理数据集经过处理,处理后输入摘要生成器生成待处理数据集的目标摘要。本发明用于自然语言处理领域。

    一种引入推理机制的文本生成方法

    公开(公告)号:CN111310927B

    公开(公告)日:2022-04-15

    申请号:CN202010061962.3

    申请日:2020-01-19

    Abstract: 一种引入推理机制的文本生成方法,本发明涉及文本生成方法。本发明的目的是为了解决现有数据生成文本中数据信息推理表格信息中隐含信息准确率低的问题。过程为:一、用#号替换表格数据信息对应的新闻报告中能推理的数字;二、得到同一实体的总体表示;三、采用解码器LSTM对得到的同一实体的总体表示进行解码,生成每个三元组的权重;解码器根据三元组权重生成具体的文字;若生成的文字是#号,触发推理按钮,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换#号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;得到神经网络网格推理模型。本发明用于NLP领域数据到文本领域。

    面向金融领域的文档级事件主体对抽取的方法、存储介质及设备

    公开(公告)号:CN114168727A

    公开(公告)日:2022-03-11

    申请号:CN202111481843.4

    申请日:2021-12-06

    Abstract: 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备,属于信息技术领域。为了解决现有的基于句子级的事件抽取的方法不能很好的应用于金融领域内文档的事件抽取,从而存在提取事件信息的性能较低的问题。本发明首先将文档按句进行分割,将第i个句子基于字通过词典映射成句子id,并将句子通过第一个字的Embedding矩阵,然后输入BERT,取其最后一层的编码得到句子中的每个token的编码并得到特征向量C;根据每个事件类型获取对应的t,获取文档级上下文表示eglobal;将每个token的hi,j拼接C、t和eglobal;最后基于前馈神经网络和CRF得到标注结果并最终得到主体对。主要用于金融领域的文档级事件主体对抽取。

    一种基于文本的消费意图分析方法

    公开(公告)号:CN113095088B

    公开(公告)日:2022-03-04

    申请号:CN202110485144.0

    申请日:2021-04-30

    Abstract: 一种基于文本的消费意图分析方法,它属于消费意图分析技术领域。本发明解决了由于现有方法忽略了彼此相距较远的节点的结构相似性,导致对消费意图分析的准确度低的问题。本发明提出的技术将任务描述为一个异构图推理任务,以充分利用全局连接信息,使用节点聚合机制来捕获语义特征,使用元结构来显式地建模远距离节点之间的拓扑结构相似性,考虑了远距离节点之间的拓扑结构相似性后,可以大幅提高消费意图分析结果的准确度。本发明可以应用于消费意图分析。

    利用DialoGPT作为特征标注器的对话摘要生成系统

    公开(公告)号:CN113204627A

    公开(公告)日:2021-08-03

    申请号:CN202110522932.2

    申请日:2021-05-13

    Abstract: 利用DialoGPT作为特征标注器的对话摘要生成系统,本发明涉及对话摘要生成系统。本发明是为了解决现有对话摘要生成方法对话摘要获取耗时耗力,效率差,准确率低的问题。系统包括:所述数据采集模块用于获取数据集;所述对话预训练模块用于获取DialoGPT;所述对话预处理模块将对话处理为上下文回复对以及对话序列;所述预测损失及对话上下文的表示模块用于得到预测损失以及对话上下文的表示形式;所述标注模块用于标记对话;所述摘要生成模块生成目标摘要;当生成的目标摘要符合要求,则将待处理数据集经过处理,处理后输入摘要生成器生成待处理数据集的目标摘要。本发明用于自然语言处理领域。

    一种基于实体连通图的事件模版构造方法

    公开(公告)号:CN107862037B

    公开(公告)日:2021-07-16

    申请号:CN201711071987.6

    申请日:2017-11-03

    Abstract: 一种基于实体连通图的事件模版构造方法,本发明涉及事件模板的构造方法。本发明的目的是为了解决现有技术在针对特定事件的“检索”、“问答”等人工智能应用中识别结果及提取特定信息不准确;基于事件的篇章相似度难以定量计算以及篇章关键信息难以提取的问题。过程为:一、对每一句抽取三元组;二、视三元组中的三个元素为三个结点;三、将从文本中抽取到的结点均放入到集合S1中;四、利用词向量计算S1中任两个结点的相似度并依此生成连通图;五、计算各结点的PageRank值;六、确定两篇文本陈述的事件间的关系度量值;七、形成多个文本簇;八、构建粗粒度事件模板和细粒度事件模版。本发明用于篇章关键信息提取及相关度计算领域。

    一种基于多模型融合的抽取式文本摘要生成方法

    公开(公告)号:CN110929024B

    公开(公告)日:2021-07-02

    申请号:CN201911262119.5

    申请日:2019-12-10

    Abstract: 一种基于多模型融合的抽取式文本摘要生成方法,本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题。过程为:一、将每个句子的词向量输入双向双层LSTM,输出全文中的每一个句子的特征表示;二、将句子的特征表示按文章顺序输入双向双层LSTM,输出隐层序列,并利用最大池化层得到池化后的向量作为全文的特征表示;三、构建序列预测模型架构;四、构建分段联合序列预测摘要模型;五、构建编码器解码器模型;六、构建加入强化学习机制的编码器解码器联合训练模型;七、使用模型融合方法生成文本摘要。本发明用于抽取式文本摘要领域。

    一种识别敏感信息的方法及装置

    公开(公告)号:CN112560472A

    公开(公告)日:2021-03-26

    申请号:CN201910918780.0

    申请日:2019-09-26

    Abstract: 本申请是关于一种识别敏感信息的方法及装置,属于信息处理领域。所述方法包括:获取待识别的文本信息中包括的m个词语的词向量,第一词语的词向量是所述第一词语的语义表示,所述第一词语是所述m个词语中的一个,m为大于1的整数;基于所述第一词语的词向量和第二词语的词向量生成所述第一词语的隐层向量,所述第二词语是与所述第一词语前后相邻的词语,所述第一词语的隐层向量是所述第一词语的语义表示和上下文信息的语义表示;根据所述m个词语的隐层向量识别所述文本信息是否为敏感信息。本申请能够提高识别敏感信息的精度。

    一种基于预训练的结构化数据生成文本的方法

    公开(公告)号:CN110609986A

    公开(公告)日:2019-12-24

    申请号:CN201910940399.4

    申请日:2019-09-30

    Abstract: 一种基于预训练的结构化数据生成文本的方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决在结构化数据生成文本上,现有模型对表格数据进行建模时,没有考虑数据之间的内在隐含关系,导致文本生成准确率低的问题。过程为:一、随机MASK掉若干个三元组中一个三元组中的一个数据,用@代替;根据表格中数据间具有的计算序列关系得到表征@隐去的计算序列;二、得到表格中同一行的所有记录均值池化后的行向量;三、得到预训练模型,保留预训练模型的参数;四:得到表格行向量;五:验证步骤三的预训练模型;六:得到对表格中同一行的所有记录进行均值池化后的行向量;七:得到表格中数据代表的信息。本发明用于生成文本领域。

    基于大语言模型的基因报告解读系统

    公开(公告)号:CN119493847A

    公开(公告)日:2025-02-21

    申请号:CN202411647397.3

    申请日:2024-11-18

    Abstract: 基于大语言模型的基因报告解读系统,本发明涉及基因报告解读系统,属于计算机技术领域。本发明的目的是为了解决现有基于大语言模型的基因报告解读方法在解读过程中可能出现的信息不准确性、相关性不足或信息虚构等问题。系统包括:用户界面初始化模块用于将用户界面设置为消息输入框、文件上传选项、清除对话选项、界面显示风格选项;大语言模型初始化模块用于选取通用的开源大语言模型;基因检测报告处理模块用于解析用户上传的PDF文件的内容,得到字符串;对字符串提出提问,对提问进行标准化处理,得到标准化处理后的提问;问题回复模块用于对标准化处理后的提问进行回复;界面显示模块用于对回复进行处理获得背景信息,呈现在用户界面上。

Patent Agency Ranking