-
公开(公告)号:CN114510924B
公开(公告)日:2022-09-20
申请号:CN202210133050.1
申请日:2022-02-14
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/289 , G06F40/30 , G06F16/35
Abstract: 一种基于预训练语言模型的文本生成方法,它属于自然语言处理技术领域。本发明解决了现有加权解码的可控生成方法无法在保证生成文本质量的前提下达到理想风格强度的问题。本发明提出了能够动态调节控制器权重的加权解码框架,该框架使用了一个规整模块,能够根据当前解码位置的语言模型信息对控制器的行为进行约束。如果当前解码位置不适合生成包含目标风格的词语时,规整模块会抑制控制器并使其失效;如果当前解码位置可以生成与目标风格相关的词语时,规整模块会增强控制器并确保在该解码位置生成的词语包含目标风格。本发明方法可以应用于可控文本生成。
-
公开(公告)号:CN110738026B
公开(公告)日:2022-04-19
申请号:CN201911012473.2
申请日:2019-10-23
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学
IPC: G06F40/166 , G06F40/126 , G06F40/289 , G06N3/04
Abstract: 本文描述了一种用于生成描述文本的方法和设备。所述方法包括:将关键词序列以及具有预定风格的参考文本输入经训练的神经网络,其中所述神经网络包括关键词编码器、文本编码器、互注意力编码器以及解码器;利用关键词编码器对关键词序列进行编码以得到关键词序列的隐层状态序列;利用文本编码器对参考文本进行编码以得到参考文本的隐层状态序列;利用互注意力编码器对关键词序列的隐层状态序列和参考文本的隐层状态序列进行编码以得到融合了预定风格的关键词序列的隐层状态序列;利用解码器对融合了预定风格的关键词序列的隐层状态序列进行解码以输出具有所述预定风格的描述文本。
-
公开(公告)号:CN112148863A
公开(公告)日:2020-12-29
申请号:CN202011104023.9
申请日:2020-10-15
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F40/295 , G06N3/04
Abstract: 一种融入常识知识的生成式对话摘要方法,属于自然语言处理领域。本发明解决了现有生成式对话摘要方法未利用常识知识而导致生成的对话摘要不准确,抽象性低的问题。本发明方法包括:获取常识知识库ConceptNet与对话摘要数据集SAMSum;利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,构建异构对话图;练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。本发明应用于对话摘要的生成。
-
公开(公告)号:CN110516213A
公开(公告)日:2019-11-29
申请号:CN201910828514.9
申请日:2019-09-03
Applicant: 哈尔滨工业大学
Abstract: 一种基于表格层次化建模的结构化数据生成文本方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决现有结构化数据生成文本只利用了数据本身单一信息,无法衡量实体数据整体情况以及同类型数据的表现差异和多表格数据之间的利用不充分问题。一、将数据集的记录用三元组表示,分别对每条记录所属的行、列维度建模得到该记录的行向量、列向量,并引入时间轴,对不同日期的同类型数据建模得到该记录的时间向量;二、融合行向量、列向量和时间向量得到该记录新的向量表示;三、对每行记录的新向量进行均值池化得到新行向量;四、每个解码时刻,对三得到的向量进行解码,得到当前时刻每条记录的权重。本发明用于表格数据生成文本方法。
-
公开(公告)号:CN111400489A
公开(公告)日:2020-07-10
申请号:CN202010269479.4
申请日:2020-04-08
Applicant: 科大讯飞股份有限公司 , 哈尔滨工业大学
IPC: G06F16/34
Abstract: 本发明实施例提供一种对话文本摘要生成方法、装置、电子设备和存储介质,其中方法包括:确定对话文本;将所述对话文本中每一发言人对应的分句输入至对话文本摘要模型中,得到所述对话文本摘要模型输出的所述对话文本对应的摘要;所述对话文本摘要模型用于确定所述对话文本中每一发言人的先验发言人特征表示,并基于所述对话文本中每一发言人对应的分句和先验发言人特征表示,生成所述对话文本对应的摘要;所述对话文本摘要模型是基于样本对话文本中每一发言人对应的样本分句,以及所述样本对话文本的样本摘要训练得到的。本发明实施例提供的对话文本摘要生成方法、装置、电子设备和存储介质,提高了对话文本摘要生成的准确性。
-
公开(公告)号:CN114510924A
公开(公告)日:2022-05-17
申请号:CN202210133050.1
申请日:2022-02-14
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/289 , G06F40/30 , G06F16/35
Abstract: 一种基于预训练语言模型的文本生成方法,它属于自然语言处理技术领域。本发明解决了现有加权解码的可控生成方法无法在保证生成文本质量的前提下达到理想风格强度的问题。本发明提出了能够动态调节控制器权重的加权解码框架,该框架使用了一个规整模块,能够根据当前解码位置的语言模型信息对控制器的行为进行约束。如果当前解码位置不适合生成包含目标风格的词语时,规整模块会抑制控制器并使其失效;如果当前解码位置可以生成与目标风格相关的词语时,规整模块会增强控制器并确保在该解码位置生成的词语包含目标风格。本发明方法可以应用于可控文本生成。
-
公开(公告)号:CN114444466A
公开(公告)日:2022-05-06
申请号:CN202011196905.2
申请日:2020-10-31
IPC: G06F40/211 , G06F40/284 , G06F40/30
Abstract: 本申请实施例公开了一种长句压缩方法,本申请实施例方法包括:数据处理设备获取原始长句后,根据BERT模型处理原始长句,得到BERT长句,其中BERT长句的内容和原始长句的内容一一对应,BERT长句的内容利用BERT模型中的多层数据,数据处理设备通过预置算法处理该BERT长句,得到压缩后的目标长句,根据本申请实施例提供的技术方案,对原始长句进行压缩时,利用BERT模型中的多层数据,提高了压缩后目标长句的准确率。
-
公开(公告)号:CN110609986B
公开(公告)日:2022-04-05
申请号:CN201910940399.4
申请日:2019-09-30
Applicant: 哈尔滨工业大学
IPC: G06F40/126 , G06F40/18 , G06F40/205 , G06N3/04 , G06N3/08
Abstract: 一种基于预训练的结构化数据生成文本的方法,本发明涉及结构化数据生成文本方法。本发明的目的是为了解决在结构化数据生成文本上,现有模型对表格数据进行建模时,没有考虑数据之间的内在隐含关系,导致文本生成准确率低的问题。过程为:一、随机MASK掉若干个三元组中一个三元组中的一个数据,用@代替;根据表格中数据间具有的计算序列关系得到表征@隐去的计算序列;二、得到表格中同一行的所有记录均值池化后的行向量;三、得到预训练模型,保留预训练模型的参数;四:得到表格行向量;五:验证步骤三的预训练模型;六:得到对表格中同一行的所有记录进行均值池化后的行向量;七:得到表格中数据代表的信息。本发明用于生成文本领域。
-
公开(公告)号:CN107967257B
公开(公告)日:2021-01-12
申请号:CN201711160875.8
申请日:2017-11-20
Applicant: 哈尔滨工业大学
IPC: G06F40/35 , G06F40/211 , G06F16/35
Abstract: 本发明涉及一种级联式作文生成方法,是为了解决现有技术仅针对作文评分进行研究,未出现关于作文生成方法的研究,以及已有的主题分析技术很难对作文的题目进行分析的缺点而提出的。本发明用一个或多个话题词表示待生成作文的中心思想;得到话题词后,将作文生成分解为话题词扩充、句子抽取和篇章组织;话题词扩展后,利用句子抽取模块寻找与话题词相关的句子,并最终使用篇章组织模块对抽取获得的句子排序,使之成为连贯的整体。本发明还可以从已抽取的句子集合中挖掘词语对已有的话题词进行补充。本发明适用于自动作文生成。
-
公开(公告)号:CN111310927A
公开(公告)日:2020-06-19
申请号:CN202010061962.3
申请日:2020-01-19
Applicant: 哈尔滨工业大学
Abstract: 一种引入推理机制的文本生成方法,本发明涉及文本生成方法。本发明的目的是为了解决现有数据生成文本中数据信息推理表格信息中隐含信息准确率低的问题。过程为:一、用#号替换表格数据信息对应的新闻报告中能推理的数字;二、得到同一实体的总体表示;三、采用解码器LSTM对得到的同一实体的总体表示进行解码,生成每个三元组的权重;解码器根据三元组权重生成具体的文字;若生成的文字是#号,触发推理按钮,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换#号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;得到神经网络网格推理模型。本发明用于NLP领域数据到文本领域。
-
-
-
-
-
-
-
-
-