一种基于外部知识增强的故事生成方法及系统

    公开(公告)号:CN117763154A

    公开(公告)日:2024-03-26

    申请号:CN202211159343.3

    申请日:2022-09-22

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于外部知识增强的故事生成方法及系统。本方法为:构造一知识库#imgabs0#包括目标领域内的知识集合#imgabs1#和通用的知识集合#imgabs2#所述知识库#imgabs3#内每条知识均为一真实故事文本;将每条所述知识划分为两部分:索引部分和扩展部分;知识检索模块根据输入的提示x从所述知识库#imgabs4#中检索到匹配的索引,将每一匹配的索引对应的扩展部分作为候选知识,从各所述候选知识中选取若干关键词作为外部知识;知识选择模块根据输入x和所述候选知识为每个所选关键词预测一个分数,然后根据各关键词的预测分数选取用于故事生成的知识;故事生成模块根据所选取用于故事生成的知识,生成故事文本y;然后x和y拼接成一个连贯的故事。

    获取文本时间线摘要的方法及系统

    公开(公告)号:CN115221312A

    公开(公告)日:2022-10-21

    申请号:CN202210803029.8

    申请日:2022-07-07

    Applicant: 北京大学

    Abstract: 本发明公开一种获取文本时间线摘要的方法及系统,涉及自然语言处理技术领域,在生成式摘要部分,编码器端负责读取包含多个时间节点的事件文档,获得单词级别和事件级别的文档表示,并建模输入的多事件之间的关系;解码器端用新的词组和短语概括输入文档的大意,输出生成式摘要;在抽取式摘要部分用迭代方法获得更好的文章和句子表示,最终获得抽取式摘要。本发明通过构建一个统一的时间线摘要生成模型,可以按时间顺序输出能够正确总结原文中相关信息的两种时间线摘要即生成式摘要和抽取式摘要。

    一种基于多语言建模的低资源对话生成方法及系统

    公开(公告)号:CN113919368A

    公开(公告)日:2022-01-11

    申请号:CN202111181497.8

    申请日:2021-10-11

    Applicant: 北京大学

    Abstract: 本申请提供一种基于多语言建模的低资源对话生成方法及系统,涉及自然语言处理技术领域,对于不同语言的对话问询进行编码,通过降噪自编码器与反向翻译模块将不同语言的嵌入表示约束在同一空间,并利用单一语言对话映射与跨语言对话映射方法来学习并共享不同语言对话的共性特征;训练算法包括一个基于多目标优化算法的多任务学习框架及其相应的梯度更新方式:通过对偶问题平衡多语言表示对齐任务与多语言对话映射任务,获得两个任务目标的权重系数,并对于回传的梯度进行加权,使得模型能够收敛到更好的结果;输入包括不同语言的对话问询;输出包括对话系统生成的各个问询所对应的回复。

    一种基于转移矩阵构建关系抽取模型的方法

    公开(公告)号:CN106970981B

    公开(公告)日:2021-01-19

    申请号:CN201710193366.9

    申请日:2017-03-28

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为:1)选择基础关系抽取模型M,其输入为一个句子或描述同一对主体和客体的一组句子,其输出为输入句子或输入的一组句子所描述的关系的分布pi,并在中间结果中生成输入句子或输入的一组句子的向量表示si;2)根据si构建一个转移矩阵Ti;3)将该模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子或输入的一组句子可能被标注成的关系的分布oi;4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型。本模型可以免受噪声的影响,从而可以取得更好的关系抽取效果。

    一种图上两点间最短路径查询方法

    公开(公告)号:CN102521364B

    公开(公告)日:2014-10-15

    申请号:CN201110421889.7

    申请日:2011-12-15

    Applicant: 北京大学

    Abstract: 本发明涉及一种图上两点间最短路径查询方法,其步骤包括:1)从图上随机抽取若干点作为支点,根据各支点间的最短路径得出图上每点的中间性估计值;2)将中间性估计值大于设定值的点作为中心点,将图中各点到各中心点的最短路径信息加入图中各点的hop信息,这些中心点的集合记为Wb;3)将图去除Wb中各点后分割为若干小图Si,并得到点割集Ws;4)对于每个小图Si根据枚举出的任意两点间最短路径,得到该小图Si内的所有点的hop信息;5)根据Wb中各点到Ws中各点的最短路径得到不同小图之间的点的hop信息;6)根据图中各点的hop信息,得到用户输入的两查询点之间的最短路径。本发明的方法可行且高效,能在可接受时间内计算出大规模图上的hop信息。

    一种大规模数据集上的关系查询方法

    公开(公告)号:CN102332009A

    公开(公告)日:2012-01-25

    申请号:CN201110259125.2

    申请日:2011-09-02

    Applicant: 北京大学

    Abstract: 本发明公开了一种大规模数据集上的关系查询方法,属于语义网领域。本方法为:1)计算语义数据有向图G中只包含同一种标签的连通子图;2)合并连通子图,将有向图G划分为若干子图;3)计算合并后的每一子图中最强连通子图C,并计算其二部图;4)将所有子图C的最短路径存储到一路径集合RS中;5)记录划分的每一子图中具有标签非冗余路径的两个点的标签,得到每一子图的标签集合;6)利用标签集合判断有向图G中是否存在符合查询条件的路径;如果有,则返回查询路径结果;否则,在子图之间进行遍历,根据集合RS确定可到达目标节点的子图,然后利用该子图的标签集合返回查询路径结果。本发明支持海量数据的关系查询,并且扩展性强。

    一种电子报纸文档制作的方法和设备

    公开(公告)号:CN101751379B

    公开(公告)日:2012-01-11

    申请号:CN200810227889.1

    申请日:2008-12-02

    Abstract: 本发明的实施例公开了一种电子报纸文档制作的方法和设备,属于数字内容出版领域,所制作的电子报纸文档能够适合于在有着不同显示环境的各种手持数字设备上进行阅读。本发明实施例提供的方法包括:按照版面定制需求采用可扩展标记语言XML组织XML版次目录文档与XML版面文档;对所述XML版次目录文档与XML版面文档进行数字内容信息提取;对所述提取的数字内容信息构建包含内容数据与呈现方法的电子报纸对象;对所述构建的电子报纸对象通过对象序列化的写入机制生成电子报纸目标文档。本发明实施例制作的电子报纸对象,可以独立于目标阅读设备,适合于在各种手持数字设备上进行阅读。

    一种手持设备文字排版对齐的方法

    公开(公告)号:CN1160646C

    公开(公告)日:2004-08-04

    申请号:CN02153500.0

    申请日:2002-12-05

    Abstract: 本发明属于文字排版处理领域,具体涉及一种手持设备文字排版对齐的方法。目前,手持设备上的文字排版行尾不能对齐,经常会有违反文字禁排规则的情形,不符合文字的排版规则及人们的阅读习惯。本发明所述的方法在由字符分析器对文字流进行分析处理时,先由字符分析器中的基础字符单元分析器分析文字流中的字符单元,然后再由字符分析器中的断行模块对文字流进行断行分析,最后再由字符单元分析器中的空白分配模块采用优先分级的方式在一行文字之间分配空白,保证文字行的两端与左右边界对齐、空白在文字之间平均分配。本发明有效地解决了手持设备现有技术中所存在的行尾不能对齐及违反禁排规则的问题。

    一种基于深层卷积神经网络的自然语言问答方法

    公开(公告)号:CN107832326B

    公开(公告)日:2021-06-08

    申请号:CN201710841026.2

    申请日:2017-09-18

    Applicant: 北京大学

    Abstract: 本发明公开一种基于深层卷积神经网络的自然语言问答方法。该方法包括以下步骤:1)将自然语言问题和数据库信息集中的信息表示成具有序列结构的向量,并形成向量矩阵;2)采用深层卷积神经网络对向量矩阵进行处理,提取对应的深层语义特征;3)根据深层语义特征计算自然语言问题与数据库信息集中的信息的语义相关度;4)根据计算得出的语义相关度选择数据库信息集中的信息,生成自然语言问题的回答。本发明可以更好地提取深层概括的语义特征,精准定位支持数据信息,从而可以取得更好的自然语言问答效果。

    一种语义解析上的领域迁移方法和装置

    公开(公告)号:CN112528667A

    公开(公告)日:2021-03-19

    申请号:CN202011356225.2

    申请日:2020-11-27

    Applicant: 北京大学

    Abstract: 本发明公开了一种语义解析上的领域迁移方法和装置。本方法为:1)根据源领域的问题和标注的逻辑表达式、以及目标领域下的问题和标注的逻辑表达式,得到领域无关的中间表达式;2)以问题X为输入、中间表达式A为输出,训练序列到序列的神经网络;3)以X和A为输入、逻辑表达式Y为输出,训练序列到序列的神经网络;4)在步骤2)训练后的神经网络中输入目标领域的问题x,得到中间表达式a;然后在步骤3)训练后的神经网络中输入目标领域的问题x及其对应的中间表达式a,得到目标领域问题x的逻辑表达式y。本发明利用源领域上大量标注好的数据,通过中间表达式分离领域无关与领域相关的部分,训练目标领域的模型,能够取得很好的效果。

Patent Agency Ranking