-
公开(公告)号:CN110309170A
公开(公告)日:2019-10-08
申请号:CN201910588106.0
申请日:2019-07-02
IPC: G06F16/245 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种任务型多轮对话的复杂意图的识别方法,属于自然语言处理领域。该方法定义了多意图追踪识别的任务,引入了一整套意图转移模式集合;设计了一个门结构控制器来更好地利用对话中的信息,并在对话进行过程中识别对话当前轮次的意图。此外,该方法还可以在当前的对话意图结束时,预测出用户的下一个可能的意图,并提前提供出有用的信息。这种前摄预测的机制可以通过从其它相关意图里借取信息,一定程度上避免了冗长的对话轮次。在得到当前轮次与潜在的下一轮次的对话意图后,该方法根据人工预定义好的模板库,结合意图及信息槽进行回复生成,从而得到更加自然的对话回复结果。
-
公开(公告)号:CN110309170B
公开(公告)日:2021-04-13
申请号:CN201910588106.0
申请日:2019-07-02
IPC: G06F16/245 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种任务型多轮对话的复杂意图的识别方法,属于自然语言处理领域。该方法定义了多意图追踪识别的任务,引入了一整套意图转移模式集合;设计了一个门结构控制器来更好地利用对话中的信息,并在对话进行过程中识别对话当前轮次的意图。此外,该方法还可以在当前的对话意图结束时,预测出用户的下一个可能的意图,并提前提供出有用的信息。这种前摄预测的机制可以通过从其它相关意图里借取信息,一定程度上避免了冗长的对话轮次。在得到当前轮次与潜在的下一轮次的对话意图后,该方法根据人工预定义好的模板库,结合意图及信息槽进行回复生成,从而得到更加自然的对话回复结果。
-
公开(公告)号:CN103246728A
公开(公告)日:2013-08-14
申请号:CN201310170296.7
申请日:2013-05-10
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种基于文档词汇特征变化的突发事件检测方法。包括:利用计算机从新闻网站上的时政新闻报道中爬取指定时间段的新闻文章;对每一个文档进行预处理,包括汉语词切分和词性标注;留下内容词,过滤掉其它词;获取前面k年与目标文档相同时间段及前r天和后r天的新闻文档作为比较文档集;对比较文档集同样进行汉语切词和词性标注处理,保留内容词;从数据库中提取目标文档集中的所有线索词;对线索词集聚类,形成突发事件描述。利用本发明提供的技术方案,可以将事件空间还原到线索词空间,通过聚类的方法输出的线索词子集合,一个子集合对应着一个突发事件的描述。
-
公开(公告)号:CN106156003A
公开(公告)日:2016-11-23
申请号:CN201610512191.9
申请日:2016-06-30
Applicant: 北京大学
CPC classification number: G06F17/2785 , G06F17/30705
Abstract: 本发明公布了一种问答系统中的问句理解方法,针对一段问句文本,将问句文本表示为词向量矩阵或字向量矩阵,通过循环神经网络进行学习,使得问句文本表示为被意图识别任务和槽填充任务共享的词向量矩阵或字向量矩阵,再使用联合损失函数来共同学习意图识别任务和槽填充任务,由此完成问句理解;利用本发明提供的技术方案,可以充分利用意图识别和槽填充两个任务的内在联系,提高两个任务的准确率和F1值。
-
公开(公告)号:CN103064878B
公开(公告)日:2016-04-06
申请号:CN201210468749.X
申请日:2012-11-19
Applicant: 北京大学
Abstract: 本发明提供一种序列标注方法,属于语言信息处理领域。所述方法基于随机梯度下降(SGD)在线学习算法,适合大规模语料训练;在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即:利用特征频率高低对对角元素赋予不同权重,与已有的二阶海森矩阵近似算法比较,具有计算代价小的特点;在原有SGD算法的基础上,显著提高了训练速度,且效果好。本方法可以用于语言信息处理的不同层次,包括汉语分词、词性标注和命名实体识别等。
-
公开(公告)号:CN111062205B
公开(公告)日:2021-10-01
申请号:CN201911292849.X
申请日:2019-12-16
Applicant: 北京大学
IPC: G06F40/253 , G06N3/08
Abstract: 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。
-
公开(公告)号:CN111062205A
公开(公告)日:2020-04-24
申请号:CN201911292849.X
申请日:2019-12-16
Applicant: 北京大学
IPC: G06F40/253 , G06N3/08
Abstract: 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。
-
公开(公告)号:CN106156003B
公开(公告)日:2018-08-28
申请号:CN201610512191.9
申请日:2016-06-30
Applicant: 北京大学
Abstract: 本发明公布了一种问答系统中的问句理解方法,针对一段问句文本,将问句文本表示为词向量矩阵或字向量矩阵,通过循环神经网络进行学习,使得问句文本表示为被意图识别任务和槽填充任务共享的词向量矩阵或字向量矩阵,再使用联合损失函数来共同学习意图识别任务和槽填充任务,由此完成问句理解;利用本发明提供的技术方案,可以充分利用意图识别和槽填充两个任务的内在联系,提高两个任务的准确率和F1值。
-
公开(公告)号:CN105045779A
公开(公告)日:2015-11-11
申请号:CN201510408379.4
申请日:2015-07-13
Applicant: 北京大学
IPC: G06F17/27
Abstract: 本发明提供一种基于深度神经网络与多标记分类的病句检测方法,该方法的核心是先对句子进行词法分析、句法分析,在此基础上抽取基层特征,包括词特征,词关系特征等;然后,利用深度神经网络学习抽象的特征表示,以获得不同错误与特征之间的关系;最后,通过多标记分类方法推断句子中可能存在的语病。本发明针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人工选择特征,同时也能提升多种语病的预测的准确度。
-
公开(公告)号:CN104298746A
公开(公告)日:2015-01-21
申请号:CN201410532681.6
申请日:2014-10-10
Applicant: 北京大学
CPC classification number: G06F17/30616
Abstract: 本发明公开了一种基于短语网络图排序的领域文献关键词提取方法,首先对领域文献的文本进行预处理,将文本切分成词序列;然后基于DFAV统计量提取关键词候选短语,再构建短语网络;利用图排序算法对短语网络中的关键词候选短语进行排序,排名靠前的短语作为结果关键词。
-
-
-
-
-
-
-
-
-