-
公开(公告)号:CN105225657A
公开(公告)日:2016-01-06
申请号:CN201510695421.5
申请日:2015-10-22
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/06
Abstract: 本发明公开了一种多音字标注模板生成方法和装置,其中,多音字标注模板生成方法包括:获取原始语料;对原始语料进行预处理,并生成包含多音字的语料数据;切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理;对归一化后的多个分词进行组合,并生成对应的句型;以及反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。本发明实施例的多音字标注模板生成方法和装置,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
-
公开(公告)号:CN104899190A
公开(公告)日:2015-09-09
申请号:CN201510301079.6
申请日:2015-06-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明提出一种分词词典的生成方法和装置及分词处理方法和装置,该分词词典的生成方法包括获取原始句语料;对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;根据所述过滤结果生成分词词典。该方法能够不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。
-
公开(公告)号:CN111061868B
公开(公告)日:2023-05-23
申请号:CN201911069834.7
申请日:2019-11-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/35 , G06F18/2411 , G06F18/214
Abstract: 本申请公开了读法预测模型获取及读法预测方法、装置及存储介质,涉及深度学习领域,其中的读法预测模型获取方法可包括:利用第一训练样本集训练得到语言模型,语言模型中至少包含两层多头注意力层;利用语言模型及分类器构成读法预测模型,并利用第二训练样本集训练读法预测模型,以便针对待预测的输入文本,预测出其中的预定类型字符的读法分类。应用本申请所述方案,可提升预测结果的准确性等。
-
公开(公告)号:CN110941945B
公开(公告)日:2021-03-23
申请号:CN201911214094.1
申请日:2019-12-02
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/126 , G06F40/284
Abstract: 本申请公开了语言模型预训练方法和装置。该方法的一具体实施方式包括:获取初始语言模型,初始语言模型用于确定输入到初始语言模型的文本数据中包含的字之间的关联关系;获取训练初始语言模型的训练样本集,训练样本集中的训练样本包括样本数据、第一标注信息和第二标注信息;将样本数据作为输入,将第一标注信息作为与初始语言模型的第一输出端连接的初始去噪自编码模型的期望输出,并将第二标注信息作为与初始语言模型的第二输出端连接的初始序列到序列模型的期望输出,对初始语言模型、初始去噪自编码模型和初始序列到序列模型进行预训练,得到训练后的语言模型。该实施方式可以显示捕获文本的音韵信息,有效提升了语言模型输出文本的语义表示效果。
-
公开(公告)号:CN110782883B
公开(公告)日:2020-10-20
申请号:CN201911100649.X
申请日:2019-11-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本申请公开了一种模型训练方法、装置、电子设备及存储介质,涉及模型训练领域。具体实现方案为:在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;基于各个第一样本类型的训练样本对共享层模块中的模型参数进行调整;通过共享层模块将各个第一样本类型的训练样本输入至待训练模型的各个任务类型对应的任务层模块中;通过各个任务层模块提取出自身匹配的训练数据;并基于各个任务层模块匹配的训练数据对各个任务层模块中的模型参数进行调整。本申请实施例不仅可以统一对共享层模块进行训练,而且还可以单独对各个任务层模块进行训练,在提升单任务性能的同时保留多任务训练的效果。
-
公开(公告)号:CN111061868A
公开(公告)日:2020-04-24
申请号:CN201911069834.7
申请日:2019-11-05
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了读法预测模型获取及读法预测方法、装置及存储介质,涉及深度学习领域,其中的读法预测模型获取方法可包括:利用第一训练样本集训练得到语言模型,语言模型中至少包含两层多头注意力层;利用语言模型及分类器构成读法预测模型,并利用第二训练样本集训练读法预测模型,以便针对待预测的输入文本,预测出其中的预定类型字符的读法分类。应用本申请所述方案,可提升预测结果的准确性等。
-
公开(公告)号:CN110807331A
公开(公告)日:2020-02-18
申请号:CN201911017931.1
申请日:2019-10-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/30 , G06F40/205 , G06F16/35 , G06N3/08
Abstract: 本申请公开了一种多音字读音预测方法、装置和电子设备,涉及x语音技术领域。具体实现方案为:通过多头自注意力语言模型对输入文本进行语义解析,以得到所述输入文本的文本语义信息;依据所述文本语义信息预测所述输入文本中多音字的读音。本申请可以提高预测多音字读音的准确性。
-
公开(公告)号:CN110782883A
公开(公告)日:2020-02-11
申请号:CN201911100649.X
申请日:2019-11-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本申请公开了一种模型训练方法、装置、电子设备及存储介质,涉及模型训练领域。具体实现方案为:在第一阶段的微调训练中,将各个第一样本类型的训练样本输入至待训练模型的共享层模块中;基于各个第一样本类型的训练样本对共享层模块中的模型参数进行调整;通过共享层模块将各个第一样本类型的训练样本输入至待训练模型的各个任务类型对应的任务层模块中;通过各个任务层模块提取出自身匹配的训练数据;并基于各个任务层模块匹配的训练数据对各个任务层模块中的模型参数进行调整。本申请实施例不仅可以统一对共享层模块进行训练,而且还可以单独对各个任务层模块进行训练,在提升单任务性能的同时保留多任务训练的效果。
-
公开(公告)号:CN105336322B
公开(公告)日:2017-05-10
申请号:CN201510641654.7
申请日:2015-09-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08
Abstract: 本发明公开了一种用于语音合成的多音字模型训练方法、语音合成方法及装置,其中,该方法包括:对语音数据集合和文本集合进行处理,以生成训练语料集合,其中,文本集合与语音数据集合对应,训练语料集合包括文本和与文本对应的拼音序列;提取文本的特征信息;以及根据特征信息和拼音序列对多音字模型进行训练。上述用于语音合成的多音字模型训练方法,在训练多音字模型的过程中,无需人工对文本的拼音进行标注,大大减少了多音字模型的训练周期,同时,避免了由人工标注错误而造成训练的多音字模型不准确情况的发生,提高了所训练的多音字模型的准确性。
-
公开(公告)号:CN105225657B
公开(公告)日:2017-03-22
申请号:CN201510695421.5
申请日:2015-10-22
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/06
Abstract: 本发明公开了一种多音字标注模板生成方法和装置,其中,多音字标注模板生成方法包括:获取原始语料;对原始语料进行预处理,并生成包含多音字的语料数据;切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理;对归一化后的多个分词进行组合,并生成对应的句型;以及反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。本发明实施例的多音字标注模板生成方法和装置,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
-
-
-
-
-
-
-
-
-