-
公开(公告)号:CN116304017A
公开(公告)日:2023-06-23
申请号:CN202211735183.2
申请日:2022-12-30
申请人: 北京中科智加科技有限公司
摘要: 本发明涉及一种管道式多事件抽取方法,属于自然语言处理技术领域,解决了现有的事件抽取方法在语料中存在较多事件或多事件重叠的情况下容易出现识别缺漏、事件要素无法匹配,导致准确率低的问题。通过使用提示信息(prompt)以层层递进的方式抽取事件,将所有事件类型作为提示信息抽取对应的触发词,然后将触发词和待抽取的要素角色按步依次加入提示抽取事件要素,待该事件类型包含的所有事件要素抽取完毕,将最后一步的提示信息与抽取结果组合得到完整的事件;这种管道式的抽取方法为每个可能的事件都提供了一条单独的抽取路径,重点解决了多事件、重叠多事件抽取时识别缺漏、事件要素无法匹配的问题,大大提高了抽取准确率。
-
公开(公告)号:CN115713941A
公开(公告)日:2023-02-24
申请号:CN202211510111.8
申请日:2022-11-29
申请人: 北京中科智加科技有限公司
IPC分类号: G10L17/04 , G10L21/028 , G10L25/18 , G06N3/0464 , G06N3/0499 , G06N3/08
摘要: 本发明涉及一种莫尔斯自动识别模型的构建方法及自动识别方法,属于报文识别技术领域,解决了现有技术中莫尔斯自动识别模型准确率不高,识别结果需要大量人工矫正的问题。构建方法包括:获取莫尔斯语音数据集,对莫尔斯语音数据进行标注,得到标注后的数据集Dp’;对标注后的数据集Dp’进行预处理,得到包含原始语速数据和扩展语速数据的预处理后数据集Dp1;对所述预处理后数据集Dp1进行莫尔斯特征提取和特征扩展,得到由莫尔斯语音特征序列和其对应的字符序列构成的训练数据集Dt;利用所述训练数据集Dt对语音识别模型M进行训练,得到训练好的莫尔斯自动识别模型Mp。最终得到的莫尔斯自动识别模型准确率高、稳定性好、适应性强,可用于实战。
-
公开(公告)号:CN115691510A
公开(公告)日:2023-02-03
申请号:CN202211193071.9
申请日:2022-09-28
申请人: 北京中科智加科技有限公司
摘要: 本发明涉及一种基于随机屏蔽训练的声纹识别方法及计算机设备,属于语音识别技术领域;其中的方法包括:通过预先训练的特征提取模型对多个用户语音进行注册,得到用户语音注册库;特征提取模型为采用随机屏蔽的方法构建有损语音特征向量并进行训练得到;获取待识别语音,通过特征提取模型对待识别语音进行特征提取,得到待识别语音的特征向量;将待识别语音的特征向量与用户语音注册库中的所有注册语音进行余弦相似度值计算;基于余弦相似度值确认得到待识别语音的所属用户。本发明解决了现有技术中的声纹识别方法对有损语音无法准确识别,鲁棒性差的问题。
-
公开(公告)号:CN115563987A
公开(公告)日:2023-01-03
申请号:CN202211265766.3
申请日:2022-10-17
申请人: 北京中科智加科技有限公司
IPC分类号: G06F40/30 , G06F16/951 , G06F40/284 , G06F40/289
摘要: 本发明涉及一种评论文本分析处理方法,属于自然语言处理技术领域,解决了现有技术中模型对评论文本的内在联系和上下文表征学习不充分,方面级情感结构不完整,情感元素维度过少、输出文本非结构化、结果不直观的问题。通过预训练方法和微调方法获得的情感分析模型,学习到了评论文本的内在逻辑及上下文表征,将经过预处理的评论文本输入情感分析模型,能输出结构化的分析文本,为后期的量化和评估提供了更优化的信息。
-
公开(公告)号:CN115101077A
公开(公告)日:2022-09-23
申请号:CN202210723952.0
申请日:2022-06-24
申请人: 北京中科智加科技有限公司
摘要: 本发明涉及一种声纹检测模型训练方法及声纹识别方法,属于语音识别技术领域;其中训练方法包括以下步骤:构建声纹识别训练数据集;声纹识别训练数据集包括语音数据及对应的标签;利用声纹识别训练数据集训练模型,得到声纹识别模型;声纹识别模型用于对输入语音进行特征提取,得到输入语音对应的特征向量;根据声纹识别模型输出的语音数据的特征向量和对应的标签,构建得到声纹确认训练数据集;利用声纹确认训练数据集训练模型,得到声纹确认模型;声纹确认模型用于判断两条语音是否属于同一人。本发明解决了现有技术中的声纹识别方法依赖于文本内容,或无法明显区分说话人的问题,提高了在不同场景下声纹识别的准确率。
-
公开(公告)号:CN114996443A
公开(公告)日:2022-09-02
申请号:CN202210590856.3
申请日:2022-05-27
申请人: 北京中科智加科技有限公司
IPC分类号: G06F16/34 , G06F16/35 , G06F40/211 , G06F40/247 , G06F40/289 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种基于抽象程度判别的文本摘要生成方法及计算机设备,属于自然语言处理技术领域;本发明的文本摘要生成方法包括以下步骤:通过预训练的抽象程度判别模型判别所述待摘要文本的抽象程度等级,得到所述待摘要文本的抽象程度标签;基于所述待摘要文本的分句序列,通过预训练的摘要抽取模型预测待摘要文本中每个句子的抽取概率;根据所述待摘要文本的抽象程度标签和待摘要文本中每个句子的抽取概率,进行摘要抽取,得到所述待摘要文本的摘要。解决了现有的文本摘要生成方法对文本的行文特点和抽象程度没有针对性,无差别地进行摘要生成,导致生成的摘要准确率和效率较低的问题。
-
公开(公告)号:CN114818669A
公开(公告)日:2022-07-29
申请号:CN202210446422.6
申请日:2022-04-26
申请人: 北京中科智加科技有限公司
IPC分类号: G06F40/232 , G06F40/295 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种人名纠错模型的构建方法和计算机设备,属于语音识别技术领域;解决了现有技术中人名纠错方法依赖于海量数据,且纠错准确性不高的问题;本发明的人名纠错模型包括中文实体识别模型和人名预测模型;构建方法包括以下步骤:获取原始语音转写文本及对应的文本纠错后的标准文本,构建训练样本集合;利用训练样本集合,对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到中文实体识别模型和人名预测模型;中文实体识别模型用于输出含有错误人名实体标签的文本;人名预测模型用于根据掩码后的文本,引入预先构建的人名词表,预测纠错后的人名。本发明基于人名实体进行纠错,极大提高了人名纠错的准确性和纠错效果。
-
公开(公告)号:CN111581911A
公开(公告)日:2020-08-25
申请号:CN202010327302.5
申请日:2020-04-23
申请人: 北京中科智加科技有限公司
IPC分类号: G06F40/117 , G06F40/289 , G06N3/04 , G06N3/08
摘要: 本发明实施例提供实时文本自动添加标点的方法、模型构建方法及装置,其中,模型构建方法包括:构造包括标注模型和基于强化学习实现的决策模型的实时文本自动添加标点模型,将无标点的实时文本流作为输入流输入标注模型,对于输入流中当前输入标注模型的字符,标注模型输出当前字符是否进行标点添加的标注结果,决策模型从输入流获取当前字符,根据标注模型当前的隐层状态对标注结果进行评估,控制是否将标注结果写入输出流;将标注模型在通用长序列加标点数据集上训练至收敛,将决策模型在包含预设数量个字符-标点对的数据集上训练至收敛,获得训练好的实时文本自动添加标点模型。能够实现实时场景下对无标点文本流自动、准确的添加标点。
-
公开(公告)号:CN108877809A
公开(公告)日:2018-11-23
申请号:CN201810700238.3
申请日:2018-06-29
申请人: 北京中科智加科技有限公司
摘要: 本发明实施例公开一种说话人语音识别方法及装置,其中,方法包括:采集待识别的不同信道的说话人语音;从待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。本发明实施例将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。
-
公开(公告)号:CN114996442B
公开(公告)日:2023-07-11
申请号:CN202210588390.3
申请日:2022-05-27
申请人: 北京中科智加科技有限公司
IPC分类号: G06F16/34 , G06F16/35 , G06F40/211 , G06F40/247 , G06F40/289 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/047 , G06N3/084
摘要: 本发明涉及一种联合抽象程度判别和摘要优化的文本摘要生成系统,属于自然语言处理技术领域;包括抽象程度判别器、摘要抽取器和选择器;其中,抽象程度判别器用于根据待摘要文本的分词序列,预测得到待摘要文本的抽象程度标签;摘要抽取器用于基于待摘要文本的分句序列,预测得到待摘要文本中每个句子的抽取概率;选择器用于根据文本的抽象程度标签设置文本中句子的抽取概率阈值,并根据抽取概率和抽取概率阈值的比较结果进行摘要抽取,得到待摘要文本的摘要。本发明解决了现有的文本摘要生成系统在生成摘要时没有考虑文本的抽象程度,无差别地进行摘要抽取或生成,导致生成的摘要准确率差、效率低的问题。
-
-
-
-
-
-
-
-
-