-
公开(公告)号:CN113919741A
公开(公告)日:2022-01-11
申请号:CN202111288953.9
申请日:2021-11-02
Applicant: 南方电网大数据服务有限公司
Abstract: 本申请涉及电力信息分析技术领域,提供了一种空置房屋确定方法、装置、计算机设备和存储介质。本申请能够实现准确确定空置房屋。该方法包括:获取房屋群中各房屋的档案信息和用电量,档案信息包括房屋类型,将各房屋的档案信息和用电量中满足预设筛选条件的房屋的档案信息和用电量作为空置房屋影响因素数据,将空置房屋影响因素数据输入至预先构建的阈值分析模型,得到各房屋类型对应的用电量阈值,根据房屋群中各房屋的用电量以及各房屋类型对应的用电量阈值,确定房屋群中的空置房屋。
-
公开(公告)号:CN117668216A
公开(公告)日:2024-03-08
申请号:CN202210967274.2
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G06F16/35 , G06F40/35 , G06F18/214 , G06F18/2415 , G06F18/243 , G06F18/25 , G06N20/20 , G06N3/0455 , G06F16/332 , G06F16/33 , G06N3/044
Abstract: 本申请提供了一种意图识别模型训练方法、意图识别方法和装置,包括:将每个训练样本集中的多个语料文本样本分别输入至预先构建的语言模型中,生成语料文本样本的语义特征;将语料文本样本对应的语义特征分别输入至p个分类器中,生成语料文本语义的p个第一意图识别结果;根据第一意图识别结果和语料文本样本的标签信息训练第一意图识别模型;将每个语料文本样本分别输入至N个第一意图识别模型中,生成每个语料文本样本的N个概率分布特征向量;根据语料文本样本N个概率分布特征向量和语料文本样本的标签信息对随机森林模型进行训练,得到第二意图识别模型。根据本申请实施例,能够提高在小样本的场景下训练得到的模型的意图识别准确率。
-
公开(公告)号:CN117649842A
公开(公告)日:2024-03-05
申请号:CN202210967354.8
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G10L15/02 , G10L15/04 , G10L15/06 , G10L25/30 , G10L25/12 , G10L25/18 , G10L25/24 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请提供了一种针对特定内容语音片段的声纹特征提取方法,所述声纹特征提取方法,包括:通过前处理,得到声学谱特征片段;构造时延神经网络模块;基于所述时延神经网络模块、加权激励机制和残差结构,构造残差时延神经网络模块;基于所述时延神经网络模块、所述残差时延神经网络模块、注意力池化机制,构造残差注意力时延神经网络模块;将所述声学谱特征片段输入所述残差注意力时延神经网络模块,得到特定内容语音片段的声纹特征。本所述提供的声纹特征提取方法,从多个尺度提取特征的深层次信息,并结合残差网络、加权激励、注意力池化机制等方法,能够有效地从特定内容语音片段中提取声纹特征。
-
公开(公告)号:CN117636848A
公开(公告)日:2024-03-01
申请号:CN202210965869.4
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
Abstract: 本申请提供了一种端到端联结主义时间分类语音识别优化方法及系统。所述语音识别优化方法包括:基于预测文本和所述目标文本,计算联结主义时间分类损失函数;基于文本表征和转化后的语音表征,计算余弦损失函数;对联结主义时间分类损失函数和余弦损失函数进行加权相加,得到优化目标训练模型。本申请将联结主义时间分类损失函数和基于余弦的损失函数加权相加,得到优化目标训练模型。所述优化目标训练模型将预训练语言模型的非自回归结构和上下文关心的特点知识迁移至端到端联结主义时间分类器,可以缓解其条件独立性假设,从而提升识别性能。
-
公开(公告)号:CN117672230A
公开(公告)日:2024-03-08
申请号:CN202210967353.3
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G10L17/06 , G10L17/02 , G10L17/04 , G10L25/30 , G06F18/213
Abstract: 本发明提供了声纹特征提取的方法及装置,方法包括:确定语音片段对应的多帧语音特征;通过局部特征提取模块对多帧语音特征进行声纹信息提取确定第一局部特征;通过第一残差模块基于第一局部特征在不同时域感受野下提取声纹信息确定第二局部特征;通过第二残差模块基于第二局部特征在不同时域感受野下提取声纹信息确定第三局部特征;通过全局特征提取模块基于第三局部特征进行频域的信息的融合确定语音片段对应的全局特征;通过声纹特征提取模块提取全局特征的声纹信息,确定语音片段对应的声纹特征,声纹特征用于确定语音片段表示的说话人的身份信息。通过不同视野提取短语音片段的声纹特征,可以较为准确的识别短语音片段的说话人的身份。
-
公开(公告)号:CN117669551A
公开(公告)日:2024-03-08
申请号:CN202210967383.4
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G06F40/284 , G06F40/289 , G06F40/216 , G06F40/237 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 本发明涉及一种基于关键词的可控文本复述生成方法及装置,所述方法包括:对待复述文本进行关键词提取,得到关键词列表,依次将关键词列表中的每一个关键词拆分为单字,将每一个单字作为一个token,得到token列表;将待复述文本输入到mT5模型中,进行迭代文本复述生成,得到待复述文本的复述文本集合,其中,任一轮迭代文本复述生成包括:将输入文本输入到mT5模型中,得到输出文本;对输出文本进行束搜索,得到第一结果文本;在token列表中选择第一个未被添加到输入文本中的token,将其添加到输入文本的尾部,得到第二结果文本;将第一结果文本与第二结果文本组合,得到生成结果集合;对生成结果集合进行束搜索,将搜索结果作为下一轮迭代的输入文本。
-
公开(公告)号:CN117636888A
公开(公告)日:2024-03-01
申请号:CN202210967392.3
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
Abstract: 本申请公开了一种语音通话中的背景人声过滤方法及装置,方法包括:获取目标语音;对目标语音进行活动语音切分,获得至少一个语音片段;对各个语音片段进行处理,确定各个语音片段为说话人有效语音或第一背景人声;若任意一个语音片段为说话人有效语音,则对任意一个语音片段进行分窗处理,获得任意一个语音片段的至少一个语音窗;确定各个第一短时平均能量,各个第一短时平均能量为每个语音片段的至少一个语音窗中各个语音窗的短时平均能量;根据各个第一短时平均能量和第一预设阈值,确定说话人有效语音包括第二背景人声;过滤掉第一背景人声和第二背景人声。本申请通过过滤掉第一背景人声和第二背景人声,使得说话人有效语音更加纯净。
-
公开(公告)号:CN117591269A
公开(公告)日:2024-02-23
申请号:CN202210967340.6
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G06F9/50 , G06F40/35 , G06F16/332 , G06F16/33
Abstract: 本申请提供了一种意图识别方法和装置,包括:接收用户语音;将用户语音转化为语音文本;生成策略选择指令;响应于策略选择指令,确定当前计算资源的剩余资源量、多个预设的意图识别策略分别对应的计算时间;根据剩余资源量和多个预设的意图识别策略分别对应的计算时间,确定目标意图识别策略,其中,多个预设的意图识别策略包括目标意图识别策略;根据目标意图识别策略对语音文本进行识别,确定意图结果。根据本申请实施例,能够根据计算机的计算资源以及不同策略的计算时间,确定意图识别策略,从而在保证意图识别准确度的基础上,可以兼顾计算机的计算资源以及意图识别的速度,提高意图识别的效率。
-
公开(公告)号:CN117672196A
公开(公告)日:2024-03-08
申请号:CN202210967374.5
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G10L15/08 , G10L15/04 , G10L15/06 , G10L25/12 , G10L25/18 , G10L25/24 , G10L25/30 , G10L25/45 , G06N3/08 , G06N3/045 , G06N3/0442 , G06N3/049 , G06F18/214 , G06F18/23 , G06F18/241
Abstract: 本申请提供了一种语音分类模型的训练方法,语音分类方法及装置,包括:获取的多个样本语音片段是对具有多个说话人的语音流中进行分割确定的;将每个样本语音片段输入至预先构建的语音分类模型中,生成目标特征向量、第一预测结果和第二预测结果;根据目标特征向量,对每个样本语音片段进行聚类,得到多个聚类簇,伪标签相同的样本语音片段属于同一个说话人对应的语音片段;计算伪标签和第一预测结果的第一误差;计算第二预测结果和标签信息的第二误差;根据第一误差和第二误差,对语音分类模型进行训练。根据本申请实施例,能够提高分类的精准度,从而无需在整体会话全部结束后才能够对语音流中多个语音片段对应的说话人进行聚类。
-
公开(公告)号:CN117668215A
公开(公告)日:2024-03-08
申请号:CN202210965852.9
申请日:2022-08-12
Applicant: 南方电网大数据服务有限公司
IPC: G06F16/35 , G06F40/30 , G06F16/34 , G06F18/25 , G06N3/0442 , G06N3/045 , G06N3/084 , G06N3/0985 , G06N3/048
Abstract: 本发明涉及一种基于在线新闻内容表征的情感分析方法及装置,所述方法包括:使用网络爬虫实时地获取新闻内容,得到原始新闻数据;对原始新闻数据进行情感标注,得到原始新闻的情感数据;对原始新闻数据进行数据预处理,得到摘要、主体、结论和其它信息四个内容数据;对所述四个内容数据分别进行内容表征提取,得到摘要内容表征、主体内容表征、结论内容表征和其他信息内容表征四个内容表征;对所述四个内容表征进行内容表征融合,得到融合内容表征;以融合内容表征作为训练数据,以原始新闻的情感数据作为标签,对神经网络进行训练,得到训练完成的神经网络;使用训练完成的神经网络对待分析的新闻数据进行情感分析。
-
-
-
-
-
-
-
-
-