-
公开(公告)号:CN111951784B
公开(公告)日:2023-05-23
申请号:CN202010862613.1
申请日:2020-08-25
Applicant: 睿云联(厦门)网络通讯技术有限公司
Abstract: 本公开是关于一种语音识别中垃圾词的生成方法及装置,属于计算机技术领域,该方法包括:根据目标关键词包含的音素的数量,生成与所述数量对应的垃圾词音素序列,所述垃圾词音素序列中包含多个随机生成的音素组合;对所述垃圾词音素序列中包含的音素组合进行解码,确定各个所述音素组合所对应的待选垃圾词;将所述待选垃圾词与所述目标关键词作为训练集,以对语言模型进行训练;根据训练完成的语言模型的测试结果,确定目标垃圾词。该方法提高了垃圾词的生成效率,同时保证了垃圾词的防误触发效果。
-
公开(公告)号:CN115691499A
公开(公告)日:2023-02-03
申请号:CN202211179292.0
申请日:2022-09-27
Applicant: 睿云联(厦门)网络通讯技术有限公司
Abstract: 本发明公开了一种基于流式语音识别的嘴型检测方法和装置以及设备。其中,所述方法包括:提供一种声学模型,该声学模型识别语音信号输出文本序列;基于该文本序列生成音素序列;基于该音素序列生成视素序列;该声学模型的构建方法包括如下步骤:提取语音信号的FBANK特征值,该FBANK特征值输入高斯混合模型进行聚类输出若干语音聚类帧;每个该语音聚类帧的帧前及帧后各保留5‑8帧的语音信号形成拼接特征;该拼接特征输入TDNN模型构建的声学模型进行训练。本发明方法采用语音识别结合音素规则化驱动的方法成本更低,更容易实现且更易部署,对硬件要求较低,能够在更多设备上实现部署。
-
公开(公告)号:CN115641848A
公开(公告)日:2023-01-24
申请号:CN202211179226.3
申请日:2022-09-27
Applicant: 睿云联(厦门)网络通讯技术有限公司
IPC: G10L15/25 , G06N3/04 , G06N3/08 , G06V10/82 , G06V40/16 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22
Abstract: 本发明公开了一种复合视觉、听觉多模态嘴型检测方法和装置以及设备。该方法包括:同步采集语音数据及人脸数据;构建基于所述语音数据及人脸数据的多模态神经网络模型;采用双解码器联合优化的方式训练所述多模态神经网络模型;根据所述经训练后的多模态神经网络模型,来对人体的语音以及人脸关键点进行对应所述语音的脸部嘴型预测。本发明一方面使用关键点检测算法提取人脸图像的人脸关键点聚合人脸特征。另一方面,考虑了人脸五官轮廓的变化,从人脸特征与语音特征入手,将两者融合提取更加丰富的特征以表征嘴型的变化,使得拟真形象更为生动。
-
公开(公告)号:CN114445914A
公开(公告)日:2022-05-06
申请号:CN202210094081.0
申请日:2022-01-26
Applicant: 厦门大学 , 睿云联(厦门)网络通讯技术有限公司
Abstract: 本发明公开了一种基于视频的毫米波数据自动标注方法及系统,其中方法包括:采用多线程同步采集每个时刻待识别区域的毫米波数据和对应视频中的每一帧图像数据;将每一帧图像数据输入到训练好的行为识别神经网络模型进行识别,以得到每个时刻视频中的人体动作识别结果;对毫米波数据进行处理以得到带有时间维度信息的微多普勒特征数据;根据人体动作识别结果对微多普勒特征数据进行划分标注,以得到标注完成的毫米波数据;由此,通过同步采集视频数据和毫米波数据,以便通过视频数据对可解释性较弱的毫米波雷达数据进行标注,从而不仅节省了数据标注成本而且还提高了精确率。
-
公开(公告)号:CN113033406A
公开(公告)日:2021-06-25
申请号:CN202110323631.7
申请日:2021-03-26
Applicant: 睿云联(厦门)网络通讯技术有限公司
IPC: G06K9/00
Abstract: 本发明公开基于深度可分离圆心差分卷积的人脸活体检测方法及系统,方法部分包括如下步骤:S1,获取原始待处理图像,并进行预处理操作;S2,将经过预处理的图像进行深度卷积操作;S3,将经过深度卷积操作后输出的特征图进行圆心差分卷积操作;S4,将经过圆心差分卷积后输出的特征图进行逐点卷积操作;S5,对经过逐点卷积操作后输出的特征图进行结果判别;S6,输出判别结果。本发明使用一种新的卷积方式提取特征能更有效地捕捉到非活体的本质特征,提高了网络对细节信息的表征能力及对外部环境变化的鲁棒性。此方案对设备镜头的要求为仅需要单个摄像镜头。
-
公开(公告)号:CN111710337A
公开(公告)日:2020-09-25
申请号:CN202010549158.X
申请日:2020-06-16
Applicant: 睿云联(厦门)网络通讯技术有限公司
Abstract: 本申请的实施例提供了一种语音数据的处理方法、装置、计算机可读介质及电子设备。该语音数据的处理方法包括:实时获取语音输入信息;对所述语音输入信息进行分帧处理,得到所述语音输入信息所对应的语音帧;采用预训练的声学模型对所述语音帧进行音素识别,以识别出所述语音帧中包含的音素;针对每次音素识别的结果,对当前识别出的音素进行关键词识别,以确定所述语音输入信息包含的关键词;若连续识别出相同的关键词的次数大于或等于预定数量,则确定所述关键词为目标关键词,以根据所述目标关键词进行相应动作。本申请实施例的技术方案可以提高语音识别的效率,进而保证语音控制设备的响应速度。
-
公开(公告)号:CN116994343A
公开(公告)日:2023-11-03
申请号:CN202311256897.X
申请日:2023-09-27
Applicant: 睿云联(厦门)网络通讯技术有限公司
Abstract: 本发明公开了一种基于标签平滑的扩散标签深度学习模型训练方法,包括如:步骤1、获取原始训练数据和对应的原始标签;步骤2、将所述原始训练数据和对应的原始标签输入到深度学习模型中;步骤3、对原始训练数据进行混合扩充,得到处理后的混合训练数据;步骤4、根据所述混合训练数据中参与扩充的原始训练数据所对应的原始标签,计算出所述混合训练数据对应的混合标签;步骤5、所述深度学习模型按照扩散的标签平滑方式对原始训练数据、原始标签、混合训练数据和混合标签进行训练,输出预测结果。本发明还提供一种计算机可读存储介质,可以解决泛化性差、过拟合、抗噪能力弱、样本分布和类别不平衡问题。
-
公开(公告)号:CN112562653B
公开(公告)日:2023-05-26
申请号:CN202011354567.0
申请日:2020-11-26
Applicant: 睿云联(厦门)网络通讯技术有限公司
Abstract: 本发明公开了一种基于人类行为经验的离线语音识别学习方法,其包括:S01将预设工作时段按预设间隔时长进行分割成若干区间时段,构建与若干区间时段相对应的经验矩阵,该经验矩阵的规格为M×N,对经验矩阵内的数据进行赋值和关联对应参数;S02接收语音信号,将其导入语音识别系统,输出语音识别结果,然后将其转换成规格为M×N的矩阵数据,并根据语音信号获取的时间节点进行对应调取对应区间时段的经验矩阵数据与其进行数学计算,输出计算结果;S03当计算结果满足预设条件时,判定语音识别成功,否则,判定语音识别失败;S04根据语音识别成功或语音识别失败结果,对经验矩阵数据进行调整更新,本方案自适应能力佳、响应准确率高和误触率低。
-
公开(公告)号:CN115116148A
公开(公告)日:2022-09-27
申请号:CN202210968720.1
申请日:2022-08-12
Applicant: 睿云联(厦门)网络通讯技术有限公司
IPC: G06V40/40 , G06V40/16 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06T5/00 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于人脸面容识别的活体检测方法,包括:获取人脸图像并分类;对各类人脸图像归一化处理,生成代理,构建三元组数据对;构建骨干网络,搭建集成人脸面容识别损失函数和分类损失函数的高维人脸静默活体检测神经网络模型;每次输入三元组数据对和活体数据到模型中训练模型;将人脸图像输入到模型进行测试,根据不同预测阈值得出预测结果,根据预测结果和真实结果确定真正例率和假正例率,确定真假分类阈值;当进行检测时,将当前帧人脸图像输入到模型中,输出模型得分,根据当前帧、前帧和后帧人脸图像的模型得分得到活体得分,对比该活体得分与真假分类阈值,得出判断结果。本发明还提供了一种电子设备和介质,增高模型的准确率。
-
公开(公告)号:CN112908295A
公开(公告)日:2021-06-04
申请号:CN202110142560.0
申请日:2021-02-02
Applicant: 睿云联(厦门)网络通讯技术有限公司
Abstract: 一种地域性的离线口音语音识别系统的生成方法,所述方法包括:导入不同地域的语音音频数据;将所述语音音频数据转化为语音识别的语音特征;通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练;基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型。本方案能够提升离线语音识别系统在同种语音下不同口音的识别性能。
-
-
-
-
-
-
-
-
-