-
公开(公告)号:CN116386590A
公开(公告)日:2023-07-04
申请号:CN202310613237.6
申请日:2023-05-29
Applicant: 北京科技大学
IPC: G10L13/02 , G10L13/08 , G10L21/0208 , G10L19/18
Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。
-
公开(公告)号:CN110458203B
公开(公告)日:2021-11-30
申请号:CN201910654454.3
申请日:2019-07-19
Applicant: 北京科技大学
Abstract: 本发明提供一种广告图像素材检测方法,能够实现精细的广告图像素材检测。所述方法包括:获取广告图像素材检测训练集;构建多尺度实例分割网络,利用获取的训练集中的图像训练所述多尺度实例分割网络,其中,所述多尺度实例分割网络,用于对提取的语义信息和连接信息进行带孔空间金字塔池化处理,得到不同尺度的素材特征,基于得到的每一尺度的素材特征进行语义预测,并级联得到的素材特征得到表示像素间连接关系的连接预测和表示广告图像素材边界的轮廓预测,将语义损失、连接损失和轮廓损失组成损失函数,联合优化所述多尺度实例分割网络,将连接预测结果和任一语义预测结果进行连接,输出图像中的广告图像素材。本发明涉及计算机视觉领域。
-
公开(公告)号:CN111126396A
公开(公告)日:2020-05-08
申请号:CN201911360763.6
申请日:2019-12-25
Applicant: 北京科技大学 , 腾讯科技(深圳)有限公司
Abstract: 本申请实施例提供了一种图像识别方法、装置、计算机设备以及存储介质,本申请属于人工智能领域,该方法包括:根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果;获取至少两个分类器分别对应的识别置信度;根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。采用本申请实施例,可以提高图像识别的准确率。
-
公开(公告)号:CN109635083A
公开(公告)日:2019-04-16
申请号:CN201811426488.9
申请日:2018-11-27
Applicant: 北京科技大学
IPC: G06F16/332
Abstract: 本发明涉及信息检索技术领域,提供了一种用于搜索TED演讲中话题式查询的语义文档检索方法。利用现有的查询和文档对神经网络模型进行训练,学习神经网络模型参数;当用户输入查询,使用查询似然检索模型得到初步检索结果;将初步检索结果输入到固定参数的神经网络模型中再次排序,确定最终检索结果。本发明解决了话题式查询检索中传统检索方法由于查询和文档之间缺乏语义联系而无法取得较好效果的问题;通过引入神经网络对话题式查询和演讲文档分别进行建模,获取查询和文档之间在语义级别的相关性;在神经网络部分,串联了循环神经网络和卷积神经网络,另外,为了解决梯度消失问题,采用了当前流行的LSTM模块。
-
公开(公告)号:CN109583361A
公开(公告)日:2019-04-05
申请号:CN201811420007.3
申请日:2018-11-26
Applicant: 北京科技大学
IPC: G06K9/00
Abstract: 本发明公开了一种基于能量最小化的场景视频文本跟踪方法,涉及计算机视觉领域。该方法包括:描述跟踪模型的融合检测能量模型、表观能量模型和互斥能量模型的线性能量函数;对跟踪模型进行求解;具体跟踪过程。本发明提出了一种新的场景视频的文本跟踪方法,针对场景视频的文本,设计了相应的检测能量模型,表观能量模型和互斥能量模型。结合三者得到整体的能量,通过最小化整体能量得到最佳的跟踪轨迹集合,认为此种轨迹集合,损失能量最小,则整体最优。
-
公开(公告)号:CN222110342U
公开(公告)日:2024-12-06
申请号:CN202323095561.8
申请日:2023-11-16
Applicant: 北京科技大学
Abstract: 本实用新型提供了一种基于视觉的智能轮椅,涉及智能轮椅技术领域,该智能轮椅包括:轮椅主体、驱动装置和智能主机模块;轮椅主体包括:座椅和扶手;驱动装置安装在座椅的下方,用于驱动基于视觉的智能轮椅;智能主机模块包括:第一摄像头、驱动控制主板和ROS机器人系统嵌入式主板;第一摄像头用于获取道路实时图像;驱动控制主板与驱动装置电连接,用于控制基于视觉的智能轮椅行驶;ROS机器人系统嵌入式主板分别与第一摄像头和驱动控制主板电连接,用于分析道路实时图像,控制基于视觉的智能轮椅自动行驶。本实用新型优化了人机交互的方式,实现了智能轮椅的自动驾驶、自动跟随用户、智能识别用户身份信息和语音控制等功能。
-
-
-
-
-