-
公开(公告)号:CN108171260A
公开(公告)日:2018-06-15
申请号:CN201711352429.7
申请日:2017-12-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06K9/62
Abstract: 本申请提供一种图片识别方法及系统,所述方法包括:获取待识别的图片;将所述待识别的图片输入预先训练的图片识别模型,获取待识别的图片的预测类别标签;所述预先训练的图片识别模型采用卷积神经网络模型,且所述卷积神经网络模型包括输入层、卷积层、注意力分支、按元素操作层、池化层、全连接层和输出层;其中,注意力分支根据所述待识别的图片各区域的全局特征确定图片各区域的权重;按元素操作层用于根据图片各区域的权重对卷积层输出的图片的局部特征进行加权处理;根据所述待识别的图片的预测类别标签,识别所述待识别的图片的类别。解决了特定类型,例如图片主体区域过小或嵌套/拼接类图片的识别率较低的问题。
-
公开(公告)号:CN110992974B
公开(公告)日:2021-08-24
申请号:CN201911164974.2
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。
-
公开(公告)号:CN109121022B
公开(公告)日:2020-05-05
申请号:CN201811139639.2
申请日:2018-09-28
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04N21/845 , H04N21/439
Abstract: 本申请实施例公开了用于标记视频片段的方法及装置。该方法的一具体实施方式包括:从待标记视频中获取视频特征信息序列;将上述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于上述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息;响应于得到对应上述视频特征片段序列的标识信息序列,通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记。该实施方式提高了对视频片段标记的效率和准确性。
-
公开(公告)号:CN108538303B
公开(公告)日:2019-10-22
申请号:CN201810366503.9
申请日:2018-04-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/007
Abstract: 本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取信噪比映射矩阵,其中,信噪比映射矩阵是基于加噪语音数据集合中的至少一条加噪语音数据的幅值分布信息和在真实场景下采集到的至少一条远场语音数据的幅值分布信息生成的矩阵,加噪语音数据是通过对近场语音数据进行加噪处理得到的;将加噪语音数据集合中的加噪语音数据作为待处理语音数据,执行以下生成步骤:确定与待处理语音数据对应的、用于表征待处理语音数据的幅值分布信息的第一向量;确定信噪比映射矩阵与第一向量的乘积,基于乘积生成远场仿真语音数据。该实施方式实现了具有较高有效性的远场仿真语音数据的生成。
-
公开(公告)号:CN109388721A
公开(公告)日:2019-02-26
申请号:CN201811217665.2
申请日:2018-10-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/44 , G06F16/435 , G06F16/43 , G06F16/957 , G06F16/958
Abstract: 本发明提出了一种封面视频帧的确定方法和装置,其中,方法包括:提取文章文本的关键词,获取与各关键词对应的第一向量;提取文章视频中预设时段内每个视频帧的主体词,获取与各主体词对应的第二向量;根据各主体词对应的第二向量和各关键词对应的第一向量,计算每个视频帧与文章文本的相似度;根据每个视频帧与文章文本的相似度确定目标视频帧为封面视频帧。由此,实现了作为封面的视频帧与文章内容的一致的图文相符的效果,实现作为封面的视频帧与文章内容自动适配,提高了封面确定效率以及用户的点击率和浏览体验。
-
公开(公告)号:CN109359687A
公开(公告)日:2019-02-19
申请号:CN201811220100.X
申请日:2018-10-19
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06K9/6256 , G06T3/4007 , G06T7/11 , G06T2207/20132
Abstract: 本申请提出一种视频风格转换处理方法和装置,其中,方法包括:根据样本图片的风格属性信息设置反映风格属性特征网络层的第一目标输出向量,根据当前输入视频帧的内容信息设置反映内容特征网络层的第二目标输出向量,根据当前输入视频帧的光流场信息设置反映光流场特征网络层的第三目标输出向量,根据第一目标输出向量、第二目标输出向量、第三目标输出向量训练目标模型中每个网络层的网络参数,根据满足预设训练条件时对应的目标网络参数和目标模型生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。由此,在确保视频流畅性的同时提高了视频风格转换处理的效率。
-
公开(公告)号:CN108986049A
公开(公告)日:2018-12-11
申请号:CN201810802681.1
申请日:2018-07-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06T5/00
Abstract: 本申请实施例公开了用于处理图像的方法和装置。该方法的一具体实施方式包括:获取待处理有雾图像,以及对待处理有雾图像进行最小值滤波,获得待处理有雾图像的灰度图;按照像素值由大到小的顺序,从灰度图中选取目标数量个像素点,以及从待处理有雾图像中确定与所选取的像素点相对应的图像区域;获取图像区域所包括的像素点的像素值,以及基于所获取的像素值,确定大气光值;基于灰度图和大气光值,对待处理有雾图像进行图像去雾处理,获得处理后图像。该实施方式提高了图像显示的效果和图像处理的效率。
-
公开(公告)号:CN107808007A
公开(公告)日:2018-03-16
申请号:CN201711139649.1
申请日:2017-11-16
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30681 , G06F17/30696 , G06F17/30867
Abstract: 本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:解析所接收到的用户发送的语音查询请求,得到与语音查询请求相对应的文本查询信息;获取利用文本查询信息进行搜索所得到的文本推送信息;对文本推送信息进行处理,得到与文本推送信息相对应的待推送信息;播放待推送信息。该实施方式能够在用户不便于浏览信息的情况下播放信息,从而使用户能够及时获取信息。
-
公开(公告)号:CN104850614A
公开(公告)日:2015-08-19
申请号:CN201510246199.0
申请日:2015-05-14
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明实施例公开了一种推荐查询词展现方法和装置,所述方法包括:当获取到推荐查询词展现事件之时,根据用户的历史查询词,获取推荐查询词;向所述用户展现所述推荐查询词;根据所述用户的搜索指示进行搜索,并显示搜索结果。本发明实施例提供的推荐查询词展现方法和装置能够更加灵活、智能地实现推荐查询词的推送和展现。
-
-
-
-
-
-
-
-