-
公开(公告)号:CN105447901B
公开(公告)日:2019-08-27
申请号:CN201410505493.4
申请日:2014-09-26
Applicant: 腾讯科技(深圳)有限公司
IPC: G06T13/80
Abstract: 本发明公开了一种图像处理方法和装置,属于图像处理领域。该方法包括:获取图像,图像中包括水墨画的多个笔画;从该多个笔画中获取多个主干笔画;对于每个主干笔画,获取该主干笔画的多个角点;根据该多个角点之间的相对位置关系,确定该主干笔画的端点;根据每个主干笔画的端点,构建该水墨画的拓扑结构,该拓扑结构中包括每个主干笔画对应的边缘线段;根据每个边缘线段的位置,计算每个边缘线段的权重;根据该拓扑结构中每个边缘线段的位置和权重,确定每个主干笔画在该图像中的绘制顺序。本发明提供了一种获取水墨画的笔画绘制顺序的方法,能够根据已经绘制完成的水墨画,自动地得到笔画的绘制顺序。
-
公开(公告)号:CN106297807B
公开(公告)日:2019-03-01
申请号:CN201610639606.9
申请日:2016-08-05
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种训练声纹识别系统的方法和装置,属于声纹识别技术领域。该方法包括:确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别;建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和;确定出使各个类别的第一数值的总和最大化的规整矩阵;利用确定出的规整矩阵规整声纹识别系统中获取的语音的身份向量。解决了相关技术中利用经过利用线性区分分析处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
-
公开(公告)号:CN107274905A
公开(公告)日:2017-10-20
申请号:CN201610218436.7
申请日:2016-04-08
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开了声纹识别方法,包括:分别训练N个身份因子I-Vector矩阵,得到N个I-Vector矩阵;N为大于1的自然数;根据N个I-Vector矩阵,从测试样本中分别提取中N个对应的I-Vector向量;根据N个对应的I-Vector分别计算得分,得出N个对应的分数;将N个对应的分数进行融合,得到目标分数,并根据目标分数进行判决。采用本发明,能够实现在海量训练数据前提下,突破现有技术中单一I-Vector框架声纹识别性能瓶颈的技术问题,经测试表明,通过两个以上经过足量数据训练的I-Vector框架相对于单一I-Vector框架系统整体性能均能提升20%~30%左右。
-
公开(公告)号:CN105915639A
公开(公告)日:2016-08-31
申请号:CN201610399281.1
申请日:2016-06-06
Applicant: 腾讯科技(深圳)有限公司
IPC: H04L29/08
Abstract: 本发明公开了一种页面访问方法及装置。其中,该方法包括:获取通过终端上运行的客户端发送的用于访问待访问页面的页面访问请求;判断页面访问请求中所携带的待访问页面的页面请求信息是否满足预设条件;在判断出满足预设条件时,向终端发送响应消息,其中,响应消息携带有用于指示终端直接访问待访问页面的页面服务器获取待访问页面中的页面资源的指示信息。本发明解决了由于采用黑白名单进行页面访问所导致的对页面访问控制的实时性较差的技术问题。
-
公开(公告)号:CN108053821B
公开(公告)日:2022-09-06
申请号:CN201711316756.7
申请日:2017-12-12
Applicant: 腾讯科技(深圳)有限公司 , 腾讯云计算(北京)有限责任公司
Abstract: 本发明实施例公开了一种生成音频数据的方法和装置,属于文语转换领域。所述方法包括:将目标文本转换为多个声学特征单元;基于每个声学特征单元,生成所述每个声学特征单元对应的音频数据单元;复用目标内存区域,根据所述目标文本的多个音频数据单元,生成多个子音频数据,其中,每次在所述目标内存区域中写入预设数目的音频数据单元以得到子音频数据;每生成一个子音频数据,将所述子音频数据写入存储器;对所述存储器中所写入的多个子音频数据进行合并,得到所述目标文本对应的目标音频数据。采用本发明,可以减少内存占用量。
-
公开(公告)号:CN109117803B
公开(公告)日:2021-08-24
申请号:CN201810952542.7
申请日:2018-08-21
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种人脸图像的聚类方法、装置、服务器及存储介质,属于图像处理技术领域。所述方法包括:确定每张人脸图像的人脸区域和人体区域;根据从每张人脸图像的人脸区域中提取的人脸特征,对多张人脸图像进行聚类,得到多个人脸图像集合;将每张人脸图像上的人脸区域与人体区域进行关联;根据与两个人脸图像集合中每张人脸图像的人脸区域相关联的人体区域,确定两个人脸图像集合之间的集合相似度;如果集合相似度满足第一阈值条件,则将两个人脸图像集合进行合并。本发明通过将人脸区域和人体区域进行关联,并基于相关联的人体区域,对人脸图像的聚类结果进行优化,将属于同一用户的人脸图像集合进行合并,提高了人脸图像聚类的准确性。
-
公开(公告)号:CN110321448A
公开(公告)日:2019-10-11
申请号:CN201910569695.8
申请日:2019-06-27
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/53
Abstract: 本发明实施例公开了一种图像检索方法、装置和存储介质;本发明实施例在接收用户发送的图像检索请求后,该图像检索请求携带数据库标识和需要检索的图像特征,可以获取该数据库标识对应的目标数据库,该目标数据库包括多个子库,接着,基于子库中的数据为每个子库配置预设大小的显存空间,然后,将子库中的数据存储至该显存空间中,得到每个子库对应的存储块,再根据该图像特征并行对所有存储块中的数据进行检索,得到每个存储块的初始检索结果,再然后,对所有存储块中的初始检索结果进行整合,得到检索结果;该方案可以提高显存的利用率。
-
公开(公告)号:CN107293308B
公开(公告)日:2019-06-07
申请号:CN201610201636.1
申请日:2016-04-01
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L25/54
Abstract: 本发明实施例提供一种音频处理方法及装置,其中的方法可包括:获取目标音频的N(N≥1的自然数)帧音频数据;提取所述N帧音频数据中每帧音频数据的音频特征参数;根据所述音频特征参数,将所述N帧音频数据映射至K(K≥1的自然数)个聚类,形成K维特征向量;基于所述K维特征向量,计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度,并将相似度满足预设条件的类别确定为所述目标音频的类别。采用本发明实施例可自动准确地确定目标音频的类别,分类速度快,节省人力成本。
-
公开(公告)号:CN105869645B
公开(公告)日:2019-04-12
申请号:CN201610178300.8
申请日:2016-03-25
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L17/08 , G10L21/0272
Abstract: 本发明公开了一种语音数据处理方法和装置。该方法包括:获取多个语音样本中每个语音样本的I‑Vector向量,并确定多个语音样本中的目标种子样本;分别计算目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,目标语音样本的I‑Vector向量与目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。本发明解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。
-
公开(公告)号:CN106169295B
公开(公告)日:2019-03-01
申请号:CN201610560366.3
申请日:2016-07-15
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明涉及一种身份向量生成方法和装置,该方法包括:获取待处理语音数据;从所述待处理语音数据提取相应的声学特征;对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;根据统计得到的所述统计量和所述参考统计量确定修正统计量;根据所述修正统计量生成身份向量。本发明提供的身份向量生成方法和装置,提高身份向量的身份识别性能。
-
-
-
-
-
-
-
-
-