-
公开(公告)号:CN117541621A
公开(公告)日:2024-02-09
申请号:CN202311491068.X
申请日:2023-11-07
Applicant: 科大讯飞股份有限公司
IPC: G06T7/246
Abstract: 本发明提供一种目标跟踪方法和装置,该方法包括:根据多个目标对象中的各个目标对象的历史轨迹、各个目标对象对应的目标帧间隔和扩展卡尔曼滤波模型,确定各个目标对象在当前图像帧中的预测框;将当前图像帧输入至三维检测模型,输出当前图像帧中所有目标对象所对应的多个检测框;将各个目标对象在当前图像帧中的预测框和当前图像帧中的多个检测框进行匹配,得到各个目标对象的跟踪结果。本发明的方法通过引入扩展卡尔曼滤波和目标帧间隔,从而在某些帧数据丢失或者缺失的情况下,仍然可以利用扩展卡尔曼滤波模型更好的感知时间维度的信息,动态地调整缺帧后的预测范围,有效地提升了轨迹预测结果的准确性,实现了多目标的准确高效的跟踪。
-
公开(公告)号:CN117336567A
公开(公告)日:2024-01-02
申请号:CN202311030837.6
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
Inventor: 高建清 , 左童春 , 姚仕豪 , 何山 , 郜静文 , 杨硕 , 殷保才 , 殷兵 , 刘烨秋 , 付新勇 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 胡国平 , 刘聪 , 魏思 , 王士进 , 刘权
IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08
Abstract: 本申请公开了一种视频生成方法、装置、设备和存储介质,其中,视频生成方法包括:获取原始文稿和原始文稿的原始配图;获取响应于原始文稿和原始配图而分析得到且用于配音的参考数据;其中,参考数据包含文案文本、表征文案文本所蕴含情感信息的第一文本和至少表征文案文本需采用发音音色的第二文本;基于参考数据进行语音合成,得到视频配音;至少基于原始配图和视频配音,生成目标视频。上述方案,能够提高视频生成效率,降低视频生成成本。
-
公开(公告)号:CN112052909B
公开(公告)日:2023-12-01
申请号:CN202010981581.7
申请日:2020-09-17
Applicant: 科大讯飞股份有限公司
IPC: G06V10/75
Abstract: 本发明实施例提供一种图形匹配方法、装置、电子设备和存储介质,其中方法包括:对待匹配的第一图形和第二图形分别进行轮廓提取,得到所述第一图形的第一轮廓以及所述第二图形的第二轮廓;基于所述第一轮廓中的各第一轮廓点与所述第二轮廓中各第二轮廓点之间的对应关系,确定对所述第一轮廓进行平面几何变换后比对得到的图形匹配结果;其中,所述对所述第一轮廓进行平面几何变换的目标是最小化各第一轮廓点及其对应的第二轮廓点间的距离。本发明实施例提供的图形匹配方法、装置、电子设备和存储介质,提高了图形匹配结果的精确性,同时更精确地反映出了第一轮廓与第二轮廓之间具体的差异之处。
-
公开(公告)号:CN117115922A
公开(公告)日:2023-11-24
申请号:CN202311284288.5
申请日:2023-09-28
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/764 , G06T7/70
Abstract: 本发明涉及计算机视觉领域,提供一种坐位体前屈评测方法、系统、电子设备和存储介质,其中方法包括:获取待测视频流;对所述待测视频流中的各帧图像进行人体骨骼点和测试仪检测,得到所述各帧图像的骨骼点位置信息和测试仪位置信息;基于所述各帧图像的骨骼点位置信息和测试仪位置信息,对所述各帧图像进行动作属性分类,得到所述各帧图像的动作属性;基于所述各帧图像的动作属性,进行坐位体前屈评测。本发明提供的坐位体前屈评测方法、系统、电子设备和存储介质,相较于基于图像的动作属性分类方法,可简单有效地学习骨骼点间的动作关系,能够降低计算量提高运行效率;同时设备简单,使用便捷。
-
公开(公告)号:CN117077081A
公开(公告)日:2023-11-17
申请号:CN202311070530.9
申请日:2023-08-23
Applicant: 科大讯飞股份有限公司
IPC: G06F18/25 , G06F18/2431 , G06V40/20 , G06V20/64 , G10L15/26 , G06F40/30 , G06V10/80 , G06V10/82 , G06T7/73 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种人体指向预测方法、装置、机器人及存储介质,本申请在进行人体指向预测时获取了多模态数据,其中包括对人体拍摄的目标图像、人体的深度点云图以及用户的语音指令。进一步对语音指令进行识别,得到识别文本。分别对目标图像、深度点云图和识别文本进行编码,将各个编码结果进行拼接,得到多模态特征,进而可以基于多模态特征确定人体指向点坐标。本申请方案不需要用户佩戴指定硬件传感器,成本较低。并且,采用了多模态数据来进行人体指向的预测,所参考的数据更加丰富,从而大大提高了人体指向预测结果的准确性。
-
公开(公告)号:CN116665233A
公开(公告)日:2023-08-29
申请号:CN202310234564.0
申请日:2023-03-07
Applicant: 科大讯飞股份有限公司
IPC: G06V30/412 , G06V30/146 , G06F40/177
Abstract: 本申请提出一种手写表格识别方法及相关装置,该方法包括:对手写表格图像中的表格进行矫正处理,得到矫正表格图像;确定所述矫正表格图像中的各个单元格的位置,以及,识别所述矫正表格图像中的各个文本行以及各个文本行的位置;基于所述矫正表格图像中的各个单元格的位置、所述矫正表格图像中的各个文本行以及各个文本行的位置,生成电子表格。采用上述方案可以有效地将手写表格转换为电子表格。
-
公开(公告)号:CN116580127A
公开(公告)日:2023-08-11
申请号:CN202310856919.X
申请日:2023-07-13
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种图像生成方法、装置、电子设备和计算机可读存储介质,该方法包括:获取第一生成图像;响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息;基于第一生成信息生成调整图像;利用调整图像对待调整区域进行调整,得到第二生成图像,上述方案,能够提高图像生成效率。
-
公开(公告)号:CN115996303B
公开(公告)日:2023-07-25
申请号:CN202310290547.9
申请日:2023-03-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/44 , G06V40/16 , G06V10/80 , G06N3/0442 , G06N3/094 , H04N21/439 , H04N21/472 , G10L25/57
Abstract: 本发明涉及图像处理技术领域,提供一种视频生成方法、装置、电子设备和存储介质。方法包括:获取混合语音和多人画面,并对所述多人画面进行人脸检测,获得多个人脸图像,所述混合语音包括至少一人的语音;基于所述多个人脸图像的图像特征和所述混合语音的语音特征,生成多个目标人脸图像组,任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像;将所述多个目标人脸图像组与所述多人画面进行融合,得到多帧目标多人同屏画面,并将所述多帧目标多人同屏画面与所述混合语音进行融合,得到多人会话视频。本发明无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频,从而节省人工成本,提高多人会话视频的制作效率。
-
-
公开(公告)号:CN116030468A
公开(公告)日:2023-04-28
申请号:CN202211689264.3
申请日:2022-12-27
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06V10/80 , G06V20/70 , G06V10/82 , G06N3/0442
Abstract: 本申请提供了一种阅读顺序的确定方法及装置、电子设备及存储介质,涉及图像处理技术领域。该阅读顺序的确定方法包括:获取目标文本图像中包括的文本行集合,文本行集合中包括至少一个文本行;确定至少一个文本行各自的特征向量;基于至少一个文本行各自的特征向量,对文本行集合进行至少一次文本行解码操作,得到至少一个文本行各自的阅读排序信息;基于至少一个文本行各自的阅读排序信息,确定至少一个文本行对应的阅读顺序。通过对文本行集合中各个文本行的特征向量进行文本行解码操作,得到各个文本行的阅读排序信息,再通过该阅读排序信息确定各个文本行对应的阅读顺序,提高了所确定的文本行的阅读顺序的准确性。
-
-
-
-
-
-
-
-
-