-
公开(公告)号:CN117173284A
公开(公告)日:2023-12-05
申请号:CN202311030829.1
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G06V10/44 , G06V10/82 , G06F18/213 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/045
Abstract: 本申请公开了一种图像生成方法、装置、设备和存储介质,其中,图像生成方法包括:获取原始图像;显示对原始图像分析得到的图像描述文本;响应于对图像描述文本的编辑指令,获取图像描述文本编辑之后的目标描述文本;显示基于目标描述文本所生成的目标图像。上述方案,仅需用户根据实际需求对原始图像的图像描述文本进行编辑,便可基于编辑后的目标描述文本自动生成用户期望的目标图像,无需用户花费大量时间手动编辑原始图像,提高了生成目标图像的效率。
-
公开(公告)号:CN110853082B
公开(公告)日:2023-12-01
申请号:CN201910999961.0
申请日:2019-10-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种医学图像配准方法、装置、电子设备及计算机存储介质,通过获取目标用户的目标器官的基准图像序列和待配准图像序列;并根据所述基准图像序列的整体结构特征矫正所述待配准图像序列,得到第一配准图像序列;再根据所述基准图像序列中结节的关联特征矫正所述第一配准图像序列,得到第二配准图像序列。可以排除病灶体积变化的干扰,大大提升了多期医学图像配准的准确率。(56)对比文件Yoshiki Kawata等.Tracking intervalchanges of pulmonary nodules using asequence of three-dimensional thoracicimages.PROCEEDINGS OF SPIE.2000,第3979卷全文.
-
公开(公告)号:CN116935404A
公开(公告)日:2023-10-24
申请号:CN202310692381.3
申请日:2023-06-09
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/41 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种文本识别方法及相关装置、设备和存储介质,其中,文本识别方法包括:提取待识别图像的图像特征;基于图像特征执行如下第一解码操作:基于上一解码时刻的解码信息,从图像特征提取得到当前解码时刻的第一视觉特征;并基于当前解码时刻的第一视觉特征及上一解码时刻的解码信息,得到当前解码时刻的语言特征;及基于第一视觉特征和语言特征进行解码,得到当前解码时刻的解码字符;其中,解码信息包括解码字符、解码状态中至少一者,组合各个解码时刻的解码字符得到第一解码操作的候选识别文本;基于若干种解码操作各自的候选识别文本,得到待识别图像的目标识别文本。上述方案,能够提升文本识别的准确性,特别是在OOV上的准确性。
-
公开(公告)号:CN116883700A
公开(公告)日:2023-10-13
申请号:CN202310798362.9
申请日:2023-06-29
Applicant: 科大讯飞股份有限公司
IPC: G06V10/75 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了图像处理方法、装置、设备及存储介质,具体实现方案为:获取第一图像中的各个图形元素的属性信息,所述各个图形元素构成所述第一图像中的第一图形对象,根据所述第一图像中的各个图形元素的属性信息,确定所述第一图形对象的图结构信息,以及,获取第二图像中的第二图形对象的图结构信息;至少根据所述第一图形对象的图结构信息,以及所述第二图形对象的图结构信息,从所述第二图形对象中确定出与所述第一图形对象匹配的图形区域。根据本申请的技术方案,能够有效提升拼图图像匹配的准确性。
-
公开(公告)号:CN116612543A
公开(公告)日:2023-08-18
申请号:CN202310651876.1
申请日:2023-06-01
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种情感识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标视频,其中,目标视频为缺少目标模态信号的视频,然后提取目标视频中非目标模态信号的信号特征,并对该非目标模态信号的信号特征进行解码,生成目标模态信号;接着,提取目标模态信号的信号特征,并利用该目标模态信号或非目标模态信号,生成目标视频对应的文本特征;进而可以根据目标模态信号的信号特征、非目标模态信号的信号特征以及文本特征,对目标视频中的目标用户进行情感识别,得到目标用户对应的情感识别结果。可见,由于本申请的识别依据更加准确,从而能够进一步提高最终情感识别结果的准确率。
-
公开(公告)号:CN116051604A
公开(公告)日:2023-05-02
申请号:CN202310074684.9
申请日:2023-01-16
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种人脸跟踪方法、装置、电子设备及存储介质,所述方法包括:获取视频帧序列中的当前帧,并判断所述当前帧的类型;若所述当前帧是检测帧,则对所述检测帧进行人脸检测,并根据人脸检测的结果进行不同处理,包括:未检出人脸时根据人脸关键点信息执行相似度计算,以及检出人脸时根据深度信息选择最优人脸;若所述当前帧是跟踪帧,则对所述跟踪帧进行人脸标定,并根据人脸标定的结果对当前帧的人脸关键点信息和上一帧的人脸关键信息的相似度计算;当所述检测帧或所述跟踪帧执行相似度计算的结果满足第一预设要求时,获取跟踪框以执行跟踪操作。由于引入了相似度和人脸区域深度信息,使得本发明即使在复杂的场景下,也能实现正确跟踪。
-
公开(公告)号:CN115546875B
公开(公告)日:2023-04-04
申请号:CN202211381696.8
申请日:2022-11-07
Applicant: 科大讯飞股份有限公司
IPC: G06V40/16 , G06V20/59 , G06V10/778 , G06V10/80
Abstract: 本发明公开了一种基于多任务的座舱内行为检测方法、装置以及设备,座舱内行为检测方法包括:接收座舱内的实时图像;识别所述实时图像中的人脸区域,扩大所述人脸区域形成的第一外轮廓,并提取扩大后的第一外轮廓所围区域的图像,作为输入图像;将所述输入图像输入多线索识别模型,获得每个目标行为的第一检测结果;所述多线索识别模型中,每个目标行为对应一个线索;对每个目标行为的第一检测结果进行分析,并判断是否满足提醒条件;若满足,则输出针对所述目标行为的提醒信息。本发明既充分利用了人脸全图语义信息,降低了误触发率,又减少了识别模型的数量,大大提高了车机的运行效率。
-
公开(公告)号:CN115424356B
公开(公告)日:2023-04-04
申请号:CN202211381906.3
申请日:2022-11-07
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V10/82 , G06V10/764 , G06F3/01 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种座舱内手势交互方法及装置,座舱内手势交互方法包括:接收座舱内的实时图像;将实时图像输入手势识别模型,获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果;依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备;其中,对于不同的第一座舱位置,相同的第一手势对应的控制指令不同。本发明通过手势识别模型直接获得手势类别检测结果,避免两阶段手势识别导致的车机工作压力,并通过识别手势动作人所在的座舱位置,为不同座舱位置上的相同手势配置不同的功能,提高了手势交互的丰富度。
-
公开(公告)号:CN115761892A
公开(公告)日:2023-03-07
申请号:CN202211486388.1
申请日:2022-11-24
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/08 , G06N3/09
Abstract: 本发明公开了一种基于流式图像的手势识别模型训练方法、装置及电子设备,本发明的主要构思在于,一方面通对连续帧图像进行信息流式读取、特征流式提取、结果流式输出,使得训练过程接近真实的应用场景,消除了训练与推理不匹配问题,使得训练过程更接近实际应用部署;另一方面在上述流式基础训练模式下,提出以此方式训练第一、第二手势识别模型,且在该第一、第二手势识别模型之间建立预设的互学习策略,使得用于最终部署的仅依据历史图像信息的第二手势识别模型能够具备预测未来信息的能力,从而既提升了手势识别模型的识别效果,又保障了推理效率更为接近实时,进而能够有效提升人机交互中手势交互的可用性。
-
公开(公告)号:CN115713714A
公开(公告)日:2023-02-24
申请号:CN202211458206.X
申请日:2022-11-21
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种运动测评方法、装置、系统、电子设备和存储介质,其中方法包括:获取待测视频流;对所述待测视频流中的各帧进行人体骨骼点检测,得到所述各帧的脚部骨骼点位置信息;基于所述各帧的脚部骨骼点位置信息,以及所述待测视频流的跑道位置信息,进行运动测评;所述跑道位置信息包括各跑道的准备区域位置信息、跑道区域位置信息和终点区域位置信息。本发明提供的方法、装置、系统、电子设备和存储介质,应用待视频流中各帧的脚部骨骼点位置信息,以及待测视频流中以跑道为单位进行区域划分所得的跑道位置信息,进行精细化的运动测评,从而避免运动测评过程中可能存在误判、漏判的问题,保证运动测评结果的可靠性。
-
-
-
-
-
-
-
-
-