-
公开(公告)号:CN115861747A
公开(公告)日:2023-03-28
申请号:CN202211457780.3
申请日:2022-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V10/80 , G06F40/289 , G06V10/764 , G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种图像生成方法、装置、电子设备及存储介质,其中方法包括:获取待绘制目标的描述文本,从所述描述文本中提取所述绘制目标的预设属性的关键词;基于所述关键词,生成所述预设属性的属性图像;以所述描述文本和所述属性图像为约束,生成所述待绘制目标的目标图像。本发明提供的方法、装置、电子设备及存储介质,以描述文本和属性图像为约束,生成待绘制目标的目标图像,目标图像不仅符合描述文本的限定,还符合属性图像的限定,由此,保证了生成的目标图像中目标的预设属性与描述文本中的关键词一致,目标图像在预设属性的呈现上是符合常识认知的,不会生成稀奇古怪的图像结果,提高了生成的目标图像的准确性和可靠性。
-
公开(公告)号:CN115564834A
公开(公告)日:2023-01-03
申请号:CN202211338236.7
申请日:2022-10-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种视线估计方法及装置、存储介质及电子设备,涉及计算机视觉技术领域。该视线估计方法获取相机系统在当前时刻针对目标用户采集的多帧用户图像;基于多帧用户图像,确定目标用户在相机坐标系下的视线方向信息;基于多帧用户图像,确定目标用户在相机坐标系下的瞳孔坐标信息;基于目标用户在相机坐标系下的视线方向信息和瞳孔坐标信息,确定目标用户在世界坐标系下的视线方向信息和瞳孔坐标信息;基于目标用户在世界坐标系下的视线方向信息和瞳孔坐标信息,确定目标用户的视线估计信息。与传统的视线估计方法相比,有效利用了多视角信息,降低了对训练数据量的依赖,扩大了视线估计系统的有效工作范围,提升了视线方向估计的精准度。此外,本申请实施例能够为分析驾驶员的驾驶状态提供全面、准确的支持和依据,具有适用范围广泛的优势。
-
公开(公告)号:CN115546688A
公开(公告)日:2022-12-30
申请号:CN202211193359.6
申请日:2022-09-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种跳远评测方法、装置、电子设备和存储介质,其中方法包括:确定跳远评测区域下的待测视频和刻度线坐标;从所述待测视频中的各帧中,确定落地帧;基于所述落地帧中人员的脚部骨骼点的坐标,对所述落地帧进行脚部分割,得到所述落地帧中的多个脚部轮廓点的坐标;基于所述落地帧中的多个脚部轮廓点的坐标,以及所述刻度线坐标,进行跳远成绩评定,克服了传统方案中跳远成绩测算不准确的缺陷,通过人体检测、姿态估计以及脚部分割分析测试人员所处的状态,以确定落地帧对应的落地帧,并据此进行成绩评定,提升了跳远成绩测算的准确性;此外,利用计算机视觉技术和循环状态机进行跳远评测,还提升了跳远评测效率和体育课堂的教学效率。
-
公开(公告)号:CN113920560A
公开(公告)日:2022-01-11
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
公开(公告)号:CN111612755A
公开(公告)日:2020-09-01
申请号:CN202010414237.X
申请日:2020-05-15
Applicant: 科大讯飞股份有限公司
IPC: G06T7/00
Abstract: 本发明实施例提供一种肺部病灶分析方法、装置、电子设备和存储介质,其中方法包括:将待分析的胸部影像输入至病灶定位模型,得到病灶定位模型输出的胸部影像的肺部病灶定位结果;将基于胸部影像以及胸部影像的肺部病灶定位结果确定的融合影像,或,将胸部影像以及胸部影像的肺部病灶定位结果输入至病灶分析模型,得到病灶分析模型输出的胸部影像的肺部病灶分析结果。本发明实施例提供的方法、装置、电子设备和存储介质,保证肺部病灶分析结果能够全面覆盖包括细小病灶和非典型病灶在内的所有肺部病灶,保证了肺部病灶分析的可靠性和准确性。
-
公开(公告)号:CN110853082A
公开(公告)日:2020-02-28
申请号:CN201910999961.0
申请日:2019-10-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种医学图像配准方法、装置、电子设备及计算机存储介质,通过获取目标用户的目标器官的基准图像序列和待配准图像序列;并根据所述基准图像序列的整体结构特征矫正所述待配准图像序列,得到第一配准图像序列;再根据所述基准图像序列中结节的关联特征矫正所述第一配准图像序列,得到第二配准图像序列。可以排除病灶体积变化的干扰,大大提升了多期医学图像配准的准确率。
-
公开(公告)号:CN110021430A
公开(公告)日:2019-07-16
申请号:CN201910280209.0
申请日:2019-04-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种病灶的属性信息预测方法、装置、设备及存储介质,其中,方法包括:获取指定部位的指定病灶的多期病灶图像;确定每期病灶图像中指定病灶的属性信息,以及多期病灶图像中指定病灶的变化情况信息;基于每期病灶图像中指定病灶的属性信息,以及多期病灶图像中指定病灶的变化情况信息,预测指定部位的指定病灶的属性信息。本申请提供的病灶的属性信息预测方法能够基于指定病灶的多期病灶图像自动预测出指定病灶的属性信息,并且,该预测方法具有较高的预测效率和较高的预测准确度。
-
公开(公告)号:CN119992578A
公开(公告)日:2025-05-13
申请号:CN202510056895.9
申请日:2025-01-14
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V30/18 , G06V30/414 , G06V10/82
Abstract: 本申请提出一种表格识别方法及相关装置,涉及图像识别技术领域。该表格识别方法可以包括:提取表格图像的视觉特征;其中,所述视觉特征包括:表格行特征和表格列特征;基于所述表格行特征确定行线关键点,以及基于所述表格列特征确定列线关键点;基于所述行线关键点预测行分割线,以及基于所述列线关键点预测列分割线;基于预测得到的所述行分割线与所述列分割线,生成结构化表格。本申请提供的技术方案用于解决现有技术中表格识别准确性低的问题。
-
公开(公告)号:CN114360573B
公开(公告)日:2025-04-04
申请号:CN202111660100.3
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0272 , G10L21/0308 , G06F18/214 , G06F18/25 , G06N3/02
Abstract: 本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置,其中,说话者分离模型的训练方法包括:获取样本环境的样本数据,且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列;利用说话者分离模型,对样本数据进行处理得到各说话者的语音分离掩码,并对语音分离掩码和样本数据进行处理得到说话者分离结果,其中,说话者分离结果用于确定样本语音数据中的不同时间片段的说话者;利用语音分离掩码和说话者分离结果,调整说话者分离模型的网络参数。上述方案,能够提高说话者分离效果。
-
公开(公告)号:CN114359910B
公开(公告)日:2025-03-28
申请号:CN202111666321.1
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06T7/73 , G06T7/11
Abstract: 本申请提供一种文本点读方法、计算机设备及存储介质,其中,该方法包括:获取文本点读实际起始点对应的第一区域图像;获取所述第一区域图像对应的第一文字特征信息和/或第一图像特征信息;获取文本点读终止点对应的第二区域图像;获取所述第二区域图像对应的第二文字特征信息和/或第二图像特征信息;将所述第一文字特征信息与所述第二文字特征信息进行比对,和/或将所述第一图像特征信息与所述第二图像特征信息进行比对,确定所述实际起始点映射于所述第二区域图像中的映射起始点;基于所述映射起始点和所述终止点,确定点读选取的文本内容,以对所述文本内容进行点读处理。由此可以提高提高点读的效率和准确性。
-
-
-
-
-
-
-
-
-