-
公开(公告)号:CN117787212A
公开(公告)日:2024-03-29
申请号:CN202311630251.3
申请日:2023-11-29
Applicant: 科大讯飞股份有限公司 , 中国科学技术大学
IPC: G06F40/109 , G06N3/094 , G06N3/0475
Abstract: 本申请公开了一种个性化手写字体生成方法、模型训练方法及相关设备,用户可以书写任意少量文字并拍摄得到文字图像,获取用户书写的每个文字的骨架结构图,从中选取设定数量个文字的骨架结构图,利用图像风格提取器对选取的文字的骨架结构图进行处理得到用户书写的风格特征,利用内容参考字特征提取器对指定的内容参考字进行处理得到内容结构特征,将风格特征和内容结构特征进行融合,利用融合特征生成具有用户书写风格的个性化字体。本申请方案仅需要用户书写少量的文字来提取风格特征,进而可以生成大量的具有用户书写风格的个性化字体,既能够保证与用户书写风格的统一,又可以保证生成的字体结构的正确性,相比现有技术节约成本,提升效率。
-
公开(公告)号:CN117725168A
公开(公告)日:2024-03-19
申请号:CN202311381504.8
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06V20/62 , G06T9/00
Abstract: 本申请公开了一种开放式问答方法、装置及相关设备,多模态大模型包括图像编码模块和大语言模型,在回答与目标图像相关的问题文本时,可以调用文本识别算法对目标图像进行文本识别,得到文本识别结果,可以通过大语言模型得到该文本识别结果的特征表示,进一步,大语言模型在解码答案文本时其输入除了包含传统的问题文本的特征表示及训练图像的特征表示之外,额外增加了对目标图像的文本识别结果的特征表示,使得大语言模型可以关注到目标图像中文本内容及其位置信息,如此可以使得多模态大模型具备文字空间感知能力,因而在回答与文字空间排布相关问题时能够基于掌握的对文字的空间感知能力准确给出正确回答。
-
公开(公告)号:CN117608407A
公开(公告)日:2024-02-27
申请号:CN202311649601.0
申请日:2023-12-01
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种交互方法、装置及存储介质、电子设备,该方法包括:获取手部图像;当检测到所述手部图像中存在多个交互手时,确定主交互手;识别所述主交互手的第一手指轨迹,并根据所述第一手指轨迹确定目标指令和目标对象;根据所述目标指令对所述目标对象进行控制。该方法在检测到手部图像中存在多个交互手时,通过确定主交互手,对主交互手的指尖轨迹进行追踪识别,确定目标指令和目标对象并根据目标指令对目标对象进行控制,实现主交互手的操作意图,具有识别准确,不易被干扰的优点。
-
公开(公告)号:CN117275094A
公开(公告)日:2023-12-22
申请号:CN202311320396.3
申请日:2023-10-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0985 , G06N3/0464
Abstract: 本发明提供一种手势识别方法、装置、电子设备及存储介质,该方法包括:将至少一帧图像输入手势识别模型的编码模块中,输出各图像对应的编码特征;各图像包括至少一个对象;将各图像对应的编码特征和至少一个查询特征输入手势识别模型中与图像对应的解码模块中,输出解码特征;至少一个查询特征与解码模块对应;对象和查询特征一一对应,解码特征包括通过查询特征从编码特征中查询的对应对象的手势特征;将解码特征输入手势识别模型中与图像对应的识别模块中,基于手势特征确定图像中各对象的手势类别;基于各图像中各对象的手势类别,确定各对象的手势。基于此,通过一个模型同时识别多个对象的手势,能提高手势识别的效率。
-
公开(公告)号:CN117237989A
公开(公告)日:2023-12-15
申请号:CN202311244839.5
申请日:2023-09-25
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F16/33 , G06F16/35
Abstract: 申请公开了一种目标检测方法、装置、设备及存储介质,本申请将待检测图像切分为若干个子图像;利用图像编码器提取每一子图像的图像特征,利用文本编码器提取类别集合中每一候选类别标签的语义特征,图像编码器和文本编码器以学习图像和文本之间的对齐关系为训练目标,基于文本‑图像对训练数据训练得到;将每一子图像的图像特征分别与各个候选类别标签的语义特征计算相似度,取相似度最高的目标候选类别标签作为子图像的类别标签,最终得到待检测图像的目标检测结果。本申请方案对新增类别目标进行检测时,只需要将新增类别标签添加到类别集合中即可,无需对新增类别目标额外获取标注数据及重新训练神经网络模型,降低了人力和时间开销。
-
公开(公告)号:CN110796659B
公开(公告)日:2023-12-01
申请号:CN201911289667.7
申请日:2019-12-13
Applicant: 科大讯飞股份有限公司
IPC: G06T7/00 , G06T7/136 , G06V10/764 , G06V10/80 , G06V10/82 , G06V10/40 , G06N3/044 , G06N3/0464 , G06N3/09
Abstract: 本申请提出一种目标检测结果的鉴别方法、装置、设备及存储介质,其中,该方法包括:获取初始目标检测结果,所述初始目标检测结果为从图像中检测图像目标得到的初步检测结果;将所述初始目标检测结果划分为图像单元序列,并根据所述图像单元序列提取所述初始目标检测结果的内部结构特征;至少根据所述内部结构特征,确定所述初始目标检测结果是否为图像目标。该方法基于初始目标检测结果的内部结构对初始目标检测结果进行鉴别,可以准确识别初始目标检测结果是否为图像目标。
-
公开(公告)号:CN115909418B
公开(公告)日:2023-07-25
申请号:CN202310180797.7
申请日:2023-03-01
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/80 , G06V10/82 , G06V20/70 , G06V10/26 , G06V10/764 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F3/01
Abstract: 本申请公开了一种人体指向确定、屏幕控制方法、装置及相关设备,本申请同时获取对人体拍摄的目标图像以及深度点云数据,提取目标图像的人体掩码特征,以及提取深度点云数据的深度点云特征,基于人体掩码特征对深度点云特征进行处理,得到深度补全特征,基于深度补全特征确定人体指向点信息。本申请在传统的基于人体深度点云数据进行人体指向估计的基础上,额外考虑了对人体拍摄的目标图像,利用该目标图像的人体掩码特征对深度点云特征进行处理,得到的深度补全特征相比于单纯从深度点云数据中提取的深度点云特征,其包含的信息更加丰富,进而可以更加准确的估计人体指向点信息,提升了人体指向点信息的准确性。
-
公开(公告)号:CN115862074B
公开(公告)日:2023-05-30
申请号:CN202310174852.1
申请日:2023-02-28
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/764 , G06V10/774 , G06F3/01
-
公开(公告)号:CN116030827A
公开(公告)日:2023-04-28
申请号:CN202211677826.2
申请日:2022-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种乐谱的跟随方法、装置、设备及存储介质,具体实现方案为:获取目标对象演奏的音频数据;根据所述音频数据确定对应的音频特征;在所述音频特征与待演奏乐谱中指定音符对应的音符特征匹配的情况下,在所述待演奏乐谱中将所述指定音符的下一音符确定为待演奏音符。根据本申请的技术方案,能够实现乐谱的自动跟随。
-
公开(公告)号:CN115994937A
公开(公告)日:2023-04-21
申请号:CN202310281183.8
申请日:2023-03-22
Applicant: 科大讯飞股份有限公司
IPC: G06T7/55 , G06V10/80 , H04N23/90 , H04N23/695
Abstract: 本申请公开了一种深度估计方法、装置及机器人,本申请的机器人本体前面板上设置有第一摄像模块和深度传感器,机器人本体上方设置有角度可调节的第二摄像模块,本申请获取第一摄像模块采集的第一图像,第二摄像模块采集的第二图像,基于第一图像和第二图像计算得到第一深度信息,并与深度传感器采集的第二深度信息进行融合,得到融合后的深度信息。通过增设角度可调节的第二摄像模块采集第二图像,配合前面板的第一摄像模块所采集的第一图像,可以计算得到第一深度信息,以实现对深度传感器采集的第二深度信息进行补充,提升了深度信息的完整度,可以得到更加密集的点云信息,有助于提升后续依赖于深度信息的相应功能的性能。
-
-
-
-
-
-
-
-
-