-
公开(公告)号:CN115690359B
公开(公告)日:2023-12-15
申请号:CN202211326541.4
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种点云处理方法、装置、电子设备及存储介质,所述点云处理方法,包括:将目标对象的三维点云投影至预先构建的二维平面,获得所述二维平面中的与各个三维点云点对应的二维投影点;基于所述二维平面中的二维投影点,构建二维投影点网格;根据所述二维投影点网格,以及所述二维投影点与所述三维点云点之间的投影关系,获得所述三维点云的点云网格。该方法通过将三维点云投影至预先构建的二维平面,将对三维点云的点云网格构建问题转化成了二维投影点网格构建问题,并在获得二维投影点网格后,根据二维投影点与三维点云点之间的对应关系,获得三维点云的点云网格,降低了点云网格的构建难度,提高了点云网格的构建效率。
-
公开(公告)号:CN117177025A
公开(公告)日:2023-12-05
申请号:CN202311030930.7
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
Inventor: 刘聪 , 徐浩然 , 高建清 , 姚仕豪 , 何山 , 郜静文 , 杨硕 , 殷保才 , 殷兵 , 刘烨秋 , 付新勇 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 胡国平 , 魏思 , 王士进 , 刘权
IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08
Abstract: 本申请公开了一种视频生成方法、装置、设备和存储介质,其中,视频生成方法包括:基于用户关于期望输出文稿的语音数据,得到对应的识别文本;获取原始图像和用于指示视频生成的第一描述文本;获取至少响应于所述第一描述文本而生成的文案文本;获取由所述文案文本合成得到的视频配音;至少基于所述原始图像和所述视频配音,生成目标视频。通过该方式,能够缩短视频制作的时间,降低视频制作的成本,提高视频制作的工作效率。
-
公开(公告)号:CN117173483A
公开(公告)日:2023-12-05
申请号:CN202311196008.5
申请日:2023-09-15
Applicant: 科大讯飞股份有限公司
IPC: G06V10/764 , G06V10/74 , G06V10/80 , G06V20/56
Abstract: 本申请公开了一种物体识别方法、装置、设备及存储介质,本申请获取待识别图片对应的文本模态的多条候选类别,多条候选类别包括待识别图片中物体的真实类别;利用多模态大模型分别提取每条候选类别的文本特征,以及,提取待识别图片的视觉特征;计算待识别图片的视觉特征与每条候选类别的文本特征间的相似度,取最高相似度对应的候选类别作为待识别图片中物体的目标类别。本申请借助多模态大模型强大的通用知识的表示能力,可以更加准确地提取特征,进而基于提取的特征进行物体识别,提升识别准确度,避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题,以及面对特殊视角拍摄的图片的识别准确率不高的问题。
-
公开(公告)号:CN117116247A
公开(公告)日:2023-11-24
申请号:CN202311030882.1
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/047
Abstract: 本发明提供了一种音频生成方法、装置、设备及存储介质,音频生成方法包括:获取目标文本;确定目标文本所涉及的角色,得到若干角色;确定与每个角色匹配的发音人信息,并确定目标文本中每个句子所属的角色;根据目标文本、与每个角色匹配的发音人信息以及目标文本中每个句子所属的角色,合成目标文本对应的音频,在合成音频后,还可为合成的音频添加音效和背景音乐。本发明提供的音频生成方法可根据目标文本生成声音丰富的音频,收听者体验较好。
-
公开(公告)号:CN114900714B
公开(公告)日:2023-11-21
申请号:CN202210382403.1
申请日:2022-04-12
Applicant: 科大讯飞股份有限公司
IPC: H04N21/234 , H04N19/42 , H04N19/44 , G06T9/00 , G06N3/0455 , G06N3/08
-
公开(公告)号:CN117032869A
公开(公告)日:2023-11-10
申请号:CN202311030903.X
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
IPC: G06F9/451 , G06T11/60 , G06F40/106
Abstract: 本申请公开了一种图文内容生成方法、装置、设备及存储介质,本申请获取需要生成配图的文本信息,从文本信息中获取到关键信息,作为生成配图时的参考文本信息。调用预配置的文图生成模型,借助文图生成模型强大的基于文本生成匹配语义的图片的能力,可以基于获取的关键信息生成与关键信息匹配的图片,融合文本信息与生成的图片,得到图文内容。本申请方案借助AI文图生成模型的能力,可以自动生成与文本信息匹配的图片,且鉴于文图生成模型所生成图片的多样性和文本一致性,可以保证生成的图片的质量且与文本信息的语义是匹配的,最终得到内容质量较高的图文内容,整个过程不依赖于纸质书籍,生成成本大幅降低。
-
公开(公告)号:CN116561276A
公开(公告)日:2023-08-08
申请号:CN202310506317.1
申请日:2023-05-05
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F3/0483 , G06F16/583
Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质,方法包括:获取用户输入的图片及与图片相关的问题文本,获取图片的描述信息,并将描述信息作为问答知识提供给大语言模型,使得大语言模型能够理解图片中的图像内容,将其作为知识问答对话的上下文信息,在此基础上,将用户输入的问题文本作为提示指令输入给大语言模型,大语言模型能够基于前述理解的图片中的图像内容,对该问题文本进行理解及回复。本申请支持多模态的问题输入,用户可以基于图片进行知识问答,扩展了知识问答的应用场景。并且,按照本申请的方案可以使得大语言模型能够理解图片的图像内容,基于此能够更加准确的给出问题文本所匹配的答复内容。
-
公开(公告)号:CN111583916B
公开(公告)日:2023-07-25
申请号:CN202010430127.2
申请日:2020-05-19
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,其中,语音识别方法包括:获取目标语音数据和其对应的唇部图像数据,其中,唇部图像数据包括目标语音数据所涉及的每个说话人的唇部图像序列;以目标语音数据对应的唇部图像数据为辅助信息,利用预先建立的混叠语音识别模型,对目标语音数据按说话人进行分离,并对分离后的语音数据进行识别,得到目标语音数据的识别结果;其中,混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本,同时结合训练样本对应的唇部图像数据训练得到。本申请提供的语音识别方案对于嘈杂环境下的混叠语音具有较好的识别效果。
-
公开(公告)号:CN116343235A
公开(公告)日:2023-06-27
申请号:CN202310141914.9
申请日:2023-02-13
Applicant: 科大讯飞股份有限公司
IPC: G06V30/226 , G06V30/18 , G06V10/80
Abstract: 本申请提供了文本的识别方法、装置、设备及存储介质,具体实现方案为:获取待识别文本的动态笔迹的点级轨迹信息和笔画级轨迹信息;利用所述点级轨迹信息和所述笔画级轨迹信息确定对应的轨迹点特征;基于所述轨迹点特征得到所述待识别文本的识别结果。根据本申请的技术方案,能够有效提升手写文本识别的准确性。
-
公开(公告)号:CN116311322A
公开(公告)日:2023-06-23
申请号:CN202310297595.0
申请日:2023-03-23
Applicant: 科大讯飞股份有限公司
IPC: G06V30/416 , G06V30/24 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本申请公开了一种文档版面要素检测方法、装置、存储介质及设备,该方法包括:首先获取待检测的目标文档所在的目标图像;然后根据预设版面要素类型,构建预设版面要素对应的编码向量;接着将目标图像和编码向量输入预先构建的文档版面要素检测模型,预测得到目标文档对应的版面要素检测结果;其中,文档版面要素检测模型是利用对比学习和掩码预测的预训练方式,根据预设文档混合要素训练得到的。可见,由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测,从而能够有效提高版面要素的检测效率和准确率,并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测,进而能够提高用户体验。
-
-
-
-
-
-
-
-
-