-
公开(公告)号:CN119964191A
公开(公告)日:2025-05-09
申请号:CN202311436504.3
申请日:2023-10-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种姿态识别方法及其装置、设备、存储介质,该姿态识别方法包括:获取包含目标的待识别图像;利用姿态识别模型对待识别图像进行特征提取,得到图像特征和关键点特征;基于图像特征和关键点特征进行识别,得到姿态识别结果。上述方案,能够实现姿态的准确识别。
-
公开(公告)号:CN119940464A
公开(公告)日:2025-05-06
申请号:CN202411974153.6
申请日:2024-12-30
Applicant: 安徽影联云享医疗科技有限公司 , 科大讯飞华南人工智能研究院(广州)有限公司 , 讯飞医疗科技股份有限公司 , 科大讯飞股份有限公司
IPC: G06N3/0895 , G06N3/0455 , G06N3/096 , G06V10/82
Abstract: 本发明涉及模型训练,具体涉及基于跨序列局部对比的医学影像视觉编码器的训练方法,从一个序列的3D医学影像数据中随机裁剪出多个第一全局视图、第一局部视图,将第一全局视图分别输入至学生模型、教师模型中,将第一局部视图输入至学生模型中;从另一个序列的3D医学影像数据中随机裁剪出多个第二全局视图、第二局部视图,将第二全局视图和第二局部视图输入至教师模型中;根据学生模型的输出结果,筛选与第一全局视图最匹配的第一局部视图,并将该第一局部视图作为锚点局部视图;基于锚点局部视图构建用于对比学习的正负样本对;本发明提供的技术方案能够有效克服视觉编码器对高冗余3D医学影像数据中微小局部特征的表征能力较弱的缺陷。
-
公开(公告)号:CN119919355A
公开(公告)日:2025-05-02
申请号:CN202411883298.5
申请日:2024-12-19
Applicant: 科大讯飞股份有限公司
IPC: G06T7/00 , G06V10/764 , G06V10/82 , G06N3/045 , G06Q50/20 , G06V10/774 , G06N3/0464 , G06V10/25
Abstract: 本申请提供了一种卷面分评分方法、装置、设备及产品。该方法属于机器学习技术领域。具体的,该方法包括:获取待评分试卷的作答区域图像;将作答区域图像输入预先训练的卷面分评分模型,得到与待评分试卷图像对应的卷面分评分结果;卷面分评分结果中包括卷面分数以及卷面评语;卷面分评分模型是用于根据作答区域图像从书写美观度、卷面整洁度、书写工整度、排版美观度以及总词数这五个维度对待评分试卷的卷面分进行评分的数学模型。根据本申请,能够根据待评分试卷的作答区域图像得到待评分试卷对应的卷面分评分,解决了人工评分和机器评分因卷面分而产生的打分差异的问题。
-
公开(公告)号:CN119888763A
公开(公告)日:2025-04-25
申请号:CN202510388523.6
申请日:2025-03-31
Applicant: 科大讯飞股份有限公司
IPC: G06V30/244 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本发明涉及计算机技术领域,提供一种错字识别方法及装置,基于目标文字的图像特征与各元素原型之间的匹配度,确定目标文字所包含各类元素原型的数量,元素原型指构成文字的基本单元;基于图像特征以及各类元素原型的数量,对目标文字进行元素分解,得到目标文字的元素序列,元素序列指构成目标文字的基本单元序列;基于元素序列,确定目标文字的错字识别结果。本发明中各类元素原型的数量确定是不受语言信息干扰的,从而可以避免相关技术中模型在训练过程中过度依赖或学习到的语言信息,可能导致的错字识别精度较低的问题。
-
公开(公告)号:CN119831938A
公开(公告)日:2025-04-15
申请号:CN202411838232.4
申请日:2024-12-13
Applicant: 安徽影联云享医疗科技有限公司 , 科大讯飞华南人工智能研究院(广州)有限公司 , 讯飞医疗科技股份有限公司 , 科大讯飞股份有限公司
Abstract: 本发明涉及医学影像智能分析,具体设计了一种由影像诊断分析模块、多期对比预警模块、多期影像空间对齐模块、多期影像关联诊断模块、多期对比分析模块、多期对比典型病案知识库和影像临床决策知识库组成的医学影像多期分析系统,其具备多期对比提醒、可解释性的多期对比报告输出、基于多期对比的初步报告更新和基于多期对比的临床决策支持等能力,具备高可解释性、可交互性、可拓展性等优点,能够实现精准的多期对比分析及建议,实现高阶智能辅诊;本发明提供的技术方案能够有效克服现有技术所存在的难以对多期影像进行可解释性、可交互性、可拓展性的多期对比分析的缺陷。
-
公开(公告)号:CN119763139A
公开(公告)日:2025-04-04
申请号:CN202411891668.X
申请日:2024-12-20
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种文档信息结构化抽取方法、装置、存储介质及设备,该方法包括:首先获取目标文档所在的目标图像;并提取目标图像的目标视觉特征;然后将目标视觉特征输入语义信息提取模型进行OCR信息提取,得到目标OCR信息,并对其进行编码处理,得到目标语义编码向量;接着将目标视觉特征和目标语义编码向量输入预先构建的多模态大语言模型,预测得到目标文档对应的信息结构化抽取结果。可见,由于本申请采用的是结合OCR信息与多模态大语言模型的通用信息结构化抽取方法,并采用了视觉特征和OCR信息分别作为空间和文本语义上的抽取依据,解决了通过纯文本进行结构化抽取时的空间信息匮乏问题,从而能够有效提高文档信息结构化抽取的准确率。
-
公开(公告)号:CN119312931A
公开(公告)日:2025-01-14
申请号:CN202411494182.2
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06N5/04 , G06F40/205 , G06V20/60 , G06V10/25
Abstract: 本发明涉及人工智能技术领域,提供一种交互问答方法、装置、电子设备和存储介质,其中方法包括:获取提问指令,以及包含指向性物体的图像;将所述提问指令中的指代词与所述指向性物体所指示的对象进行关联,得到所述指代词的指代对象,并基于所述指代对象生成回答文本;基于所述回答文本,进行交互问答。本发明提供的交互问答方法、装置、电子设备和存储介质,通过将提问指令中的指代词与指向性物体所指示的具体对象进行关联,能够精细化的识别理解用户的指代式问题,从而正确理解用户意图,通过智能解析指代词,确保多模态信息的对齐,使得回答内容更加贴近人类对话的自然逻辑,提升交互的流畅度和用户体验。
-
公开(公告)号:CN119311393A
公开(公告)日:2025-01-14
申请号:CN202411494984.3
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06F9/48 , G06F11/30 , G06F40/166 , G06V20/70 , G06F40/30 , G06F18/22 , H04N21/236 , H04N21/242 , H04N21/43
Abstract: 本发明提供一种辅助阅读方法、装置、电子设备、存储介质和计算机程序产品,通过监控模型监控辅助阅读指令所指向的辅助阅读任务是否完成,并在任务未完成的情况下,将监控模型切换为运行模型,并返回执行文本生成步骤。由于监控模型生成实时待读图片对应待读文本的过程可以与运行模型生成待读图片对应待读文本的过程并行,从而用户不需要等待实时待读图片对应的待读文本的生成。在运行模型生成待读图片对应待读文本后,运行模型作为监控模型,返回执行任务监控步骤,从而能够继续监控是否完成辅助阅读指令所指向的辅助阅读任务,保证阅读的连续性,减少了用户等待时间,提升了互动的流畅性。
-
公开(公告)号:CN119206187A
公开(公告)日:2024-12-27
申请号:CN202411353636.4
申请日:2024-09-26
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种目标检测方法、装置、电子设备和存储介质,其中方法包括:对密集场景图像进行多尺度的特征提取,得到多尺度的图像特征,并基于多尺度的图像特征和所述密集场景图像进行特征重建,得到多尺度的高分辨率特征;对多尺度的高分辨率特征进行特征融合,并基于融合所得的特征进行目标检测,得到密集场景图像对应的目标检测结果,在特征提取阶段引入包含更多细粒度信息的高分辨率特征,更有利于密集场景下的目标检测,可以获取更精准的检测结果,克服了传统的密集场景下的检测方案中对于小目标的检测性能较差的缺陷,同时,缓解了密集场景下边界框重叠导致的漏检问题和繁琐的后处理问题,实现了检测精度和检测效率的双重提升。
-
公开(公告)号:CN113920560B
公开(公告)日:2024-10-25
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
-
-
-
-
-
-
-
-