卷面分评分方法、装置、设备及产品

    公开(公告)号:CN119919355A

    公开(公告)日:2025-05-02

    申请号:CN202411883298.5

    申请日:2024-12-19

    Abstract: 本申请提供了一种卷面分评分方法、装置、设备及产品。该方法属于机器学习技术领域。具体的,该方法包括:获取待评分试卷的作答区域图像;将作答区域图像输入预先训练的卷面分评分模型,得到与待评分试卷图像对应的卷面分评分结果;卷面分评分结果中包括卷面分数以及卷面评语;卷面分评分模型是用于根据作答区域图像从书写美观度、卷面整洁度、书写工整度、排版美观度以及总词数这五个维度对待评分试卷的卷面分进行评分的数学模型。根据本申请,能够根据待评分试卷的作答区域图像得到待评分试卷对应的卷面分评分,解决了人工评分和机器评分因卷面分而产生的打分差异的问题。

    错字识别方法及装置
    34.
    发明公开

    公开(公告)号:CN119888763A

    公开(公告)日:2025-04-25

    申请号:CN202510388523.6

    申请日:2025-03-31

    Abstract: 本发明涉及计算机技术领域,提供一种错字识别方法及装置,基于目标文字的图像特征与各元素原型之间的匹配度,确定目标文字所包含各类元素原型的数量,元素原型指构成文字的基本单元;基于图像特征以及各类元素原型的数量,对目标文字进行元素分解,得到目标文字的元素序列,元素序列指构成目标文字的基本单元序列;基于元素序列,确定目标文字的错字识别结果。本发明中各类元素原型的数量确定是不受语言信息干扰的,从而可以避免相关技术中模型在训练过程中过度依赖或学习到的语言信息,可能导致的错字识别精度较低的问题。

    一种文档信息结构化抽取方法、装置、存储介质及设备

    公开(公告)号:CN119763139A

    公开(公告)日:2025-04-04

    申请号:CN202411891668.X

    申请日:2024-12-20

    Abstract: 本申请公开了一种文档信息结构化抽取方法、装置、存储介质及设备,该方法包括:首先获取目标文档所在的目标图像;并提取目标图像的目标视觉特征;然后将目标视觉特征输入语义信息提取模型进行OCR信息提取,得到目标OCR信息,并对其进行编码处理,得到目标语义编码向量;接着将目标视觉特征和目标语义编码向量输入预先构建的多模态大语言模型,预测得到目标文档对应的信息结构化抽取结果。可见,由于本申请采用的是结合OCR信息与多模态大语言模型的通用信息结构化抽取方法,并采用了视觉特征和OCR信息分别作为空间和文本语义上的抽取依据,解决了通过纯文本进行结构化抽取时的空间信息匮乏问题,从而能够有效提高文档信息结构化抽取的准确率。

    交互问答方法、装置、电子设备和存储介质

    公开(公告)号:CN119312931A

    公开(公告)日:2025-01-14

    申请号:CN202411494182.2

    申请日:2024-10-24

    Abstract: 本发明涉及人工智能技术领域,提供一种交互问答方法、装置、电子设备和存储介质,其中方法包括:获取提问指令,以及包含指向性物体的图像;将所述提问指令中的指代词与所述指向性物体所指示的对象进行关联,得到所述指代词的指代对象,并基于所述指代对象生成回答文本;基于所述回答文本,进行交互问答。本发明提供的交互问答方法、装置、电子设备和存储介质,通过将提问指令中的指代词与指向性物体所指示的具体对象进行关联,能够精细化的识别理解用户的指代式问题,从而正确理解用户意图,通过智能解析指代词,确保多模态信息的对齐,使得回答内容更加贴近人类对话的自然逻辑,提升交互的流畅度和用户体验。

    目标检测方法、装置、电子设备和存储介质

    公开(公告)号:CN119206187A

    公开(公告)日:2024-12-27

    申请号:CN202411353636.4

    申请日:2024-09-26

    Abstract: 本发明提供一种目标检测方法、装置、电子设备和存储介质,其中方法包括:对密集场景图像进行多尺度的特征提取,得到多尺度的图像特征,并基于多尺度的图像特征和所述密集场景图像进行特征重建,得到多尺度的高分辨率特征;对多尺度的高分辨率特征进行特征融合,并基于融合所得的特征进行目标检测,得到密集场景图像对应的目标检测结果,在特征提取阶段引入包含更多细粒度信息的高分辨率特征,更有利于密集场景下的目标检测,可以获取更精准的检测结果,克服了传统的密集场景下的检测方案中对于小目标的检测性能较差的缺陷,同时,缓解了密集场景下边界框重叠导致的漏检问题和繁琐的后处理问题,实现了检测精度和检测效率的双重提升。

    多模态说话人身份识别方法、装置和设备

    公开(公告)号:CN113920560B

    公开(公告)日:2024-10-25

    申请号:CN202111092312.6

    申请日:2021-09-17

    Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

Patent Agency Ranking