一种面向多语种自然场景文本检测与识别的系统及方法

    公开(公告)号:CN110766020A

    公开(公告)日:2020-02-07

    申请号:CN201911047956.6

    申请日:2019-10-30

    Abstract: 本发明公开了一种面向多语种自然场景文本检测与识别的系统及方法,所述系统包括文本检测模块、字符识别模块、语种判定模块,文本检测模块负责对于文本区域的检测功能,字符识别模块负责对于各类字符的识别功能,语种判定模块负责对于字符语种判定的功能;所述方法包括文本检测、字符识别、语种判定步骤。本发明可以实现多种不同语言的文本图像的检测与识别,使用的网络模型只需要修改部分就可以扩展到新的语言。本发明采用端到端的方法能够减少中间步骤数据的标注过程、频繁的数据的输入和输出,大大节省成本。本发明采用了改进的FPN算法,具有很好的鲁棒性,采用了空间转换层结合LNMS的方法预测候选框,能够有效地提高预测框的准确度。

    一种面向手写文字的一阶段自动识别与翻译方法

    公开(公告)号:CN110765966A

    公开(公告)日:2020-02-07

    申请号:CN201911046777.0

    申请日:2019-10-30

    Abstract: 本发明公开了一种面向手写文字的一阶段自动识别与翻译方法,所述方法主要包含文本识别方法和端到端识别与翻译方法。该方法使用注意力机制代替CRNN中的RNN结构,使计算可以并行化,降低计算成本;在Transformer模型的训练过程中对解码器的输入做随机替换,模拟预测过程中预测出错的情况,缓解了过拟合问题;提出了一种端到端的识别与翻译模型,使用基于迁移学习的方式训练端到端模型,不需要显式给出识别结果,直接对图片内容做翻译。本发明具有如下优点:1、文本识别模型的训练速度大幅提高。2、训练阶段随机替换解码器输入,使得识别模型的泛化能力大幅提高。3、端到端识别与翻译模型的翻译准确率高于两阶段模型。

    一种基于深度学习方法的自动生成医学影像诊断报告的方法

    公开(公告)号:CN109065110A

    公开(公告)日:2018-12-21

    申请号:CN201810758999.4

    申请日:2018-07-11

    CPC classification number: G16H15/00 G06F17/2715 G06F17/2775 G16H30/40

    Abstract: 本发明公开了一种基于深度学习方法的自动生成医学影像诊断报告的方法,所述方法步骤如下:一、基于LDA算法对诊断报告进行主题聚类,将诊断报告按照主题分别进行保存;二、将主题向量作为每一个医学影像的标签;三、将大小不同的CT图和PET图缩放到相同大小作为训练数据,主题向量作为标签,以VGGNet‑19为网络模型进行训练,得到主题向量生成模型;四、构建文本生成模型;五、根据每一张图片的主题向量,匹配对应主题的文本,得到图像的诊断报告。该方法能够适用于图像有病灶标注的场景;不需要医生过多地人工总结训练数据标签,仅需要病灶的位置、大小标注即可,在提高正确率的同时有效减少了医生的工作。

Patent Agency Ranking