一种利用掩码语言模型建模的图片敏感文字检测方法

    公开(公告)号:CN118172778A

    公开(公告)日:2024-06-11

    申请号:CN202211579126.X

    申请日:2022-12-08

    Applicant: 南京大学

    Abstract: 本发明提出了一种利用掩码语言模型建模的图片敏感文字检测方法,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,得到最终的图片敏感文字检测结果。本发明方法简单直接,可理解性强;不需要人工标注数据训练模型,成本低廉;可以作为现有的图片敏感文字检测系统的扩充,用途广泛;通过掩码语言模型对关键位置的文本进行重建,既能够对光学字符识别出错的文字进行纠错,也可以还原出被故意修改的地方原本的文字,有助于减少图片敏感文字检测系统错检漏检情况的发生。

    融合外部数据的基于方面类别的可解释性推荐方法及系统

    公开(公告)号:CN111966888B

    公开(公告)日:2023-12-15

    申请号:CN201910420367.1

    申请日:2019-05-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合外部数据的基于方面类别的可解释性推荐方法和系统,该方法包括:S1:利用外部标准标注数据训练方面类别分类器和方面类别的情感极性分类器;S2:利用所述方面类别分类器和情感极性分类器对评论数据进行分类,得到每条评论的方面类别向量[a1,a2,…,an]和对应每个方面的情感向量[p1,p2,…,pn],其中n为方面的数量;S3:将所述方面类别向量与情感向量进行融合,得到待推荐的商品的预测打分和推荐理由。本发明引入了外部数据,提高了aspect和情感极性判断的准确性,使得对于评论的建模更加准确,也更加标准化,并

    翻译质量测评方法及装置

    公开(公告)号:CN111985251B

    公开(公告)日:2023-11-07

    申请号:CN201910422427.3

    申请日:2019-05-21

    Applicant: 南京大学

    Abstract: 本公开涉及一种翻译质量测评方法及装置,所述方法包括:接收待测评的目标语言语句和对应的源语言语句;获取所述源语言语句的特征信息和所述目标语言语句的特征信息;对所述源语言语句的特征信息和所述目标语言语句的特征信息进行处理,得到测评信息。利用本公开各实施例,可以提高翻译质量测评结果的可靠性。

    机器翻译质量评估方法、装置、设备及存储介质

    公开(公告)号:CN116306690A

    公开(公告)日:2023-06-23

    申请号:CN202310313254.8

    申请日:2023-03-28

    Applicant: 南京大学

    Abstract: 本发明公开了机器翻译质量评估方法、装置、设备及存储介质,其中方法包括获取所评估语言对的双语平行语料,其中双语平行语料包括源语句和目标语句;基于获取的双语平行语料生成有对比性质的伪数据,伪数据包括一个与源语句部分词汇不同的伪源语句、伪源语句的翻译句标签;使用伪数据对预置的质量评估模型进行对比预训练;调用对比预训练后的质量评估模型对译文进行质量评分。增大机器翻译质量评估模型对源端的依赖,提高鲁棒性。

    一种复述生成方法、装置、设备及存储介质

    公开(公告)号:CN116303899A

    公开(公告)日:2023-06-23

    申请号:CN202310245824.4

    申请日:2023-03-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种复述生成方法、装置、设备及存储介质,方法包括获取第一复述生成语料并分词处理,将得到的输入词序列X_1和标签词序列Y_1作为预训练数据集来训练神经网络模型M;获取并通过第二复述生成语料和神经网络模型M构建知识库,使包含第一复述生成语料和具有时效性的增量复述生成语料的第二复述生成语料中蕴含的复述生成知识以键值对的形式存在于知识库中,将获取第三复述生成语料分词处理得到的输入词序列X_3输入神经网络模型M进行预测,得到神经网络预测结果和查询向量;使用查询向量检索知识库,得到检索结果;融合神经网络预测结果和检索结果,生成最终的复述文本。知识库使复述系统有效迭代更新,并生成有决策依据的复述文本。

    一种基于环结构网格标记的隐式情感三元组抽取方法

    公开(公告)号:CN116244436A

    公开(公告)日:2023-06-09

    申请号:CN202310177676.7

    申请日:2023-02-24

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于环结构网格标记的隐式情感三元组抽取方法,包括:构建人工标注的情感三元组数据集,包含待抽取的文本以及情感三元组信息;划分训练集、验证集和测试集;使用基于环的网格标签标注方法,结合情感三元组信息对文本进行网格标签标注,得到实体标签和网格标签;对环结构网格标记模型进行训练;验证评估模型,预测出实体标签与网格标签,并抽取对应的情感三元组;重复上述两个步骤直至模型收敛,保留验证集中最优模型作为最终模型,使用最终模型进行测试集上的F1分数评估;利用最终模型,对网络上的真实文本数据进行隐式情感三元组抽取。

    一种跨语言稠密检索中的查询表示增强方法

    公开(公告)号:CN116204622A

    公开(公告)日:2023-06-02

    申请号:CN202310157691.5

    申请日:2023-02-23

    Applicant: 南京大学

    Abstract: 本发明提出了一种跨语言稠密检索中的查询表示增强方法,包括:从跨语言检索系统的搜索日志中,收集用户输入的源语言查询以及对应的查询结果即目标语言候选文档中用户点击的目标语言文档,构建有标注的数据;检索出与用户输入的源语言查询相似度分数最高的前K个查询,将检索出的前K个查询分别对应的K个相关文档作为反馈文档;训练跨语言稠密检索模型,并根据K个反馈文档和用户输入的源语言查询获得稠密表示向量并进行融合,得到增强后的源语言查询表示;计算得到查询与文档的相似度;对目标语言候选文档进行排序,输出排序后的结果作为最终的检索结果。

    利用检索提升机器翻译质量自动评估的方法、介质及设备

    公开(公告)号:CN114896992A

    公开(公告)日:2022-08-12

    申请号:CN202210460184.4

    申请日:2022-04-28

    Applicant: 南京大学

    Abstract: 本发明公开了一种利用检索提升机器翻译质量自动评估的方法、介质及设备,方法包括:检索阶段:对于机器翻译质量评估句对,为所述机器翻译质量评估句对中的待评估词在数据库中检索出相关的平行句对;机器翻译质量评估阶段:将检索到的平行句对进行编码后,融入到机器翻译质量评估模型中。本发明能够直接有效地利用相关的平行句对,同时也缓解了机器翻译质量评估训练数据稀疏的问题;更好地解释了模型做出相关决策的原因;无需重新训练模型;避免了端到端模型在训练过程中遗忘训练数据的缺陷,提升了机器翻译质量评估模型的性能。

Patent Agency Ranking