-
公开(公告)号:CN117093870A
公开(公告)日:2023-11-21
申请号:CN202311099815.5
申请日:2023-08-29
Applicant: 厦门大学
IPC: G06F18/214 , G06N20/00
Abstract: 本发明公开了一种模型去偏的数据集增强方法,包括以下步骤:获取数据集;构建偏置模型,并采用数据集中的部分数据对偏置模型进行训练,以便采用训练好的偏置模型得到数据集中的每个样本对应的偏置程度;根据偏置程度对数据集中的每个样本进行排列,并将排序好的每个样本等分为多个组,每个组对应拼接一个偏置指示器,以得到具有偏差指标的数据集;构建生成器,并采用具有偏差指标的数据集对生成器进行训练,以便通过训练好的生成器生成偏置程度低的伪样本;采用偏置程度低的伪样本对原始数据集进行扩增,以得到扩增后的数据集;迭代进行伪样本生成,从而得到最终的数据集;由此,达到了缓解数据偏置的目的,避免了人工资源耗费。
-
公开(公告)号:CN115688765A
公开(公告)日:2023-02-03
申请号:CN202211338577.4
申请日:2022-10-28
Applicant: 厦门大学
IPC: G06F40/289 , G06F40/211
Abstract: 本申请的实施例提供了一种明喻句式的成分抽取方法、装置、计算机可读介质及设备。该方法包括:确定待处理文本对应的分词结果、分词掩码矩阵以及基于句法依存关系的邻接矩阵;对词性为名词的分词进行词义检索,得到所述待处理文本对应的名词释义集合;将所述待处理文本与所述名词释义集合进行拼接,并输入至BERT编码器中,得到对应的文本表示矩阵;将所述文本表示矩阵与所述分词掩码矩阵相乘,得到对应的词结点矩阵;基于GAT算法对所述词结点矩阵和所述邻接矩阵进行表示更新,以得到所述待处理文本对应的结点表示;基于所述结点表示,对所述待处理文本进行明喻成分抽取。本申请实施例的技术方案提高明喻句式中成分识别以及抽取的准确性。
-
公开(公告)号:CN117150011A
公开(公告)日:2023-12-01
申请号:CN202311067350.5
申请日:2023-08-23
Applicant: 厦门大学
IPC: G06F16/35 , G06F18/2415 , G06F18/214
Abstract: 本发明公开了一种基于残差连接的缓解数据偏置模型的训练方法及装置,其中,该方法包括以下步骤:获取文本数据集;构建文本分类模型,其中,文本分类模型包括多个transformer堆叠而成,且在多个transformer中的底层接入第一分类器,顶层接入第二分类器;根据文本数据集对文本分类模型进行训练,得到训练好的缓解数据偏置模型,以便根据缓解数据偏置模型进行文本分类预测,其中,在训练过程中,将底层得到的文本表示和顶层得到的文本表示相加后输入到第二分类器进行分类,以得到预测概率;由此,通过构建训练缓解数据偏置模型,从而在达到在缓解数据偏置的同时,还避免了额外的计算资源消耗。
-
-