一种基于标签平滑的多跳回答问题框架

    公开(公告)号:CN117909441A

    公开(公告)日:2024-04-19

    申请号:CN202211232474.X

    申请日:2022-10-10

    申请人: 复旦大学

    摘要: 本发明目的在于提供一种基于标签平滑的多跳回答问题框架,用于缓解模型的过分自信以及答案边界的不确定问题。本发明提供了一种基于标签平滑的多跳回答问题框架,包括:步骤S1,输入问题和候选文章列表粗筛得到3篇待选文章;步骤S2,通过对3篇待选文章两两分组的方式组成3个配对,再一次通过细筛的方式选择最优配对;步骤S3,将选出的最优配对的两篇文章以及问题一起输入模型,通过预训练语言模型回答问题。

    一种基于子词编码和逆文档频率遮蔽的中文预训练方法

    公开(公告)号:CN115270764A

    公开(公告)日:2022-11-01

    申请号:CN202110480038.3

    申请日:2021-04-30

    申请人: 复旦大学

    发明人: 邱锡鹏 邵云帆

    摘要: 本发明提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,包括以下步骤:步骤1,收集中文语料,根据语料通过迭代算法学习一元语言模型,得到词典和出现概率;步骤2,基于一元语言模型对中文语言模型的输入文本进行子词编码,得到子词元素序列;步骤3,计算子词元素序列中每个子词元素的逆文档频率;步骤4,通过逆文档频率遮蔽预测任务来进行预训练,将逆文档频率最高的子词元素进行遮蔽,中文语言模型通过对被遮蔽的子词元素进行预测来进行预训练;步骤5,将语料输入中文语言模型,经过子词编码和计算逆文档频率后通过逆文档频率遮蔽预测任务进行预训练,在计算训练后得到训练好的中文语言模型。

    基于有监督对比学习与回复生成辅助的对话情感识别方法

    公开(公告)号:CN114091478A

    公开(公告)日:2022-02-25

    申请号:CN202111444136.8

    申请日:2021-11-30

    申请人: 复旦大学

    IPC分类号: G06F40/35 G06N20/00

    摘要: 本发明提供一种基于有监督对比学习与回复生成辅助的对话情感识别方法,首先,由于构建的预训练模型CoG‑BART,采用对话级Transformer模块对待测对话进行上下文建模,从而解决了话语之间的长距离依赖问题,同时由于整体模型架构均由Transformer组成,因此引入了更少的结构先验假设;其次,由于采用了有监督对比学习来训练模型,在充分利用标签信息的情况下,不仅能够增加模型训练时的稳定性并增强模型的泛化性,还使得相同情感的样本间内聚,不同情感的样本相互斥,因此改进了相似情感难以区分的问题;最后,由于辅助性回复生成任务能够根据给定的上文信息获取更准确的下文,从而使得模型在判断话语情感时能考虑更加丰富的上下文信息,提升模型识别对话的情感标签的精确性。

    一种面向广电运营商的业务接入与管理系统

    公开(公告)号:CN102710670A

    公开(公告)日:2012-10-03

    申请号:CN201210227248.2

    申请日:2012-07-03

    申请人: 复旦大学

    IPC分类号: H04L29/06 H04L12/24

    摘要: 本发明属于计算机应用技术领域,具体为一种面向广电运营商的业务接入与管理系统。本发明系统包括:NGB-业务接入与管理模块,以及外围的客户管理模块、产品管理模块、服务管理模块、业务平台和外部系统;其中NGB-业务接入与管理模块是系统的核心,NGB-业务接入与管理模块包含NGB业务的统一展示、统一受理、统一授权功能子模块,并根据业务接入与管理需要与相关外围系统进行互联;本发明以新一代广播电视网(NGB)整体规划为指导,明确定义了业务接入与管理系统中的功能架构和系统边界,可以用以指导NGB业务管理系统的建设。

    对网络文本与手机短信进行不良内容识别的方法

    公开(公告)号:CN101876968A

    公开(公告)日:2010-11-03

    申请号:CN201010167065.7

    申请日:2010-05-06

    申请人: 复旦大学

    IPC分类号: G06F17/22 G06F17/27

    摘要: 本发明属于文字处理技术领域,具体为对网络文本与手机短信进行不良内容识别的方法。该方法包括如下步骤:输入待检测文本,确定文本编码格式,对文本进行格式转换,将文本与短字符串词汇库进行比较,将文本与长字符串词汇库进行比较,对结果进行拷贝检测,显示最终结果。本方法可用于互联网不健康,暴力,反动文字的检测与过滤。阻止不健康内容的蔓延,保护青少年的身心健康。

    一种基于集成学习的神经网络动态早退方法

    公开(公告)号:CN115222063A

    公开(公告)日:2022-10-21

    申请号:CN202110430015.1

    申请日:2021-04-21

    申请人: 复旦大学

    发明人: 邱锡鹏 孙天祥

    IPC分类号: G06N20/20 G06N3/08 G06N3/04

    摘要: 本发明提供一种基于集成学习的神经网络动态早退方法,包括:步骤1,采用相关性损失和多样性损失之和训练多层神经网络及其内部分类器,得到训练好的神经网络和训练好的内部分类器;步骤2,将待处理的数据输入训练好的神经网络,在训练好的神经网络的第一层,计算第一个训练好的内部分类器对数据分类的中间预测结果,得到各个类别的投票数;步骤3,将中间预测结果中的最大票数与预先设定的阈值进行比较,当最大票数大于阈值时,则将最大票数的类别作为最终预测结果,同时从训练好的神经网络退出,反之,则进入训练好的下一层神经网络,通过下一个内部分类器进行投票,直至新的中间预测结果的最大值大于阈值,则退出。

    一种基于序列生成的细粒度情感分析方法

    公开(公告)号:CN113221551B

    公开(公告)日:2022-07-29

    申请号:CN202110592818.7

    申请日:2021-05-28

    申请人: 复旦大学

    发明人: 邱锡鹏 代俊奇

    摘要: 本发明提供一种基于序列生成的细粒度情感分析方法,包括:步骤1,将主观性商品评价或服务评价作为输入序列输入编码器进行编码,得到隐变量He;步骤2,采用索引词汇转换器模块将过去时刻的已输出索引序列Y<t转换为已输出文本序列步骤3,将隐变量He以及已输出文本序列输入解码器进行解码,得到当前时刻t的输出分布Pt;步骤4,将输出分布Pt输入索引生成器,生成当前时刻输出索引,并采用束搜索方法自回归生成输出序列。本发明将整体细粒度情感分析任务统一定义为索引序列生成任务。基于统一的任务类型,利用序列到序列的生成式框架,使得各种差异导致的问题在统一的框架内得到解决,为完成整体细粒度情感分析提供了全新的系统性解决方法。