-
公开(公告)号:CN102591978B
公开(公告)日:2013-11-27
申请号:CN201210001424.0
申请日:2012-01-05
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于电子文本拷贝检测技术领域,具体为一种针对大规模文档集中两两文档间进行拷贝检测的分布式索引建立以及分发方法和一种分布式文本拷贝检测系统。所述方法是将整个文档集上的拷贝检测分割成个若干的子任务,每个子任务中只用到单个计算机节点中保存的文档和整个文档集所有文档集的一部分文档组成的索引,从而使得每个子任务可以在单独的节点上运行,减小了网络开销。系统基于Map-Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架,具有良好的可扩展性,适合处理大规模文本集上的拷贝检测,电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上。
-
公开(公告)号:CN113946696A
公开(公告)日:2022-01-18
申请号:CN202110016787.0
申请日:2021-01-07
Applicant: 复旦大学
Abstract: 本发明提供了一种知识感知的序列到树的数学应用题求解系统,用于对待分析应用题文本进行处理与推理得到对应的数学表达式,其特征在于,包括:问题编码模块利用预定的第一神经网络对待分析应用题文本进行编码得到编码后问题向量;实体图构建模块在预定的包含常识信息的外部知识库中对待分析应用题文本进行检索,得到对应的实体三元组,并基于该实体三元组构建实体图;知识表示生成模块基于编码后问题向量以及实体图利用预定的第二神经网络获取认识到知识的知识表示;树形解码模块基于编码后问题向量以及知识表示利用预定的第三神经网络生成数学表达式树。本系统融合了应用题中未出现的常识信息,从而提高了数学表达式的精准性。
-
公开(公告)号:CN109688281A
公开(公告)日:2019-04-26
申请号:CN201811467887.X
申请日:2018-12-03
Applicant: 复旦大学
CPC classification number: H04M3/5166 , G10L15/22 , G10L25/63
Abstract: 本发明属于视频播放技术领域,具体为一种智能语音交互方法及系统。本发明包括:接收对端电话发送的语音信息;将语音信息转化为文本信息;利用预先训练得到的智能模型生成文本信息对应的回复文本,回复文本为对所述文本信息进行对话应答的文本信息;将回复文本转化对应的应答语音,发送至对端电话;对文本信息进行情感倾向性分析,以确定出用户对所提供的业务的意向值,意向值用于表示用户对业务的意向程度;当意向值达到预设阈值时,将对端电话转接至人工坐席端的电话。本发明可避免人工坐席参与前期的无效沟通和无效电话,直接与有意向的用户进行沟通,大大提升工作人员的工作效率,降低工作人员的时间成本。
-
公开(公告)号:CN104102630A
公开(公告)日:2014-10-15
申请号:CN201410339719.8
申请日:2014-07-16
Applicant: 复旦大学
IPC: G06F17/28
Abstract: 本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于:本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。
-
公开(公告)号:CN102591978A
公开(公告)日:2012-07-18
申请号:CN201210001424.0
申请日:2012-01-05
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于电子文本拷贝检测技术领域,具体为一种针对大规模文档集中两两文档间进行拷贝检测的分布式索引建立以及分发方法和一种分布式文本拷贝检测系统。所述方法是将整个文档集上的拷贝检测分割成个若干的子任务,每个子任务中只用到单个计算机节点中保存的文档和整个文档集所有文档集的一部分文档组成的索引,从而使得每个子任务可以在单独的节点上运行,减小了网络开销。系统基于Map-Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架,具有良好的可扩展性,适合处理大规模文本集上的拷贝检测,电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上。
-
公开(公告)号:CN117910474A
公开(公告)日:2024-04-19
申请号:CN202211234524.8
申请日:2022-10-10
Applicant: 复旦大学 , 上海高德威智能交通系统有限公司
IPC: G06F40/30 , G06F18/241 , G06N3/0499 , G06N3/084
Abstract: 本发明提供一种基于跨文档语义增强的实体识别方法,首先将文档的布局信息输入掩码生成层,基于可学习的注意力掩码机制获取对应的注意力掩码;其次将原始文本、图像和布局信息输入到特征提取网络,综合注意力掩码,得到每个词的词特征表示;然后将每个词的词特征表示存储至倒排索引中,在倒排索引中查询当前词的相关项,与当前词的词特征表示进行融合,得到该当前词的最终词特征表示;最后通过将每个词的最终词特征表示输入至分类器,输出在各个实体类别上的概率分布,从而判断词的实体类别。本发明的文档实体识别方法能够有效过滤当前文档中无关冗余信息,增强对视觉文档的理解能力,有助于模型进行实体识别,从而提高模型性能。
-
公开(公告)号:CN116049840A
公开(公告)日:2023-05-02
申请号:CN202210879047.4
申请日:2022-07-25
Abstract: 一种数据保护方法、装置、相关设备及系统,电子设备包括数据保护模型,数据保护模型包括一个编码器、一个混淆器和一个恢复器:其中,混淆器包括N个混淆模块;电子设备通过编码器对用户数据x进行特征抽取,得到特征向量z0,将输入到恢复器和第1混淆模块;电子设备通过恢复器对第i‑1特征向量zi‑1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将δi输入到第i混淆模块;电子设备通过第i混淆模块将第i‑1特征向量zi‑1和第i噪声δi进行叠加,得到第i特征向量zi;其中,i依次从1到N进行取值;在将i的取值加1之后,重新执行通过恢复器对第i‑1特征向量zi‑1进行的步骤,直到i等于所述N。
-
公开(公告)号:CN116049347A
公开(公告)日:2023-05-02
申请号:CN202210726962.X
申请日:2022-06-24
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/289 , G06F40/30 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种基于词融合的序列标注方法及相关设备。根据该基于词融合的序列标注方法,对于简单词,端侧设备可以通过分类器模块以及词融合模块在表示模型部分逐层合并,从而改变上传至云侧的表示向量的数量。在一些可能的实现方式中,云侧设备也可以在表示模型部分进行合并。上述方式可以避免第三方拦截或云侧获取表示向量后,使用还原模型映射为用户隐私信息,从而规避隐私攻击。同时,因为随着层数增加,表示向量的数量缩减,因此可以减少上层网络的计算量,加速序列标注进程,实现更快的命名实体识别和信息抽取。
-
公开(公告)号:CN113947083A
公开(公告)日:2022-01-18
申请号:CN202110155109.2
申请日:2021-02-04
Applicant: 复旦大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种文档级别命名实体识别方法,通过分别将引入了一种新颖的两阶段标签修正方法来处理文档级标签的一致性依赖关系,首先使用键值记忆网络来记录第一阶段模型预测的草稿标签,然后基于键值记忆网络存储的相同词的上下文和草稿标签信息,使用双通道Transformer对草稿标签进行修正。因此,通过本发明提出的方法可以在通过所使用的贝叶斯神经网络来指示所有草稿标签的不确定性,从而减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
-
公开(公告)号:CN118095432A
公开(公告)日:2024-05-28
申请号:CN202410178013.1
申请日:2024-02-08
Applicant: 北京有竹居网络技术有限公司 , 复旦大学
Abstract: 本公开的实施例涉及信息处理的方法、装置、设备和存储介质。在此提出的方法包括:获取样本问题和用于求解样本问题的策略信息;通过拆分策略信息,确定与样本问题的至少一个中间求解状态对应的推理过程;通过组合样本问题和推理过程,生成至少一个输入样本;以及基于至少一个输入样本和至少一个样本问题的答案信息,调整目标模型。
-
-
-
-
-
-
-
-
-