-
公开(公告)号:CN117390409A
公开(公告)日:2024-01-12
申请号:CN202311195452.5
申请日:2023-09-17
Applicant: 复旦大学
IPC: G06F18/21 , G06N5/04 , G06F18/27 , G06F18/2431 , G06F18/2415
Abstract: 本发明属于大规模语言模型技术领域,具体为一种大规模语言模型生成答案可靠性检测方法。本发明通过构建一个鲁棒的判别器RelD来检测大规模语言模型生成答案的可靠性,包括构建训练数据集RelQA,该数据集包括现有多个数据集的问题、上下文和大规模语言模型生成的答案以及多种评估指标;将RelQA作为输入,结合预训练语言模型,使用加权平均概率方法拟合生成答案的人工标注,来训练判别器RelD;判别器RelD对大规模语言模型生成的答案进行二分类,以此判断生成的答案的可靠性。本发明能够提供更全面、准确的评估结果,更好地反映出生成答案的质量;可以适用于不同的大型语言模型和应用场景,具有较强的可扩展性。
-
公开(公告)号:CN114065741B
公开(公告)日:2023-08-11
申请号:CN202111356625.8
申请日:2021-11-16
Applicant: 北京有竹居网络技术有限公司 , 复旦大学
IPC: G06F40/253 , G06F40/289 , G06N3/096 , G06N3/047 , G06N3/042
Abstract: 根据本公开的实现方式,提供了用于验证表述的真实性的方法、设备、装置和介质。在一种方法中,获取包括表述、证据集和标签的训练数据,表述表示被验证的内容,证据集包括用于支持验证表述的真实性的至少一个证据,以及标签表示基于证据集来验证表述的真实性的结果。基于对表述的语法分析,将表述划分为多个短语。基于训练数据和多个短语来训练短语验证模型,以使得短语验证模型基于证据集来分别确定多个短语的多个短语真实性。基于训练数据和多个短语来训练表述验证模型,以使得表述验证模型基于证据集来确定表述的表述真实性,其中多个短语真实性对表述真实性提供解释。以此方式,以更为精细的粒度处理表述并且为表述真实性提供更多解释。
-
公开(公告)号:CN116304092A
公开(公告)日:2023-06-23
申请号:CN202310237736.X
申请日:2023-03-02
Applicant: 深圳今日人才信息科技有限公司 , 复旦大学
IPC: G06F16/36 , G06F16/901 , G06F16/35 , G06Q10/1053
Abstract: 本发明公开一种面向招聘领域的职位概念自动获取与图谱扩展的方法,包括如下步骤:构建概念生成模型、层级文本分类模型;将岗位描述文本输入层级文本分类模型,输出与其对应的三级概念标签;判断该岗位描述文本是否属于现有的Taxonomy中的某个概念实体,若不属于,则调用概念生成模型生成与该岗位描述文本对应的新概念实体;在现有的Taxonomy中,寻找与该新概念实体对应的上位概念实体,并将该新概念实体作为上位概念实体的下位词。本发明设计了从概念生成到概念分类,再到概念扩展的完整自动化框架,整个框架流程和各模块的触发关系是具有独创性的,且在实际业务场景中验证了有效性。
-
公开(公告)号:CN114911947A
公开(公告)日:2022-08-16
申请号:CN202210419758.3
申请日:2022-04-20
Applicant: 复旦大学
Abstract: 本发明属于人工智能与知识工程技术领域,具体为一种基于知识提示的概念抽取模型,简称KPCE。本发明模型包括提示构建器和概念抽取器;提示构建器,给定实体的主题用作双向编码表示的预训练语言模型,简称BERT,的知识引导提示;并添加可训练的连续提示,以增强概念抽取性能;概念抽取器利用提示引导BERT以及指针网络从输入文本中抽取多粒度、高质量的概念。本发明使用从现有知识图谱中获取的主题知识构建语言提示,同时考虑神经网络连续性特征,将可训练的连续提示与上述主题构建的知识提示结合,以此提升大规模预训练语言模型BERT在概念抽取任务上的性能;还借助指针网络,设置适当的阈值重复抽取文本中同一片段,实现多粒度概念的获取。
-
公开(公告)号:CN112948535B
公开(公告)日:2022-06-14
申请号:CN201911259634.8
申请日:2019-12-10
Applicant: 复旦大学
IPC: G06F16/33 , G06F16/35 , G06F40/117 , G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明提供一种文本的知识三元组抽取方法、装置及存储介质,针对多映射关系和多个关系共享头、尾实体的情况,能够准确的抽取出待处理文本中的全部结果,包括以下步骤:步骤S1,获取待处理文本;步骤S2,对待处理文本进行预处理;步骤S3,使用预定的文本多标签分类模型预测待处理文本中包含的关系类别集合;步骤S4,通过预定的文本数据抽取模型对待处理文本以及关系类别集合进行抽取从而得到头尾实体集合;步骤S5,对头尾实体集合进行后处理。
-
公开(公告)号:CN108491375B
公开(公告)日:2022-04-12
申请号:CN201810173270.0
申请日:2018-03-02
Applicant: 复旦大学
IPC: G06F40/295 , G06F40/30 , G06F40/247
Abstract: 本发明公开了一种基于CN‑DBpedia的实体识别与链接系统和方法。该系统包括实体链接模块和实体识别模块;实体链接模块包括同义词匹配单元和实体链接单元;实体识别模块包括分词器、词概率计算单元和实体判别单元。本发明构建了实体与词语的语义关系,从而能在极少的上下文中挖掘到与实体的关系。本发明将基于机器学习的实体识别算法与非监督的分词算法融合。能从全局性的角度考虑实体名划分的合理性,又扩展了分词的词表空间,以更加合理的算法计算实体词的成词概率。本发明先链接再识别,使得实体识别时充分利用到了文本的语义信息,实现更好的分词与实体识别。
-
公开(公告)号:CN112948570A
公开(公告)日:2021-06-11
申请号:CN201911263803.5
申请日:2019-12-11
Applicant: 复旦大学
IPC: G06F16/335 , G06F16/35 , G06F16/36
Abstract: 本发明的目的在于实现领域知识图谱的自动化构建。具体地,本发明提供了一种无监督的领域知识图谱自动化构建系统,用于基于预定领域的领域语料建立该领域的领域知识图谱,其特征在于,包括:领域词挖掘模块,基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语,从而输出领域词表;关系挖掘模块,通过预定规则初步建立起领域词表中的领域词之间的关系;概念挖掘模块,用于采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系。本发明的系统能够基于各领域均存在的文档作为切入点进行知识图谱构建,很好地适应于不同的领域;另一方面,构建过程不需要领域专家参与,能够降低工作量以及构建成本。
-
公开(公告)号:CN108376287A
公开(公告)日:2018-08-07
申请号:CN201810173269.8
申请日:2018-03-02
Applicant: 复旦大学
CPC classification number: G06N5/02 , G06F17/2785
Abstract: 本发明公开了一种基于CN-Dbpedia的多值属性分割装置及方法。本发明的分割装置其包括对象属性数据分割模块、分割模型训练模块、数值属性数据分割模块和多值属性挖掘模块;其中:所述对象属性数据分割模块通过无监督方法对对象属性类型的属性三元组进行分割,实现训练集的构造;所述分割模型训练模块通过构造的训练集,选自其特征,进而采用条件随机算法训练通用的分割模型;所述数值属性数据分割模块利用生成的分割模型对数值属性类型的属性三元组进行分割;所述多值属性挖掘模块统计分析对象属性和数值属性的分割结果,采用逻辑回归模型挖掘多值属性。
-
公开(公告)号:CN104408148B
公开(公告)日:2017-12-01
申请号:CN201410723613.8
申请日:2014-12-03
Applicant: 复旦大学
Abstract: 本发明属于开放知识抽取技术领域,具体为一种基于通用百科网站的领域百科构建系统。该系统分为以下几个模块:百科数据爬取模块,百科数据预处理模块,相关实体搜索及排序模块和实体聚类模块。本发明的有益效果在于:领域百科的构建目前大多为手工构建,费时费力,且人工不可能发现所有相关实体,因此覆盖率低;而以本发明找出的领域相关实体为基础建立领域百科,能极大地减少领域百科的构建的人力,并大幅提升覆盖率。同时,利用本发明系统所构建出的领域百科,将极大地方便用户获取特定领域的知识,省去了繁琐地搜索及筛选过程,把“用户被动地搜索信息”变成了“系统主动地提供信息”。
-
公开(公告)号:CN103577549B
公开(公告)日:2017-02-15
申请号:CN201310481674.3
申请日:2013-10-16
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于无线通信网络技术领域,具体为一种基于微博标签的人群画像系统和方法,本发明系统包含微博标签推荐和标签主题聚类两大模块,其中第一模块中采用一个涵盖三个步骤的标签推荐算法。第一步为同质性标签推荐,第二步为共现性标签扩展;第三步则是以中文知识图谱为基础建立语义网络,利用网络拓扑特性来度量标签之间的语义相似度,从而去除语义相同或相似的标签,保证用来刻画用户的标签精炼性。本发明利用微博用户标签具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和中文知识图谱的应用指明了研究方向。
-
-
-
-
-
-
-
-
-