-
公开(公告)号:CN110991186B
公开(公告)日:2024-02-06
申请号:CN201911235517.8
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F18/22 , G06F17/18 , G06N5/04
Abstract: 本发明属于实体解析技术领域,具体涉及一种基于概率软逻辑模型的实体解析方法,包括以下步骤:a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示;b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则;c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型;d、对概率软逻辑模型进行权重学习;e、使用推理算法对概率软逻辑模型进行计算,通过实体解析概率值。与现有技术相比,本发明通过进行谓词逻辑表示,提出基于实体属性相似度、实体关系、本体约束的逻辑规则构建,实现了概率软逻辑模型的实体解析过程,有效地提高了实体解析的准确率与执行效率。
-
公开(公告)号:CN111026815B
公开(公告)日:2024-02-06
申请号:CN201911235530.3
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
Abstract: 本发明属于信息抽取技术领域,具体涉及基于用户辅助修正下的实体对特定关系抽取方法,包括以下步骤:a、设置人工标注模块,该模块用于按需导入数据,并进行人工标注;b、构建基于深度学习的模型训练模块,其包含多个深度学习模型,训练数据经过不同的深度学习模型找出最优模型并替换抽取模型;c、对人工标注数据及校正数据进行整合以及对特定的过滤清理,并依据分词结果进行数据的预处理;d、构建关系校正模块供用户进行辅助修正,由用户判断抽取是否正确。本发明在保证用户能动性的前提下,让用户对相应数据进行标注,纠正计算机的错误,教会计算机如何产出想要的结果,通过伴随用户的辅助修正不断提高了特定关系抽取的准确率。
-
公开(公告)号:CN111027323A
公开(公告)日:2020-04-17
申请号:CN201911235554.9
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/30 , G06F40/211 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于主题模型和语义分析的实体指称项识别方法,包括如下步骤,步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析;步骤二、基于句法分析,获取边界完整的名词词组作为实体指称项的候选集,然后综合利用LDA主题模型和TF-IDF统计算法,从候选集中过滤非实体指称项;步骤三、度量实体指称项和种子实体的语义相似度,选择相似度高的种子类别作为实体类别,然后利用浅层的句法知识设置规则,将每种实体类别的实体指称项分类到相应的指称项类别。本发明能够提高实体边界检测和分类方法的有效性。
-
公开(公告)号:CN111026815A
公开(公告)日:2020-04-17
申请号:CN201911235530.3
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
Abstract: 本发明属于信息抽取技术领域,具体涉及基于用户辅助修正下的实体对特定关系抽取方法,包括以下步骤:a、设置人工标注模块,该模块用于按需导入数据,并进行人工标注;b、构建基于深度学习的模型训练模块,其包含多个深度学习模型,训练数据经过不同的深度学习模型找出最优模型并替换抽取模型;c、对人工标注数据及校正数据进行整合以及对特定的过滤清理,并依据分词结果进行数据的预处理;d、构建关系校正模块供用户进行辅助修正,由用户判断抽取是否正确。本发明在保证用户能动性的前提下,让用户对相应数据进行标注,纠正计算机的错误,教会计算机如何产出想要的结果,通过伴随用户的辅助修正不断提高了特定关系抽取的准确率。
-
公开(公告)号:CN111091003B
公开(公告)日:2023-10-10
申请号:CN201911235588.8
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/289 , G06F16/36 , G06F16/951 , G06F16/9532
Abstract: 本发明属于信息抽取的技术领域,具体涉及一种基于知识图谱查询的并行抽取方法,包括:步骤一,提取数据源的URL,获取对应的文本页面;步骤二,对文本页面的内容进行过滤和分词处理,然后在预设的多个规则块中并行地运行信息匹配,对文本页面抽取所需要的实体关系;步骤三,汇总多个规则块的匹配结果,输出对文本页面的抽取结果。本发明的抽取方法可以应用于单文本和多文本的语句,多个规则块能够同时运行、并行地实施所需的匹配,有效地实现了单文本或者多文本中不同的语句的多级并行处理,从而减少了硬件成本和提升了匹配的速度。
-
公开(公告)号:CN111027309A
公开(公告)日:2020-04-17
申请号:CN201911235497.4
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/211 , G06F40/284 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
-
公开(公告)号:CN111027695B
公开(公告)日:2023-11-24
申请号:CN201911235589.2
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06N3/082 , G06N3/0464 , G06N3/0442
Abstract: 本发明属于计算机技术领域,具体涉及基于物理距离和语义距离的双向LSTM模型的构建方法,包括以下步骤:a、进行数据预处理;b、对LSTM模型中的单词进行向量化处理并对其物理特征和语义特征进行设置;c、构建双向LSTM模型。与现有技术相比,本发明可以有效地在LSTM网络的输入上增加物理特征和语义特征,在特征选择上,不仅仅使用词向量作为特征,更实将位置特征添加进来,将模型的训练集从句子级别细化到了实体对级别;模型构建上,也考虑到了语义上的句法以来,既充分考虑到了两个实体之间的最直接语义特征,降低上下文长度,又考虑到了非最短路径上的词语对分类结果的影响,有效提高了准确率。
-
公开(公告)号:CN111027324B
公开(公告)日:2023-11-21
申请号:CN201911235614.7
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/30 , G06N20/00
-
公开(公告)号:CN111027309B
公开(公告)日:2023-05-23
申请号:CN201911235497.4
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/211 , G06F40/284 , G06F40/295 , G06N3/0442 , G06N3/08
Abstract: 本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
-
公开(公告)号:CN111091003A
公开(公告)日:2020-05-01
申请号:CN201911235588.8
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/289 , G06F16/36 , G06F16/951 , G06F16/9532
Abstract: 本发明属于信息抽取的技术领域,具体涉及一种基于知识图谱查询的并行抽取方法,包括:步骤一,提取数据源的URL,获取对应的文本页面;步骤二,对文本页面的内容进行过滤和分词处理,然后在预设的多个规则块中并行地运行信息匹配,对文本页面抽取所需要的实体关系;步骤三,汇总多个规则块的匹配结果,输出对文本页面的抽取结果。本发明的抽取方法可以应用于单文本和多文本的语句,多个规则块能够同时运行、并行地实施所需的匹配,有效地实现了单文本或者多文本中不同的语句的多级并行处理,从而减少了硬件成本和提升了匹配的速度。
-
-
-
-
-
-
-
-
-