-
公开(公告)号:CN112487807B
公开(公告)日:2023-07-28
申请号:CN202011432040.5
申请日:2020-12-09
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F16/33 , G06F16/35 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于膨胀门卷积神经网络的文本关系抽取方法,该方法包括:将文本信息进行分字、分词等预处理,将处理后的编码信息传入到膨胀门卷积神经网络模型中,获取到的编码序列传入到自注意力机制后,将输出结果传入到卷积神经网络的全连接层,通过“半指针‑半标注”的方法抽取出主实体,然后对于每一种关系运用同一种方式抽取出对应的客实体;本发明运用卷积神经网络与自注意力机制结合的方法,通过注意力机制对抗远程监督引入的噪声,并充分利用了语言间存在的一致性、互补性信息,提高了关系抽取的准确率。
-
公开(公告)号:CN108667816B
公开(公告)日:2021-07-13
申请号:CN201810353434.8
申请日:2018-04-19
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种网络异常的检测定位方法及系统,涉及互联网安全,深度学习,神经网络领域。包括步骤:首先,将URL按照特殊字符对其进行划分;其次将划分后的URL使用word2vec进行词向量编码;然后,将词向量放至卷积层进行自动地特征处理;接着将卷积层结果与拥有序列注意力机制的注意力层相结合;最后将注意力层结果进行最大池化和全连接操作,得到最终的异常检测结果,同时注意力层的输出也用于对URL种的恶意代码进行定位。本发明具有极好的检测效果,不仅检测率高同时还可以定位URL中的恶意代码片段并可视化,有效的避免了人工特征工程和专家知识方法的弊端。
-
公开(公告)号:CN107895283B
公开(公告)日:2021-02-09
申请号:CN201711086963.8
申请日:2017-11-07
Applicant: 重庆邮电大学
IPC: G06F30/27
Abstract: 本发明请求保护一种基于时间序列分解的商家客流量大数据预测方法,属于智能信息处理领域。主要包括步骤:101对历史消费数据进行预处理;102对经过预处理的数据构建特征工程并选取特征;103基于时间序列分解构建客流量预测模型;104对已建立模型进行多模型加权融合,预测商家客流量。本发明能够为商家更为精准的预测客流量,有利于商家更精确的配置资源,提前做好准备以及适时采取宣传措施等。
-
公开(公告)号:CN111274394A
公开(公告)日:2020-06-12
申请号:CN202010058018.2
申请日:2020-01-16
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F40/211 , G06F40/284 , G06K9/62
Abstract: 本发明属于自然语言处理领域,涉及一种实体关系的抽取方法、装置、设备及存储介质,所述方法包括获取每条语料的句法信息并预处理,将预处理后的句法信息输入到BERT模型中;获取语料的序列特征向量和每个词语的实值特征向量;利用词性标注和句法分析,划分出包含实体对的完整短句,利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量;采用基于依存分析的单词级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响,提高了关系抽取的准确率。
-
公开(公告)号:CN106886569B
公开(公告)日:2020-05-12
申请号:CN201710026254.4
申请日:2017-01-13
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。
-
公开(公告)号:CN109543191A
公开(公告)日:2019-03-29
申请号:CN201811454024.9
申请日:2018-11-30
Applicant: 重庆邮电大学
IPC: G06F17/27
Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。
-
公开(公告)号:CN109034658A
公开(公告)日:2018-12-18
申请号:CN201810960445.2
申请日:2018-08-22
Applicant: 重庆邮电大学
CPC classification number: G06Q10/0635 , G06Q40/00
Abstract: 本发明公开了一种基于大数据金融的违约用户风险预测方法,包括:101对用户的历史行为数据进行预处理操作;102根据历史行为划分训练集数据、验证集数据;103对用户历史数据进行特征工程操作;104对构建特征完成的样本集进行特征选择;105建立多个机器学习模型,并进行模型融合操作;106通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测。本发明主要是通过对用户历史数据进行预处理和分析,提取特征,特征选择工作,建立多个机器学习模型,根据用户互联网消费行为数据对用户在未来一个月是否会逾期还款进行预测,为金融领域细分人群提供更为精准的风控服务。
-
公开(公告)号:CN107895283A
公开(公告)日:2018-04-10
申请号:CN201711086963.8
申请日:2017-11-07
Applicant: 重庆邮电大学
IPC: G06Q30/02
CPC classification number: G06Q30/0202
Abstract: 本发明请求保护一种基于时间序列分解的商家客流量大数据预测方法,属于智能信息处理领域。主要包括步骤:101对历史消费数据进行预处理;102对经过预处理的数据构建特征工程并选取特征;103基于时间序列分解构建客流量预测模型;104对已建立模型进行多模型加权融合,预测商家客流量。本发明能够为商家更为精准的预测客流量,有利于商家更精确的配置资源,提前做好准备以及适时采取宣传措施等。
-
公开(公告)号:CN107294993A
公开(公告)日:2017-10-24
申请号:CN201710543858.6
申请日:2017-07-05
Applicant: 重庆邮电大学
IPC: H04L29/06
Abstract: 本发明请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。
-
公开(公告)号:CN105630936A
公开(公告)日:2016-06-01
申请号:CN201510975984.X
申请日:2015-12-22
Applicant: 北京奇虎科技有限公司 , 重庆邮电大学
CPC classification number: G06F16/2246 , G06K9/6267
Abstract: 本发明提供了一种基于单类决策树的不平衡数据处理方法及装置,其中方法包括:对不平衡数据进行预处理;针对预处理后的不平衡数据,选取构单决策树的分类属性,构建单决策树,并在满足预定条件时终止构建单决策树;对所述构建好的单决策树进行剪枝处理;装置包括:预处理模块、构建模块以及剪枝模块;本发明采用目标类F值选取分裂属性,充分考虑数据的不平衡性,有效地对大数据中的小类样本数据进行分类,使分类结果更加准确,从而提高小类样本数据分类的准确率。
-
-
-
-
-
-
-
-
-