-
公开(公告)号:CN110688484A
公开(公告)日:2020-01-14
申请号:CN201910905103.5
申请日:2019-09-24
Applicant: 北京工商大学
Abstract: 本发明公开一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法,包括:S1、选取需要检测的微博言论数据集,通过文本特征处理构建不平衡数据集,构建分类模型;指定分类模型在参数ω上的先验分布,对参数ω随机初始化,得到初始参数向量ω0;S2、计算参数为ω0的分类模型对各类别子数据集的间隔似然值;S3、计算分类模型在参数ω0上的后验概率;S4、采样新参数点;S5、记录采样到的参数序列;S6、分类模型计算待测言论特征属于各类别的概率分布向量p,预测待测言论特征的类别为p中概率最高的类别;本发明不需大量数据支撑训练过程,克服了异常类样本过拟合的问题,从而有效提高了异常类言论数量过少时数据集的分类精度。
-
公开(公告)号:CN109918666A
公开(公告)日:2019-06-21
申请号:CN201910168357.3
申请日:2019-03-06
Applicant: 北京工商大学
Abstract: 本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。
-
公开(公告)号:CN106066856B
公开(公告)日:2019-05-21
申请号:CN201610349298.6
申请日:2016-05-24
Applicant: 北京工商大学
IPC: G06F16/953 , G06F17/27
Abstract: 本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。
-
公开(公告)号:CN107958032A
公开(公告)日:2018-04-24
申请号:CN201711156309.X
申请日:2017-11-20
Applicant: 北京工商大学
CPC classification number: G06F16/951 , G06F2216/03 , G06Q50/01
Abstract: 本发明一种有效的动态网络节点影响力度量方法,针对带有时间戳的网络,按照一定的时间片段,将网络划分为若干个有序的独立网络快照。网络结构以边集的形式存储,每条边都带有时间戳记录。含依次对独立网络快照进行叠加,形成叠加网络快照。为了刻画网络的动态性,本发明提出了边权重衰减与节点影响力衰减机制,通过不断迭代计算,得到节点在不同时间段内的影响力。本发明所提供的动态网络节点影响力度量方法,无论在小规模的电影演员合作网络,还是在大规模社交网络,都能够快速有效度量动态网络节点影响力。相对于传统的静态网络影响力度量,本发明可以对节点影响力的变化过程进行刻画,并且准确度量动态网络节点影响力,本方法简洁高效。
-
公开(公告)号:CN107945037A
公开(公告)日:2018-04-20
申请号:CN201711203750.9
申请日:2017-11-27
Applicant: 北京工商大学
IPC: G06Q50/00
CPC classification number: G06Q50/01
Abstract: 本发明一种基于节点结构特征的社交网络去匿名化的方法,在拥有辅助图的基础上将匿名化网络中节点与辅助图中属于同一用户的节点匹配出来,从而达到去匿名化的方法。原理是将用户和用户间的关系抽象为网络拓扑结构中的节点和连边形成社会网络拓扑图。以图为对象,一个图中节点身份信息已知作为辅助图,另外一个图中节点身份信息未知作为匿名图。包括如下步骤:步骤一:数据获取及处理;步骤二:确定种子节点,作为最初的匹配集合μ;步骤三:根据匹配集合μ,开始迭代的传播过程,直到没有新的匹配可以被添加;步骤四:输出匹配集合μ中的节点对。本发明利用较少的种子节点可以有效地识别匿名化网络,可以应用于大规模社会网络中去匿名化。
-
公开(公告)号:CN103077240B
公开(公告)日:2015-09-23
申请号:CN201310008644.0
申请日:2013-01-10
Applicant: 北京工商大学
IPC: G06F17/30
Abstract: 一种基于概率图模型的微博水军识别方法,它有三大步骤。本发明是将用户的属性和以往使用微博的行为量化成特征指标,分别为用户的属性特征和行为特征,通过构建属性特征与行为特征之间的概率图结构,将用户为水军的概率视为此图结构中的隐变量,利用样本学习图模型的参数,利用学习后的概率图模型预测其它用户为水军的概率。本发明以如何在微博平台中自动识别水军用户为研究对象,提供了一种自动、有效、快速的识别微博水军用户的方法,它使得在微博平台大数据量的情况下能够进行有效的进行识别。它在数据挖掘技术领域里具有较好的实用价值和广阔地应用前景。
-
公开(公告)号:CN119760504A
公开(公告)日:2025-04-04
申请号:CN202411843451.1
申请日:2024-12-14
Applicant: 北京工商大学
IPC: G06F18/241 , G06F18/21 , G06F18/25 , G06F40/16 , G06F40/30 , G06N3/0442 , G06N3/0455 , G06F123/02
Abstract: 本发明公开了一种基于BLT‑BiLSTM的多模态数据时间序列目标预测方法及系统,应用于多模态数据融合预测技术领域。方法包括以下步骤:获取结构化数据、文本数据、音频数据;使用LLM模型对音频数据进行文本提取及情绪识别生成音频文本数据,并使用Chinese‑BERT‑wwm模型对音频文本数据及文本数据进行词向量特征提取,选取有良好识别能力的词向量;将音频文本特征、文本特征和结构化数据特征输入Transformer模型,输出具有良好预测效果的特征;将融合好的特征作为输入集,输入BiLSTM模型进行预测。本发明优化了传统的音频、文本、结构化数据多模态特征硬拼接融合方式改用Transformer模型进行特征融合,使用BiLSTM对时序数据预测的准确率上有提高。
-
公开(公告)号:CN119760125A
公开(公告)日:2025-04-04
申请号:CN202411843472.3
申请日:2024-12-14
Applicant: 北京工商大学
IPC: G06F16/338 , G06F16/35 , G06F16/36 , G06F40/16 , G06F40/30 , G06Q10/0639
Abstract: 本发明公开了一种基于词嵌入相似性的词库动态扩充与ESG表现量化评估方法,涉及自然语言处理和企业社会责任评估技术领域。包括:对获取的企业年报非结构化文本数据进行预处理;对预处理后的数据集进行向量化处理,并将向量化处理后的数据集划分为训练集数据和测试集数据;利用余弦相似性方法进行训练集数据词语筛选和分类,从而构建E、S、G词库;计算测试集数据与E、S、G词库的相似度,得出企业的ESG得分;根据ESG得分构建企业ESG表现雷达图,展示企业的ESG表现。本发明通过运用非结构化数据来评估企业的ESG表现,极大地丰富了ESG表现评估的方法体系,并为预测企业的综合实力提供了一个全新的分析视角。
-
公开(公告)号:CN119598400A
公开(公告)日:2025-03-11
申请号:CN202411648520.3
申请日:2024-11-18
Applicant: 北京工商大学
IPC: G06F18/25 , G06F18/214 , G06F18/213 , G06N3/0455 , G06N3/0442
Abstract: 本申请公开了一种基于Transformer的数据融合方法及系统,涉及数据融合技术领域,该方法包括收集多模态数据,对多模态数据进行数据预处理,得到预处理后的数据;预处理后的数据中包括独立语句和结构化特征;采用Embedding技术,对独立语句进行向量化处理,得到文本向量矩阵;基于LST M循环神经网络,提取文本向量矩阵中的文本特征;根据提取的文本向量矩阵中的文本特征和预处理后的数据中的若干个结构化特征,构建训练数据集;根据训练数据集,基于Transformer技术,对融合神经网络模型进行训练,得到训练好的融合神经网络模型。本申请为多模态数据的处理和分析提供了新的思路和方法。
-
公开(公告)号:CN109918666B
公开(公告)日:2024-03-15
申请号:CN201910168357.3
申请日:2019-03-06
Applicant: 北京工商大学
IPC: G06F40/253 , G06F40/289 , G06F16/33 , G06N3/02 , G06N3/08
Abstract: 本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。
-
-
-
-
-
-
-
-
-