-
公开(公告)号:CN109815456A
公开(公告)日:2019-05-28
申请号:CN201910113020.2
申请日:2019-02-13
Applicant: 北京航空航天大学
IPC: G06F17/22
Abstract: 本发明提出一种基于字符对编码的词向量存储空间压缩的方法,具体方式为:步骤1,选取预处理完毕的语料,获得所述语料中每个词语的子词构成,在所述语料中的词语后插入它相对应的子词表示,构成一个新语料集;步骤2,使用所述新语料集训练出每个词语词向量集{Wi}与子词的词向量集{Si};步骤3,使用所述子词的词向量集S作为基词向量集,为每一个原词语训练出基于所述基词向量集的线性组合,使用该线性组合结果作为原词向量的表达。
-
公开(公告)号:CN104281670B
公开(公告)日:2017-12-15
申请号:CN201410509359.1
申请日:2014-09-28
Applicant: 北京航空航天大学
IPC: G06F17/30
Abstract: 本发明提供一种社交网络事件的实时增量式检测方法和系统,通过采用概率图模型,根据短文本的时间、文档和主题标签,对短文本进行模型学习,获得似然函数;采用EM算法,对似然函数进行求解,获得参数;采用增量更新方式,对所获得的参数进行迭代更新,直至参数收敛;采用分布式方式,根据收敛后的参数执行EM算法中的E步和M步,计算获得短文档的内容,从而解决了现有技术中的事件检测均不能同时适应社交网络中的短文本的实时性、社会化以及碎片化特征,导致检测结果不准确的技术问题。并且,提出了有监督的短文本事件检测模型,增量学习与预测相结合的算法和基于内存计算平台的事件检测模型。
-
公开(公告)号:CN104615716B
公开(公告)日:2017-12-01
申请号:CN201510061724.1
申请日:2015-02-05
Applicant: 北京航空航天大学
Abstract: 本发明提供一种基于优先序列的分布式社交网络信息采集方法及系统,包括:获取本次任务分配的任务列表,所述任务列表中包括各社交网络信息;根据所述各社交网络信息的发布时间,对所述各社交网络信息进行优先级排序,其中,发布时间越早则优先级越高;按照第一周期,根据当前所述各社交网络信息的优先级,周期性地进行任务分配。通过本发明提供的方案,能够有效地对任务进行分配,提高社交网络信息采集的效率。
-
公开(公告)号:CN107391613A
公开(公告)日:2017-11-24
申请号:CN201710538752.7
申请日:2017-07-04
Applicant: 北京航空航天大学
Abstract: 本发明公开了一种工业安全主题多文档自动消歧方法及装置,所述方法包括:创建具有多种维度的DAG主题结构图,所述DAG主题结构图中的全部主题形成主题集合;获取输入的关键词,并采集与所述关键词相关的多个文档,所述多个文档形成文档集合;为所述文档集合中的各个文档标注相应的标签;将所述DAG主题结构图和标注标签后的文档集合,输入多子模函数中,并对所述多子模函数进行优化;根据优化结果,确定出目标主题子集,所述目标主题子集为所述主题集合的子集;基于所述DAG主题结构图,确定与各个文档的标签相关联的主题;针对所述目标主题子集中的各个主题,将与所述主题相关联的文档分为一组。
-
公开(公告)号:CN104281664B
公开(公告)日:2017-11-03
申请号:CN201410496089.5
申请日:2014-09-24
Applicant: 北京航空航天大学
IPC: G06F17/30
Abstract: 本发明提供一种分布式图计算系统数据切分方法和系统,该方法包括:确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值;获得各第一相邻节点的标签的出现次数,并确定是否存在出现次数相同的至少两个标签;若存在,则确定与至少两个标签分别对应的各第二相邻节点,并根据所述数据节点与各第二相邻节点间的相似性度量值,确定所述数据节点的标签;将具有同一标签的数据节点划分到同一社区,将属于同一社区的数据节点存储在同一处理主机中。充分考虑了数据节点间的相似性特征以及基于标签实现了数据节点的社区划分,节省了运算开销,而且关系密切的数据节点被分配到同一处理主机中,减少了在不同处理主机间的通信开销。
-
公开(公告)号:CN106897367A
公开(公告)日:2017-06-27
申请号:CN201710022457.6
申请日:2017-01-12
Applicant: 北京航空航天大学
IPC: G06F17/30
CPC classification number: G06F16/9577 , G06F16/958
Abstract: 本发明提供一种用户关系可视化方法及装置,对多个用户进行聚类分析以得到多个用户集合,每个用户集合中的任意两个用户之间存在直接转发或间接转发关系,对于每一个用户集合,生成该用户集合的3D数据集,并根据3D数据集生成该用户集合的3D视图。该过程中,采用3D视图实现网页中用户关系的可视化,通过利用三维空间的特点,在空间中进行点的渲染和放置时,不会应为点过多而占用较大的空间,避免用户数量较多时占用较大的页面空间、对整体布局产生影响。
-
公开(公告)号:CN106897265A
公开(公告)日:2017-06-27
申请号:CN201710022458.0
申请日:2017-01-12
Applicant: 北京航空航天大学
Abstract: 本发明提供一种词向量训练方法及装置,属于机器学习技术领域。该词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据新词汇库对应的第一哈夫曼树和旧词汇库对应的第二哈夫曼树分别对新词汇库中词汇的词向量进行更新。本发明提供的词向量训练方法及装置,提高了词向量的训练效率。
-
公开(公告)号:CN106886579A
公开(公告)日:2017-06-23
申请号:CN201710058647.3
申请日:2017-01-23
Applicant: 北京航空航天大学
Abstract: 本发明实施例提供一种实时流式文本分级监控方法和装置,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。本实施例获得的用户的监控等级更精确也更迅速。
-
公开(公告)号:CN106874435A
公开(公告)日:2017-06-20
申请号:CN201710061313.1
申请日:2017-01-25
Applicant: 北京航空航天大学
Abstract: 本发明提供一种用户画像构建方法和装置。本发明提供的用户画像构建方法,包括:获取用户在社交平台上发布的网络信息,所述网络信息包括用户的注册信息和第一预设时长内用户发布的网络内容;根据所述注册信息,确定所述用户的人口属性信息;根据所述网络内容和预设的多个标签词库,确定所述用户的兴趣标签;根据所述人口属性信息和所述用户的兴趣标签,生成所述用户的用户画像。本发明提供的用户画像构建方法和装置,解决了现有技术中的用户画像构建方法所构建出的用户画像不能充分体现用户的特征,从而使得平台无法充分的了解用户,进而无法为用户提供精细化的服务,用户体验度不高的问题。
-
公开(公告)号:CN106815644A
公开(公告)日:2017-06-09
申请号:CN201710061671.2
申请日:2017-01-26
Applicant: 北京航空航天大学
IPC: G06N99/00
CPC classification number: G06N99/005
Abstract: 本发明提供一种机器学习方法和从节点。本发明提供的机器学习方法,应用于机器学习系统,所述机器学习系统包括分布式共享内存的参数服务器、主节点和多个从节点;所述参数服务器用于存储全局模型参数和全局训练数据;所述主节点用于根据全局数据处理任务,确定每个从节点的数据处理任务,所述方法包括:从节点从所述参数服务器中获取所述从节点的数据处理任务对应的第一训练数据块,并按照所述从节点的数据处理任务对所述第一训练数据块进行处理,得到第一处理数据块。本发明提供的机器学习方法和从节点,无需借助外部其他设备,就可以对训练数据进行全局数据处理。
-
-
-
-
-
-
-
-
-