-
公开(公告)号:CN110471942A
公开(公告)日:2019-11-19
申请号:CN201810431282.9
申请日:2018-05-08
Applicant: 北京大学
IPC: G06F16/2457
Abstract: 本发明公开一种基于均衡哈希编码的飞行器查询方法及系统。本方法为:利用数据集中每一飞行器的飞行参数数据和飞行条件数据建模表示对应的飞行器;为每一个编码后的飞行器生成对应的向量空间用于限制生成哈希编码的均衡性以及可辨别性,确定出飞行器的哈希编码方式;利用上述确定的哈希编码方式对目标飞行器进行哈希编码;然后利用飞行器的哈希编码信息进行匹配查询,最终得到数据集中与目标飞行器匹配的飞行器。本发明采用无需人工介入的无监督学习方式,对飞行器进行均衡哈希编码,有效降低飞行器存储代价,并基于编码后的飞行器进行检索操作。
-
公开(公告)号:CN110399606A
公开(公告)日:2019-11-01
申请号:CN201811488091.2
申请日:2018-12-06
Applicant: 国网信息通信产业集团有限公司 , 北京大学 , 国家电网有限公司 , 国网浙江省电力有限公司
Abstract: 本发明提供一种无监督电力文档主题生成方法及系统,用于快速生成电力领域的文档主题。本发明中首先利用相关性分析方法,筛选与特定领域相关的文档数据,再利用聚类方法找到同类别的文档,然后对其进行主题提取,并将此应用在主题提取系统中,使得提取特定领域的主题更具可行性。
-
公开(公告)号:CN109948018A
公开(公告)日:2019-06-28
申请号:CN201910021939.9
申请日:2019-01-10
Applicant: 北京大学 , 国网信息通信产业集团有限公司 , 国家电网有限公司 , 国网浙江省电力有限公司
IPC: G06F16/951
Abstract: 本发明是一种Web结构化数据快速提取方法,步骤包括:层次遍历目标网站页面当中的网址链接,并以列表形式记录所有网站的网址和对应的网址跳转顺序;从上述列表中识别目标网页的网址,并记录对应的网址跳转顺序,按目标网站到目标网页访问的先后顺序进行网址拼接,生成访问目标网页的网址跳转顺序;根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序;根据上述最优网址跳转顺序访问目标网页,层次遍历目标页面的所有数据项标签,找到所有目标数据项标签;从上述所有目标数据项标签中找出最短标签路径;根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。本发明还提供一种Web结构化数据快速提取系统。
-
公开(公告)号:CN103514183B
公开(公告)日:2017-04-12
申请号:CN201210209911.6
申请日:2012-06-19
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种基于交互式文档聚类的信息检索方法和系统,其步骤包括:对文档集进行水平划分和预处理;进行词频统计,并将高频词组成特证词集合;生成文档的向量空间表示,计算文档间的距离并生成相似度矩阵;生成拉普拉斯矩阵,根据拉普拉斯矩阵的特征值间隔确定聚类数及表示矩阵,并进行二次聚类,得到初始距离结果;用户对初始聚类结果进行交互操作,使用卡方统计量挖掘新的特证词并重构向量空间,然后重复进行上述聚类过程;最后将聚类结果展示给用户,供用户获得不同类别的检索结果。本发明采用有用户介入的半监督学习方式,对文档进行聚类分析,供用户获得不同类别的检索结果。
-
公开(公告)号:CN103970733A
公开(公告)日:2014-08-06
申请号:CN201410143875.7
申请日:2014-04-10
Applicant: 北京大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于图结构的中文新词识别方法,其步骤包括:1)根据词之间的邻接关系将文档集抽象成有权有向图;2)遍历所述有权有向图的所有点,基于共现率选出每一个点的备选新词;3)对所述备选新词进行路径拓展,找到共现率始终大于阈值的最大权值路径,从而得到完整的备选新词;4)根据信息熵对所述完整的备选新词进行过滤,得到最终的备选新词集合。本发明首次提出了将文档集抽象为图结构进行新词发现和识别的方法,将新词发现问题转化为在有向有权图上的最大权重路径寻找问题,很好地利用了图的特点,是一种时间复杂度较低、召回率和准确率都较高的新词发现和识别方法。
-
公开(公告)号:CN103488639A
公开(公告)日:2014-01-01
申请号:CN201210192018.7
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种XML数据的查询方法,其步骤包括:1)采用Native XML方式存储XML数据,其存储结构包括:内节点层,存储XML树的节点,XML元素采用DDE编码方式进行编码;叶节点层,存储XML树叶节点的文本数据;倒排层,存储内节点层的倒排索引;2)根据输入的XPath查询语句,从所述倒排层中取出与所述XPath的节点对应的元素序列,并采用败者树进行归并排序;3)对归并排序后的XML元素按顺序进行入栈和出栈操作,从缓冲区得到查询结果。本发明能够处理带有关键字“OR”和通配符“*”的XPath,并具有很高的效率。
-
公开(公告)号:CN103150404A
公开(公告)日:2013-06-12
申请号:CN201310104904.4
申请日:2013-03-28
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种关系-XML混合数据关键字查询方法。本发明为:1)根据数据库的模式信息从数据库中读取数据,生成元组数据图;数据库为对关系数据和XML数据是逻辑上共同存储,物理上分开存储;2)对关系数据与XML数据进行倒排索引;3)查找输入关键字出现的对应位置;若在某个元组中,则标记该元组为候选节点,然后在元组数据图中查找包含该候选节点的最小生成树;若在某个XML文档中,则将该文档所在元组标记为候选节点,然后在元组数据图中查找包含该候选节点的最小生成树,再在该XML文档中查找包含关键字的最小公共祖先节点;4)返回包含查询关键字结构信息的关系-XML数据查询结果。本发明实现了混合数据的关键字查询。
-
公开(公告)号:CN114492435A
公开(公告)日:2022-05-13
申请号:CN202210121114.6
申请日:2022-02-09
Applicant: 中共青岛市委机构编制委员会办公室 , 青岛视图信息科技有限公司 , 北京大学(青岛)计算社会科学研究院
IPC: G06F40/289 , G06F40/30 , G06N20/00
Abstract: 本发明提供了大数据分析方法及系统,方法包括获取分析单位的历史年报信息;对历史年报信息进行预处理,以得到样本特征;对样本特征进行筛选,以得到筛选特征;根据筛选特征构建模型特征;根据分析算法对模型特征进行训练,得到分析模型;获取分析单位的实时年报信息,将实时年报信息输入至分析模型,以得到分析结果。该方法采集海量的年报信息,提高数据的覆盖程度和准确性;利用大数据及AI技术对年报信息进行处理分析,提取更加合理、有效的特征;使用多个分析算法训练选择分析模型,利用分析模型生成分析结果,并为分析企业或业务流程提供建设性建议,该方法能够适用于各种复杂的数据分析场景,适应性更广,同时提高了数据分析的工作效率。
-
公开(公告)号:CN111368542A
公开(公告)日:2020-07-03
申请号:CN201811600745.6
申请日:2018-12-26
Applicant: 北京大学 , 国网信息通信产业集团有限公司 , 国家电网有限公司 , 国网浙江省电力有限公司
IPC: G06F40/295 , G06F16/31 , G06F16/36 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于递归神经网络的文本语言关联抽取方法和系统。该方法基于递归神经网络(双向长短期记忆网络)自动提取复杂的上下文特征,对上下文的语义信息进行编码;通过基于规则的实体表述对抽取器发现文档内的定义模式,识别文档内部关于非标准表述的定义,并抽取定义的从属于同一个实体概念的标准表述与非标准表述;将抽取到的实体表述对的特征进行编码,把关于实体归一化的信息嵌入到低维的实体表述向量;实体表述向量与上下文特征编码向量联结起来并进行维度转换得到最终的编码;基于条件随机场的解码器结合编码器学习到的特征与状态之间的转移概率,解码出全局最优的状态序列作为最终的输出序列。本发明能够有效提升实体识别的性能。
-
公开(公告)号:CN103995827B
公开(公告)日:2017-08-04
申请号:CN201410145069.3
申请日:2014-04-10
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种MapReduce计算框架中的高性能排序方法。该方法在Map阶段按照partition分别构建缓冲链,移除partition本身进行排序的需要,并且对于每一个partition数据将按照块进行组织,降低了数据在内存中的拷贝以及文件IO方面的代价;在Map阶段不执行排序操作,在Reduce阶段以一个较大的缓冲池作为一次排序的基本单位,使得在排序的归并阶段总的归并路数是一个用户可调优的值。本发明通过一种混合的内存排序算法,优化了MapReduce框架中排序的两个阶段,基本消除了排序对于计算框架的性能影响,进而提升了计算框架的资源有效性,降低了集群的整体资源消耗。
-
-
-
-
-
-
-
-
-