-
公开(公告)号:CN103488639B
公开(公告)日:2016-12-07
申请号:CN201210192018.7
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种XML数据的查询方法,其步骤包括:1)采用Native XML方式存储XML数据,其存储结构包括:内节点层,存储XML树的节点,XML元素采用DDE编码方式进行编码;叶节点层,存储XML树叶节点的文本数据;倒排层,存储内节点层的倒排索引;2)根据输入的XPath查询语句,从所述倒排层中取出与所述XPath的节点对应的元素序列,并采用败者树进行归并排序;3)对归并排序后的XML元素按顺序进行入栈和出栈操作,从缓冲区得到查询结果。本发明能够处理带有关键字“OR”和通配符“*”的XPath,并具有很高的效率。
-
公开(公告)号:CN103150404B
公开(公告)日:2016-06-15
申请号:CN201310104904.4
申请日:2013-03-28
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种关系-XML混合数据关键字查询方法。本发明为:1)根据数据库的模式信息从数据库中读取数据,生成元组数据图;数据库为对关系数据和XML数据是逻辑上共同存储,物理上分开存储;2)对关系数据与XML数据进行倒排索引;3)查找输入关键字出现的对应位置;若在某个元组中,则标记该元组为候选节点,然后在元组数据图中查找包含该候选节点的最小生成树;若在某个XML文档中,则将该文档所在元组标记为候选节点,然后在元组数据图中查找包含该候选节点的最小生成树,再在该XML文档中查找包含关键字的最小公共祖先节点;4)返回包含查询关键字结构信息的关系-XML数据查询结果。本发明实现了混合数据的关键字查询。
-
公开(公告)号:CN103514183A
公开(公告)日:2014-01-15
申请号:CN201210209911.6
申请日:2012-06-19
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种基于交互式文档聚类的信息检索方法和系统,其步骤包括:对文档集进行水平划分和预处理;进行词频统计,并将高频词组成特证词集合;生成文档的向量空间表示,计算文档间的距离并生成相似度矩阵;生成拉普拉斯矩阵,根据拉普拉斯矩阵的特征值间隔确定聚类数及表示矩阵,并进行二次聚类,得到初始距离结果;用户对初始聚类结果进行交互操作,使用卡方统计量挖掘新的特证词并重构向量空间,然后重复进行上述聚类过程;最后将聚类结果展示给用户,供用户获得不同类别的检索结果。本发明采用有用户介入的半监督学习方式,对文档进行聚类分析,供用户获得不同类别的检索结果。
-
公开(公告)号:CN103488638A
公开(公告)日:2014-01-01
申请号:CN201210191976.2
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种结果缓存替换的优化方法,属于计算机网络技术领域。本方法为:1)以系统搜索日志中的用户ID为键、用户发起的请求为键值建立一哈希表h2;2)将同一用户ID发起的所有请求进行拼接,得到一字符串,对所有用户的拼接字符串构成的文档集进行话题模型分析,获得话题集合M及关联度;3)计算与某话题相关的搜索请求出现次数与同一时间段内所有请求出现次数的比值,计算该请求的权重贡献值;4)当收到一请求q时,查找匹配的结果缓存并返回和更新h2;如果没有,则在h2中查找对应的键值并与q拼接,计算q的权重贡献值;5)将结果缓存中权重较低的结果项替换出去,并加入新的缓存项。本发明可大大提高缓存命中率的效果。
-
公开(公告)号:CN117271803B
公开(公告)日:2024-01-30
申请号:CN202311543548.6
申请日:2023-11-20
Applicant: 北京大学 , 国网信息通信产业集团有限公司 , 国网甘肃省电力公司白银供电公司
Abstract: 本公开提供了一种知识图谱补全模型的训练方法、装置、设备及存储介质,包括:获取每个三元组数据的头实体及尾实体,得到第一实体集合;将每个头实体和尾实体作为第一初始尾实体,获取各类模态对应的第一模态特征向量;将第一初始尾实体包括的至少一类模态中的任一分别作为目标类模态,根据其对应的第一模态特征向量与预设的第一输入数据输入至初始知识图谱补全模型,进而确定目标类模态对应的初始损失函数;对每类模态对应的初始损失函数进行加和处理,得到损失函数,确定其收敛至损失阈值得到知识图谱补全模型。本公开通过对不同模态进行单独训练得到对应的初始损失函数,减小了不同模态间的相互干扰,提高了知识图谱补全的准确率。
-
公开(公告)号:CN116151271A
公开(公告)日:2023-05-23
申请号:CN202211507697.2
申请日:2022-11-25
Applicant: 海尔优家智能科技(北京)有限公司 , 北京大学(青岛)计算社会科学研究院 , 青岛海尔科技有限公司
IPC: G06F40/35 , G06F40/284
Abstract: 本发明公开了一种面向智能家居对话理解的用户意图识别方法及系统。本方法为:1)获取智能家居场景下的用户语料信息并将其存储到语料信息存储模块;用户语料信息包括文本格式的源域语料数据和目标域语料数据;源域语料数据为意图标注后样本数据;2)文本预处理模块对每一条目标域语料数据进行意图标注,得到目标域的样本数据;3)特征提取模块将源域的标注数据和目标域的标注数据分别编码为语义特征向量,得到各样本数据的语义特征向量;4)意图分类模型模块利用样本数据对小样本意图分类模型进行训练和检测;5)对于一查询语音,判定输出模块将该查询语音转化为文本后输入到训练检测后的小样本意图分类模型,预测输出该查询语音的意图类别。
-
公开(公告)号:CN110399606B
公开(公告)日:2023-04-07
申请号:CN201811488091.2
申请日:2018-12-06
Applicant: 国网信息通信产业集团有限公司 , 北京大学 , 国家电网有限公司 , 国网浙江省电力有限公司
IPC: G06F40/253 , G06F40/258 , G06F16/33 , G06F16/35
Abstract: 本发明提供一种无监督电力文档主题生成方法及系统,用于快速生成电力领域的文档主题。本发明中首先利用相关性分析方法,筛选与特定领域相关的文档数据,再利用聚类方法找到同类别的文档,然后对其进行主题提取,并将此应用在主题提取系统中,使得提取特定领域的主题更具可行性。
-
公开(公告)号:CN111737951B
公开(公告)日:2022-10-14
申请号:CN201910212664.7
申请日:2019-03-20
Applicant: 北京大学 , 国网信息通信产业集团有限公司 , 国家电网有限公司 , 国网浙江省电力有限公司
IPC: G06F40/117 , G06F40/295
Abstract: 本发明公开一种文本语言关联关系标注方法和装置。利用文本语言各信息抽取子任务的紧密关联性,设计一种不依赖具体模型的复合标注方法,能够自然地融合多种文本语言信息抽取任务,实现多种文本语言关联任务的联合学习与一体化的训练,如支持命名实体识别与命名实体标准化的联合学习、支持命名实体识别与实体关系抽取的联合学习、支持命名实体识别与实体消歧的联合学习等。本发明提出的文本语言关联关系复合标注方法,充分地利用了文本语言信息抽取的各子任务之间的紧密关联性,实现完全的联合学习,使得各关联任务之间可以信息共享相互促进,总体提升文本语言信息抽取的准确率与召回率。
-
公开(公告)号:CN103970733B
公开(公告)日:2017-07-14
申请号:CN201410143875.7
申请日:2014-04-10
Applicant: 中国信息安全测评中心 , 北京大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于图结构的中文新词识别方法,其步骤包括:1)根据词之间的邻接关系将文档集抽象成有权有向图;2)遍历所述有权有向图的所有点,基于共现率选出每一个点的备选新词;3)对所述备选新词进行路径拓展,找到共现率始终大于阈值的最大权值路径,从而得到完整的备选新词;4)根据信息熵对所述完整的备选新词进行过滤,得到最终的备选新词集合。本发明首次提出了将文档集抽象为图结构进行新词发现和识别的方法,将新词发现问题转化为在有向有权图上的最大权重路径寻找问题,很好地利用了图的特点,是一种时间复杂度较低、召回率和准确率都较高的新词发现和识别方法。
-
公开(公告)号:CN103995827A
公开(公告)日:2014-08-20
申请号:CN201410145069.3
申请日:2014-04-10
Applicant: 北京大学
IPC: G06F17/30
CPC classification number: G06F17/30094 , G06F3/067 , G06F17/30194
Abstract: 本发明涉及一种MapReduce计算框架中的高性能排序方法。该方法在Map阶段按照partition分别构建缓冲链,移除partition本身进行排序的需要,并且对于每一个partition数据将按照块进行组织,降低了数据在内存中的拷贝以及文件IO方面的代价;在Map阶段不执行排序操作,在Reduce阶段以一个较大的缓冲池作为一次排序的基本单位,使得在排序的归并阶段总的归并路数是一个用户可调优的值。本发明通过一种混合的内存排序算法,优化了MapReduce框架中排序的两个阶段,基本消除了排序对于计算框架的性能影响,进而提升了计算框架的资源有效性,降低了集群的整体资源消耗。
-
-
-
-
-
-
-
-
-