一种基于本体结构的个性化推荐方法

    公开(公告)号:CN103150667A

    公开(公告)日:2013-06-12

    申请号:CN201310082157.9

    申请日:2013-03-14

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于本体结构的个性化推荐方法,步骤包括:1)根据本体结构组成一概念词典;2)将待推荐物品按照概念词典进行分词,将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该物品;3)在设定的时间内将用户浏览过的物品集合表示为用户的兴趣内容,用概念词典对用户兴趣内容进行分词,并将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该用户;4)根据本体相似度计算模型,对待推荐物品和用户兴趣内容的相似度进行计算,推荐相似度最大的n个物品或相似度大于一设定阈值的物品给用户。本发明提高推荐的准确性,克服了传统推荐方法的不足。

    一种图上两点间最短路径查询方法

    公开(公告)号:CN102521364A

    公开(公告)日:2012-06-27

    申请号:CN201110421889.7

    申请日:2011-12-15

    Applicant: 北京大学

    Abstract: 本发明涉及一种图上两点间最短路径查询方法,其步骤包括:1)从图上随机抽取若干点作为支点,根据各支点间的最短路径得出图上每点的中间性估计值;2)将中间性估计值大于设定值的点作为中心点,将图中各点到各中心点的最短路径信息加入图中各点的hop信息,这些中心点的集合记为Wb;3)将图去除Wb中各点后分割为若干小图Si,并得到点割集Ws;4)对于每个小图Si根据枚举出的任意两点间最短路径,得到该小图Si内的所有点的hop信息;5)根据Wb中各点到Ws中各点的最短路径得到不同小图之间的点的hop信息;6)根据图中各点的hop信息,得到用户输入的两查询点之间的最短路径。本发明的方法可行且高效,能在可接受时间内计算出大规模图上的hop信息。

    一种自动识别数字文档版心的方法

    公开(公告)号:CN100552670C

    公开(公告)日:2009-10-21

    申请号:CN200710063772.X

    申请日:2007-02-09

    Abstract: 本发明涉及一种自动识别数字文档版心的方法,属于文档处理技术领域。随着数字文档的广泛应用,对数字文档版心的识别技术也要求越来越精确,但是现有的技术,均是通过手工操作来完成数字文档的版心的识别,效率低下,特别是当数字文档的数据量很大而又排版不规则时,需要人工一页一页的去确定版心,非常不方便。本发明所述的方法,当输入一个含有版式信息的数字文档时,根据页眉、页脚的特征信息、主体字体的识别和多页间重复度的计算,自动识别出数字文档的版心。采用本发明所述的方法,能够高效准确的识别数字文档的版心,为数字文档的进一步加工和应用提供了良好的基础。

    标记语言文档的存储方法及装置和输出方法及装置

    公开(公告)号:CN101158939A

    公开(公告)日:2008-04-09

    申请号:CN200710187142.3

    申请日:2007-11-16

    Abstract: 本发明公开了一种标记语言文档的存储方法及装置和输出方法及装置,解决了低资源配置的信息设备处理大容量标记语言文档时,反应速度慢的问题。存储时:将标记语言文档分成至少两个数据块;在相邻两个数据块之间加入分块标志;将全局标记和未关闭的局部标记及其标记属性,保存到分块标志;将数据块和分块标志进行存储。输出时,顺序选取至少两个数据块;读取存储在分块标志中的标记和标记属性;将分块标志与紧邻其后的数据块一同解析,每个数据块形成一个标记语言文档树结构;将2个或以上的标记语言文档树结构合并为一个树结构并输出。该方案适合处理XML类别的文档以及流式的结构化文档,适用于资源有限而用户对反应速度又有较高要求的移动终端。

    一种手持设备文字排版对齐的方法

    公开(公告)号:CN1416077A

    公开(公告)日:2003-05-07

    申请号:CN02153500.0

    申请日:2002-12-05

    Abstract: 本发明属于文字排版处理领域,具体涉及一种手持设备文字排版对齐的方法。目前,手持设备上的文字排版行尾不能对齐,经常会有违反文字禁排规则的情形,不符合文字的排版规则及人们的阅读习惯。本发明所述的方法采用了一个基础字符单元分析器以及两个核心模块(断行模块和空白分配模块)。断行模块利用字符单元分析器,决定在文字流的什么部位可以断行,而空白分配模块则在字符单元分析器的基础上,采用优先分级的方式,高效率地在一行文字之间分配空白,保证文字行的两端与左右边界对齐、空白在文字之间合理分配。本发明有效地解决了手持设备现有技术中所存在的行尾不能对齐及违反禁排规则的问题。

    一种知识图谱的构建方法
    37.
    发明公开

    公开(公告)号:CN115221335A

    公开(公告)日:2022-10-21

    申请号:CN202210729506.0

    申请日:2022-06-24

    Applicant: 北京大学

    Abstract: 本发明公开了一种知识图谱的构建方法,其步骤包括:1)在没有标注的政治理论语料文本上自动抽取政治理论知识;2)对政治理论知识进行筛选和标注;3)利用训练文本训练政治知识抽取模型;4)使用训练后的政治知识抽取模型对语料库进行知识抽取,得到政治理论知识;5)对于任意两个政治理论知识,计算二者在所述语料库的共现度和语义相似度,如果共现度或语义相似度不为零,则在该两个政治理论知识之间连接一条边,从而得到语料库对应的知识图谱;6)将专家标注的带上下位结构的知识体系与步骤5)所生成的知识图谱进行知识对齐,将知识体系中专家标注的主题词之间的上下位关系融入所述知识图谱。本发明解决了无法抽取较长概念的问题。

    一种语义解析上的领域迁移方法和装置

    公开(公告)号:CN112528667B

    公开(公告)日:2022-10-14

    申请号:CN202011356225.2

    申请日:2020-11-27

    Applicant: 北京大学

    Abstract: 本发明公开了一种语义解析上的领域迁移方法和装置。本方法为:1)根据源领域的问题和标注的逻辑表达式、以及目标领域下的问题和标注的逻辑表达式,得到领域无关的中间表达式;2)以问题X为输入、中间表达式A为输出,训练序列到序列的神经网络;3)以X和A为输入、逻辑表达式Y为输出,训练序列到序列的神经网络;4)在步骤2)训练后的神经网络中输入目标领域的问题x,得到中间表达式a;然后在步骤3)训练后的神经网络中输入目标领域的问题x及其对应的中间表达式a,得到目标领域问题x的逻辑表达式y。本发明利用源领域上大量标注好的数据,通过中间表达式分离领域无关与领域相关的部分,训练目标领域的模型,能够取得很好的效果。

    基于多通道卷积神经网络的教育类选择题解答方法和装置

    公开(公告)号:CN112434152B

    公开(公告)日:2022-10-14

    申请号:CN202011384874.3

    申请日:2020-12-01

    Applicant: 北京大学

    Abstract: 本发明公开一种基于多通道卷积神经网络的初等教育类选择题解答方法和装置。本方法为:1)给定一道以文本形式呈现的选择题,将每个选项补充成为断言,利用学科知识库对每条断言进行检索,通过桥接规则进行筛选,得到高置信度证据;2)使用多通道卷积神经网络处理问题信息与高置信度证据,得到选项间的置信度竞争结果;3)根据选项间的置信度竞争结果判断出最佳选项。本发明能够利用桥接注意力机制从学科知识库中检索出高置信证据,随后通过门控多通道卷积神经网络同时处理题目和证据,得到选项间的比较分数,进而基于所有选项对间比较的累积分数确定最佳选项,从而使机器可以解答初等教育阶段的特定学科选择题,并取得较好的表现。

    基于聊天记录形式外部知识的人岗推荐方法及装置

    公开(公告)号:CN113918813A

    公开(公告)日:2022-01-11

    申请号:CN202111181465.8

    申请日:2021-10-11

    Applicant: 北京大学

    Inventor: 赵东岩 贾爱霞

    Abstract: 本发明公开了一种基于聊天记录形式外部知识的人岗推荐方法及装置,其基于编码得到的简历文档表示、岗位描述文档表示及聊天记录表示,预测人岗相似度,从而获取人岗推荐结果。本发明通过将人岗相似度预测任务以及增益正则项的梯度信号反传给编码器与匹配网络,及将简历识别任务的损失函数的梯度反传给编码器中的聊天记录编码器,提高了人岗推荐的精确性。

Patent Agency Ranking