-
公开(公告)号:CN115964486A
公开(公告)日:2023-04-14
申请号:CN202211512635.0
申请日:2022-11-28
Applicant: 北京大学(青岛)计算社会科学研究院 , 海尔优家智能科技(北京)有限公司 , 青岛海尔科技有限公司
Abstract: 本发明公开了一种基于数据增强的小样本意图识别方法,其步骤包括:1)获取用户意图识别数据集,并对其中每一条用户查询语句标注其意图,作为一样本,得到小样本意图识别数据集;构建小样本意图识别数据集的元任务;2)将小样本意图识别数据集输入自然语言推断生成模型,生成样本的扩展样本并构建扩展元任务;3)根据每一样本所属元任务的样本集,将每一样本映射到特征空间中,得到样本在对应元任务中的特征向量;4)将每一样本在各元任务中的特征向量融合作为该样本的最终向量;5)利用各样本的最终向量训练原型网络,将训练后的原型网络作为样本意图识别模型;6)使用小样本意图识别模型对输入的查询语句进行预测,得到该查询语句的意图。
-
公开(公告)号:CN115840824A
公开(公告)日:2023-03-24
申请号:CN202211514641.X
申请日:2022-11-29
Applicant: 海尔优家智能科技(北京)有限公司 , 北京大学(青岛)计算社会科学研究院 , 青岛海尔科技有限公司
IPC: G06F16/36 , G06F16/35 , G06F40/211 , G06F40/30 , G06F16/33 , G06N3/08 , G06N3/0464
Abstract: 本发明提供一种面向环境信息扩增的智能家居用户口语理解系统,本系统将数据集按照意图域划分并存储源域、目标域数据文件;在源域、目标域上通过采样进行训练、测试任务构建;提取文本、环境信息并规范化组织、填充、拼接;提取意图、槽位信息并构建意图、槽位词典表;使用预训练语言模型、图卷积网络、标签注意力层与互注意力层实现文本、环境信息编码;使用注意力机制及环境信息与意图、槽位标签的文本语义信息相似性矩阵实现用户话语文本信息与域间通用、域间扩增的环境信息的融合;在源域、目标域上使用支持集、查询集进行少样本训练与测试;将向量编码的意图、槽位类别转化为可视化文本输出。本发明提供融合环境信息的用户口语理解解决方案。
-
公开(公告)号:CN110471942B
公开(公告)日:2022-04-15
申请号:CN201810431282.9
申请日:2018-05-08
Applicant: 北京大学
IPC: G06F16/2457
Abstract: 本发明公开一种基于均衡哈希编码的飞行器查询方法及系统。本方法为:利用数据集中每一飞行器的飞行参数数据和飞行条件数据建模表示对应的飞行器;为每一个编码后的飞行器生成对应的向量空间用于限制生成哈希编码的均衡性以及可辨别性,确定出飞行器的哈希编码方式;利用上述确定的哈希编码方式对目标飞行器进行哈希编码;然后利用飞行器的哈希编码信息进行匹配查询,最终得到数据集中与目标飞行器匹配的飞行器。本发明采用无需人工介入的无监督学习方式,对飞行器进行均衡哈希编码,有效降低飞行器存储代价,并基于编码后的飞行器进行检索操作。
-
公开(公告)号:CN109948018B
公开(公告)日:2021-05-25
申请号:CN201910021939.9
申请日:2019-01-10
Applicant: 北京大学 , 国网信息通信产业集团有限公司 , 国家电网有限公司 , 国网浙江省电力有限公司
IPC: G06F16/951
Abstract: 本发明是一种Web结构化数据快速提取方法,步骤包括:层次遍历目标网站页面当中的网址链接,并以列表形式记录所有网站的网址和对应的网址跳转顺序;从上述列表中识别目标网页的网址,并记录对应的网址跳转顺序,按目标网站到目标网页访问的先后顺序进行网址拼接,生成访问目标网页的网址跳转顺序;根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序;根据上述最优网址跳转顺序访问目标网页,层次遍历目标页面的所有数据项标签,找到所有目标数据项标签;从上述所有目标数据项标签中找出最短标签路径;根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。本发明还提供一种Web结构化数据快速提取系统。
-
公开(公告)号:CN111737951A
公开(公告)日:2020-10-02
申请号:CN201910212664.7
申请日:2019-03-20
Applicant: 北京大学 , 国网信息通信产业集团有限公司 , 国家电网有限公司 , 国网浙江省电力有限公司
IPC: G06F40/117 , G06F40/295
Abstract: 本发明公开一种文本语言关联关系标注方法和装置。利用文本语言各信息抽取子任务的紧密关联性,设计一种不依赖具体模型的复合标注方法,能够自然地融合多种文本语言信息抽取任务,实现多种文本语言关联任务的联合学习与一体化的训练,如支持命名实体识别与命名实体标准化的联合学习、支持命名实体识别与实体关系抽取的联合学习、支持命名实体识别与实体消歧的联合学习等。本发明提出的文本语言关联关系复合标注方法,充分地利用了文本语言信息抽取的各子任务之间的紧密关联性,实现完全的联合学习,使得各关联任务之间可以信息共享相互促进,总体提升文本语言信息抽取的准确率与召回率。
-
公开(公告)号:CN102799624B
公开(公告)日:2015-03-04
申请号:CN201210210245.8
申请日:2012-06-19
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于Datalog的分布式环境下大图数据查询方法,其步骤包括:1)对用户输入的基于Datalog规则集合的大图查询指令进行语法分析,产生对应的语法树;2)根据语法树,构建以Datalog规则为单位的执行计划。针对每个Datalog规则,构造对应的Map和Reduce执行函数。3)利用等价规则和统计数据,实现规则间优化、规则内优化、操作函数的优化,提高大图查询执行计划的效率。本发明为了简化最终用户编写图查询脚本的代价,提出了扩展的递归DataLog查询,支持用户使用简单的描述性语言来表达对应大图查询。本发明还提出了递归Datalog查询的MapReduce环境执行计划的构建方法,使得Datalog图查询能够在MapReduce框架下执行。
-
公开(公告)号:CN102737114B
公开(公告)日:2014-08-06
申请号:CN201210157463.X
申请日:2012-05-18
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于MapReduce的大图上距离连接查询方法,其步骤包括:1)提取初始化的查询参数:原图、已访问结点、拓展范围和查询结果;2)在hadoop上对原图进行双向拓展,拓展从源结点集合和目标结点集合开始,每次拓展基于代价模型,采用动态阈值剪枝操作,将新拓展的结点加入已访问结点集合;3)继续遍历未完成拓展的剩余结点,直到所有满足拓展范围的结点都完成拓展;4)完成迭代后,记录所述已访问节点集合中目标结点和源结点间路径查询结果,返回查询结果。本发明在MapReduce环境下提出了一种基于代价模型的自适应方法,基于动态阈值进行剪枝的双向搜索算法和Segment索引减少拓展空间和迭代次数,提高任务的执行效率。
-
公开(公告)号:CN103488637A
公开(公告)日:2014-01-01
申请号:CN201210191968.8
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种基于动态社区挖掘进行专家检索的方法,针对动态网络环境,同时利用链接结构和内容信息挖掘社区,将链接结构和内容表达为矩阵形式,综合历史社区划分结果,使用非负矩阵分解方法进行社区划分,并对社区划分代价进行迭代处理,使其结果局部最优化,以使社区结果在反映网络的链接特征的同时,还反映话题、兴趣等语义层面的特征,通过利用社区划分结果和社区话题,进行专家搜索,从而实现不同时刻的专家检索。本发明的方法不仅能反映社区成员、规模的变化,还能反映社区的话题分布及其随时间的变化,从而可以将社区挖掘结果直接专家搜索。
-
公开(公告)号:CN102096706A
公开(公告)日:2011-06-15
申请号:CN201110001240.X
申请日:2011-01-05
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种变步长XML编码方法,属于数据库存储领域。本方法为:1)设定XML文档编码的步长值为PACE;2)对于新插入的XML节点r:如果r作为某非叶节点j的第一个子节点插入时,则将j中原第一个子节点编码最后一位减去PACE作为r的编码;如果r作为j的最后一子节点插入时,则将j中原最后一子节点编码最后一位加上PACE作为r的编码;r在两兄弟节点之间插入时,如果两兄弟节点编码第一位相等且最后一位PACE内的整数没有用完,则r编码最后一位为PACE内一整数,否则采用DDE方法对r进行编码;如果r作为某叶节点k的子节点插入,则将k编码后面增加一成分1作为r的编码。本方法大大提高了编码效率。
-
公开(公告)号:CN1296855C
公开(公告)日:2007-01-24
申请号:CN200410004379.X
申请日:2004-02-17
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供了一种基于关系数据库模式图Schema Diagram生成可扩展标记语言大纲XML Schema的层次描述和键约束的方法,包括:利用关系数据库的键和外键构造数据库的模式图;在扫描模式图过程中建立关系表名、候选码与XML Schema中键约束的选择器XPath(Selector XPath)、域XPath(Field XPath)之间的对应关系,生成关系数据库键约束的XML选择器索引;利用该索引自动生成XML Schema上的键约束,从而完成基于XML数据发布过程中键约束的自动获得。本发明广泛应用于当前网络环境下各应用系统的基于XML的数据发布过程,满足了目前Internet上大量应用系统之间XML数据发布与转换的需求,具有广阔的应用前景。
-
-
-
-
-
-
-
-
-