-
公开(公告)号:CN114186164B
公开(公告)日:2023-06-09
申请号:CN202111548972.0
申请日:2021-12-17
Applicant: 北京大学
IPC: G06F16/958 , G06F40/143 , G06F40/258 , G06N20/00
Abstract: 本申请提供一种网页内容块的边界确定和分割的方法及系统,所述方法包括:获取待分割网页的DOM树;根据获取的所述DOM树,构建与所述DOM树对应的副本DOM树;将所述副本DOM树中的行内节点与相连的文字节点进行合并处理,以及对所述副本DOM树进行去除网页头和网页页脚的预处理,获得目标DOM树;通过预设哈希值算法,计算所述目标DOM树中的各个节点的结构哈希值;根据计算获得的所述各个节点的结构哈希值,对所述待分割网页进行分割,获得多个内容块。旨在能够高效、准确地将网页分割为内容块。
-
公开(公告)号:CN115203620B
公开(公告)日:2023-02-07
申请号:CN202211114773.3
申请日:2022-09-14
Applicant: 北京大学
IPC: G06F16/958 , G06F40/194 , G06F40/284 , G06F40/30
Abstract: 本发明提供了一种面向接口迁移的相似语义主题网页识别方法、装置和设备,所述方法包括:获取待识别的两个网页的页面信息;对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;利用多种算法对所述纯文本内容进行关键词提取;将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到两个网页的多个主题词,将两个网页各自的多个主题词进行融合集成,得到两个网页各自的主题特征;根据两个网页各自的语义主题特征,判断两个网页是否为相似网页。本发明通过预处理减弱内容理解的噪声,利用多种算法提取主题词与集成匹配语义主题提升内容理解的覆盖面,提高相似网页识别的准确性,进而支持网页接口迁移到相似网页。
-
公开(公告)号:CN115237817B
公开(公告)日:2022-12-16
申请号:CN202211156938.3
申请日:2022-09-22
Applicant: 北京大学
IPC: G06F11/36
Abstract: 本申请涉及数据交换领域,提供了一种数据交换共享低代码流程的动态模型检测方法和装置,包括:将原始流程根据预设标准化规则,进行标准化,得到标准流程;将通过静态检测的标准流程转换为动态模型;生成所述通过静态检测的标准流程的动态约束,并检测所述动态模型是否满足所述动态约束,输出动态模型检测结果。通过对标准化的原始流程进行静态检测和动态检测两个阶段的检测,对第一类型坏味道和第二类型坏味道进行识别,并输出最终检测结果,可以处理各种复杂场景下的数据交换共享低代码流程,同时提升了数据交换共享低代码流程中坏味道识别的效率和精确性。
-
公开(公告)号:CN112118107B
公开(公告)日:2021-08-27
申请号:CN202010808943.2
申请日:2020-08-12
Applicant: 北京大学
Abstract: 本发明提供了一种实现数据可信的自适应执行方法,涉及区块链技术领域,该方法包括智能合约的启动、智能合约的执行以及智能合约执行结果的校验过程,在上述过程中本发明实施例采用基于冗余计算的随机执行模式,通过在一个网络里随机选取多个节点共同执行数据分析逻辑,实现了相对不互信环境下的执行结果的可信计算,提升了智能合约的执行效率;同时通过在多节点同步调用的过程中对合约的执行进行记录,当需要同步时,就从最新状态的节点中获取所需的合约调用的执行记录并在本地进行回放,以此可在随机多节点状态不同步时将其快速恢复,实现数据的高可用,能满足低响应时间的数据分析场景。
-
公开(公告)号:CN111966940B
公开(公告)日:2021-06-18
申请号:CN202010754818.8
申请日:2020-07-30
Applicant: 北京大学
IPC: G06F16/958 , G06F9/54
Abstract: 本申请提供了一种基于用户请求序列的目标数据定位方法和装置。通过该方法,首先根据用户的需求,从目标Web页面中提取关键信息,然后对用户在到达目标Web页面的操作过程中产生的请求序列的返回结果建立索引,再利用关键信息作为关键字在索引中检索,根据检索结果评分的高低,确定目标请求,最后根据目标请求的返回结果格式,定位出目标数据在目标请求返回结果中的位置。通过该方法,可以解决在提取动态Web页面的数据时目标数据难以定位的问题,为动态Web页面的数据的提取开放提供了技术支持,提升了动态Web页面的数据的提取开放的效率。
-
公开(公告)号:CN109062784B
公开(公告)日:2021-04-27
申请号:CN201810737261.X
申请日:2018-07-06
Applicant: 北京大学
Abstract: 本发明公开了一种接口参数约束代码入口定位方法与系统,先收集预设的输入参数的场景下系统客户端中的代码覆盖数据,并据此对系统客户端进行选择性插桩以插入探针,然后运行插桩后的系统客户端并演示场景,以触发读取接口参数和执行探针,通过探针打印出当前的函数调用栈和输入控件元信息,并据此定位到接口参数约束代码的入口函数。本发明有效解决了现有技术在将信息系统中的数据和功能服务化的过程中,在对接口参数约束代码定位时难以定位代码入口的问题,从而帮助开发者快速定位到接口参数约束代码入口,从而帮助开发者更快筛选出真正跟参数约束密切相关的代码。
-
公开(公告)号:CN110362363B
公开(公告)日:2021-03-12
申请号:CN201910498732.0
申请日:2019-06-10
Applicant: 北京大学
Abstract: 本发明公开了一种基于运行时模型实现对终端应用控制的方法,通过定义运行时模型上的操作以及模型片段在堆、栈区域影响的等价性,实现了复杂的应用行为模型的分解,可操作的模型片段,并基于分解的模型片段,建立行为模型与应用状态和应用代码的因果关联,实现了在终端应用运行时对其应用行为的指令级别的控制。
-
公开(公告)号:CN112118107A
公开(公告)日:2020-12-22
申请号:CN202010808943.2
申请日:2020-08-12
Applicant: 北京大学
Abstract: 本发明提供了一种实现数据可信的自适应执行方法,涉及区块链技术领域,该方法包括智能合约的启动、智能合约的执行以及智能合约执行结果的校验过程,在上述过程中本发明实施例采用基于冗余计算的随机执行模式,通过在一个网络里随机选取多个节点共同执行数据分析逻辑,实现了相对不互信环境下的执行结果的可信计算,提升了智能合约的执行效率;同时通过在多节点同步调用的过程中对合约的执行进行记录,当需要同步时,就从最新状态的节点中获取所需的合约调用的执行记录并在本地进行回放,以此可在随机多节点状态不同步时将其快速恢复,实现数据的高可用,能满足低响应时间的数据分析场景。
-
公开(公告)号:CN111966940A
公开(公告)日:2020-11-20
申请号:CN202010754818.8
申请日:2020-07-30
Applicant: 北京大学
IPC: G06F16/958 , G06F9/54
Abstract: 本申请提供了一种基于用户请求序列的目标数据定位方法和装置。通过该方法,首先根据用户的需求,从目标Web页面中提取关键信息,然后对用户在到达目标Web页面的操作过程中产生的请求序列的返回结果建立索引,再利用关键信息作为关键字在索引中检索,根据检索结果评分的高低,确定目标请求,最后根据目标请求的返回结果格式,定位出目标数据在目标请求返回结果中的位置。通过该方法,可以解决在提取动态Web页面的数据时目标数据难以定位的问题,为动态Web页面的数据的提取开放提供了技术支持,提升了动态Web页面的数据的提取开放的效率。
-
公开(公告)号:CN109299004B
公开(公告)日:2020-08-25
申请号:CN201811014184.1
申请日:2018-08-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于关键元素差异性分析方法及系统,通过对微服务中字节码的分析筛选出需要分析的关键元素集合,并通过对各关键元素在新旧版本安卓应用之间相似度的分析判断安卓应用在版本变化过程中相对于微服务是否发生了破坏性变化,避免了在安卓应用版本发生非破坏性变化时对微服务进行无必要的修改,减少了资源浪费。同时,本发明在安卓应用发生破坏性变化时,通过分析各关键元素在新旧版本安卓应用之间的相似度,判断各关键元素是否发生了破坏性变化,以对微服务中需要修改的关键元素进行定位,避免了对微服务中没必要修改的关键元素进行修改,提高了微服务升级效率。
-
-
-
-
-
-
-
-
-