-
公开(公告)号:CN111211993B
公开(公告)日:2023-08-11
申请号:CN201811388343.4
申请日:2018-11-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种流式计算的增量持久化方法及其装置、计算机程序产品、存储介质。其中,流式计算由多个节点进行,方法包括:获取当前节点的新增数据,并将新增数据根据操作类型分为多个数据单元,将多个数据单元存入存储系统。根据操作类型对存入存储系统的多个数据单元进行合并,以获得当前节点的持久化数据。由此,本发明实施例实现了在将数据存入存储系统后,将合并后的存储数据作为持久化数据,从而减少了存储系统中持久化数据的数据总量,降低了对系统存储资源的消耗,解决了现有技术中持久化数据总量过大的技术问题。
-
公开(公告)号:CN111083067B
公开(公告)日:2023-04-25
申请号:CN201811222706.7
申请日:2018-10-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04L47/41 , H04L47/27 , H04L47/10 , H04L47/31 , H04L61/4511
Abstract: 本发明提出一种数据流拼接的方法、装置、存储介质和终端设备,其中,所述方法包括:获取所述订阅后端已接收的来自传输服务器的数据流中的各订阅数据的第一数据产生时间;获取所述数据流中的、所述传输服务器已接收但所述订阅后端尚未接收到的各订阅数据的第二数据产生时间;根据获取到的第一数据产生时间和第二数据产生时间,确定所述数据流的时间戳;以及根据所述数据流的时间戳,决定是否触发所述数据流的数据拼接。采用本发明,可以准确地判断数据延迟,提高数据流拼接的准确度。
-
公开(公告)号:CN111083067A
公开(公告)日:2020-04-28
申请号:CN201811222706.7
申请日:2018-10-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04L12/891 , H04L12/801 , H04L12/807 , H04L12/833 , H04L29/12
Abstract: 本发明提出一种数据流拼接的方法、装置、存储介质和终端设备,其中,所述方法包括:获取所述订阅后端已接收的来自传输服务器的数据流中的各订阅数据的第一数据产生时间;获取所述数据流中的、所述传输服务器已接收但所述订阅后端尚未接收到的各订阅数据的第二数据产生时间;根据获取到的第一数据产生时间和第二数据产生时间,确定所述数据流的时间戳;以及根据所述数据流的时间戳,决定是否触发所述数据流的数据拼接。采用本发明,可以准确地判断数据延迟,提高数据流拼接的准确度。
-
公开(公告)号:CN113127512A
公开(公告)日:2021-07-16
申请号:CN202010043192.X
申请日:2020-01-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455
Abstract: 本申请公开了一种多数据流的数据拼接触发方法、装置、电子设备和介质,涉及大数据处理技术领域。具体实现方案为:接收多个数据流的数据,其中多个数据流包括一个主数据流和至少一个从数据流;对于主数据流,基于主数据流的主数据中携带的主事件时间,确定主数据流对应的主低水位值;对于各从数据流,基于从数据流的从数据中携带的从事件时间,确定从数据流对应的从低水位值;根据主低水位值和从低水位值,触发执行对当前时间窗口内的主数据和从数据进行拼接的操作。由于低水位值反映数据流的数据到达进度,因此基于各数据流分别对应的低水位值,触发执行数据拼接操作,无需设置一个较大时间窗口,可有效减少资源开销,提升数据拼接的时效性。
-
公开(公告)号:CN111211993A
公开(公告)日:2020-05-29
申请号:CN201811388343.4
申请日:2018-11-21
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04L12/811 , H04L12/801 , H04L12/863 , H04L12/891 , G06F11/14
Abstract: 本发明提出一种流式计算的增量持久化方法及其装置、计算机程序产品、存储介质。其中,流式计算由多个节点进行,方法包括:获取当前节点的新增数据,并将新增数据根据操作类型分为多个数据单元,将多个数据单元存入存储系统。根据操作类型对存入存储系统的多个数据单元进行合并,以获得当前节点的持久化数据。由此,本发明实施例实现了在将数据存入存储系统后,将合并后的存储数据作为持久化数据,从而减少了存储系统中持久化数据的数据总量,降低了对系统存储资源的消耗,解决了现有技术中持久化数据总量过大的技术问题。
-
公开(公告)号:CN113127511A
公开(公告)日:2021-07-16
申请号:CN202010043160.X
申请日:2020-01-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455
Abstract: 本申请公开了一种多数据流的数据拼接方法、装置、电子设备和存储介质,涉及大数据处理技术领域。具体实现方案为:当多数据流中第一数据流的第一数据到达时,确定第一数据流是否是指定的拼接触发数据流;其中,多数据流中的部分数据流被预先指定为拼接触发数据流;在确定第一数据流是指定的拼接触发数据流时,从缓存的第二数据流的数据中查找与第一数据匹配的第二数据,以将第一数据与第二数据进行拼接。由此通过预先指定部分数据流为拼接触发数据流,只有拼接触发数据流的某一数据到来时,才会从第二数据流中查询与之匹配的数据,以完成数据拼接,由此能够有效减少数据查询次数,进而降低资源开销,同时也降低了实现数据拼接的复杂度。
-
公开(公告)号:CN113127512B
公开(公告)日:2023-09-29
申请号:CN202010043192.X
申请日:2020-01-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455
Abstract: 本申请公开了一种多数据流的数据拼接触发方法、装置、电子设备和介质,涉及大数据处理技术领域。具体实现方案为:接收多个数据流的数据,其中多个数据流包括一个主数据流和至少一个从数据流;对于主数据流,基于主数据流的主数据中携带的主事件时间,确定主数据流对应的主低水位值;对于各从数据流,基于从数据流的从数据中携带的从事件时间,确定从数据流对应的从低水位值;根据主低水位值和从低水位值,触发执行对当前时间窗口内的主数据和从数据进行拼接的操作。由于低水位值反映数据流的数据到达进度,因此基于各数据流分别对应的低水位值,触发执行数据拼接操作,无需设置一个较大时间窗口,可有效减少资源开销,提升数据拼接的时效性。
-
公开(公告)号:CN113127511B
公开(公告)日:2023-09-15
申请号:CN202010043160.X
申请日:2020-01-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455
Abstract: 本申请公开了一种多数据流的数据拼接方法、装置、电子设备和存储介质,涉及大数据处理技术领域。具体实现方案为:当多数据流中第一数据流的第一数据到达时,确定第一数据流是否是指定的拼接触发数据流;其中,多数据流中的部分数据流被预先指定为拼接触发数据流;在确定第一数据流是指定的拼接触发数据流时,从缓存的第二数据流的数据中查找与第一数据匹配的第二数据,以将第一数据与第二数据进行拼接。由此通过预先指定部分数据流为拼接触发数据流,只有拼接触发数据流的某一数据到来时,才会从第二数据流中查询与之匹配的数据,以完成数据拼接,由此能够有效减少数据查询次数,进而降低资源开销,同时也降低了实现数据拼接的复杂度。
-
公开(公告)号:CN111125163B
公开(公告)日:2023-06-06
申请号:CN201811275535.4
申请日:2018-10-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455
Abstract: 本申请实施例公开了用于处理数据的方法和装置。该方法的一具体实施方式包括:从流式计算系统中数据流流至的目标数据处理节点的上游数据处理节点获取待处理数据和与待处理数据对应的数据处理日志;查询与上游节点算子标识和上游节点标识二者对应的已处理数据最大序号;响应于确定上游节点当前数据序号大于所确定的已处理数据最大序号,对待处理数据进行处理,得到结果数据,将目标数据处理节点的当前数据序号递增预设增量数目;最后,将结果数据、数据处理日志和目标数据处理节点的当前数据序号对应持久化存储。该实施方式降低了数据处理节点的数据去重操作所需的存储空间。
-
公开(公告)号:CN111125163A
公开(公告)日:2020-05-08
申请号:CN201811275535.4
申请日:2018-10-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455
Abstract: 本申请实施例公开了用于处理数据的方法和装置。该方法的一具体实施方式包括:从流式计算系统中数据流流至的目标数据处理节点的上游数据处理节点获取待处理数据和与待处理数据对应的数据处理日志;查询与上游节点算子标识和上游节点标识二者对应的已处理数据最大序号;响应于确定上游节点当前数据序号大于所确定的已处理数据最大序号,对待处理数据进行处理,得到结果数据,将目标数据处理节点的当前数据序号递增预设增量数目;最后,将结果数据、数据处理日志和目标数据处理节点的当前数据序号对应持久化存储。该实施方式降低了数据处理节点的数据去重操作所需的存储空间。
-
-
-
-
-
-
-
-
-