-
公开(公告)号:CN113590557B
公开(公告)日:2024-07-26
申请号:CN202110874331.8
申请日:2021-07-30
Applicant: 北京明朝万达科技股份有限公司
IPC: G06F16/17
Abstract: 本发明公开了一种文件识别方法、装置、存储介质及处理器。其中,该方法包括:获取待识别压缩文件;识别待识别压缩文件的文件类型,其中,文件类型包括:分卷压缩文件和完整压缩文件;基于待识别压缩文件的文件类型对待识别压缩文件进行解压,得到待识别非压缩文件;识别所述待识别非压缩文件的内容。本发明解决了无法对分卷压缩文件进行识别的技术问题。
-
公开(公告)号:CN116127067B
公开(公告)日:2023-10-20
申请号:CN202211697914.9
申请日:2022-12-28
Applicant: 北京明朝万达科技股份有限公司
Abstract: 本发明实施例提供文本分类方法、装置、电子设备和存储介质,该方法包括:接收用户的预测请求;预测请求包括待预测文本和模型标识;从多个预测模型中确定与模型标识匹配的目标预测模型;从待预测文本中截取多个文字,并分别对多个文字进行转换,得到多个字典参数;将多个字典参数输入至目标预测模型中,通过目标预测模型根据多个字典参数预测待预测文本所属的目标类别信息;向用户返回针对预测请求的目标类别信息。本发明实施例通过预测模型实现文本类别的预测,可替代人工分类,从而大大提升分类效率,且预测模型是BERT模型,BERT模型所需的训练样本量可大大减小,训练出模型的准确性也有一定的提升。
-
公开(公告)号:CN112612619B
公开(公告)日:2023-10-20
申请号:CN202011299553.3
申请日:2020-11-19
Applicant: 北京明朝万达科技股份有限公司
Abstract: 本发明提供一种大附件邮件的多线程并发处理方法及装置,所述方法包括:将邮件信息传递到stmp‑filter进程;将邮件信息的头信息传输给Linux的消息队列;将邮件信息的头信息存储到Redis和第一阻塞队列中;File‑Process设置临界值,监控分配的内存资源的占用情况;将处理后的邮件信息的头信息及临时文件信息存储到第二阻塞队列中;从所述第二阻塞队列中获取邮件信息,TikaParser线程从第一阻塞队列中获取邮件的附件文件,由ParserEml线程和TikaParser线程分别进行解析,解析完成后,将解析得到的信息发送给策略匹配进程,并按预设策略处理解析过程中产生的临时文件。
-
公开(公告)号:CN115374075B
公开(公告)日:2023-09-01
申请号:CN202210917644.1
申请日:2022-08-01
Applicant: 北京明朝万达科技股份有限公司
Abstract: 本发明提供了一种文件类型识别方法、装置、电子设备及可读存储介质,通过获取待识别文件的头部字段与文件扩展名,与第一对应关系比较,确定待识别文件的文件类型,在第一对应关系无法确定文件类型时,将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配,在匹配时,通过待识别字段的头部数据与第二对应关系中的头部数据,确定待识别文件的魔鬼数字字段,将对应关系更新至第一对应关系中后,在下一次遇到与待识别文件的文件类型相同的文件时,即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型,通过不断智能学习未知文件类型并更新第一对应关系,使对于自定义文件或未知文件均可以被识别。
-
公开(公告)号:CN116127067A
公开(公告)日:2023-05-16
申请号:CN202211697914.9
申请日:2022-12-28
Applicant: 北京明朝万达科技股份有限公司
Abstract: 本发明实施例提供文本分类方法、装置、电子设备和存储介质,该方法包括:接收用户的预测请求;预测请求包括待预测文本和模型标识;从多个预测模型中确定与模型标识匹配的目标预测模型;从待预测文本中截取多个文字,并分别对多个文字进行转换,得到多个字典参数;将多个字典参数输入至目标预测模型中,通过目标预测模型根据多个字典参数预测待预测文本所属的目标类别信息;向用户返回针对预测请求的目标类别信息。本发明实施例通过预测模型实现文本类别的预测,可替代人工分类,从而大大提升分类效率,且预测模型是BERT模型,BERT模型所需的训练样本量可大大减小,训练出模型的准确性也有一定的提升。
-
公开(公告)号:CN116028444A
公开(公告)日:2023-04-28
申请号:CN202211741295.9
申请日:2022-12-30
Applicant: 北京明朝万达科技股份有限公司
IPC: G06F16/16 , G06F16/172 , G06F16/182
Abstract: 本申请公开了一种文件指纹生成方法、装置、系统、电子设备及存储介质,文件指纹生成方法包括:在接收到文件指纹生成请求的情况下,采集文件指纹生成请求携带的目标路径下的第一文件集合;对第一文件集合进行解析,生成第二文件集合并进行存储;根据文件指纹生成请求生成指纹库标识;将第二文件集合的存储路径信息、指纹库标识和第一标识发送至多个指纹服务器中的任一个指纹服务器,以使指纹服务器生成第二文件集合对应的目标指纹库,并将目标指纹库存储至存储器。本申请实施例中,即使在其中一个指纹服务器出现故障的情况下,也不会影响目标指纹库的生成。
-
公开(公告)号:CN115529286A
公开(公告)日:2022-12-27
申请号:CN202211043659.6
申请日:2022-08-29
Applicant: 北京明朝万达科技股份有限公司
IPC: H04L49/9057 , H04L69/22
Abstract: 本申请公开了一种报文重组方法、装置、电子设备及存储介质,属于通信技术领域。其中,所述方法包括:获取会话中传输的当前数据包,数据包包括:报文头和报文数据,报文头携带有数据包的序列号和数据长度,序列号反映了数据包在报文中的数据位置;会话记录有起始序列号,起始序列号用于反映会话传输的起始数据包的序列号;根据当前数据包的序列号和起始序列号,计算当前数据包在内存片区中的起始存储位置;按照当前数据包的数据长度和起始存储位置,将当前数据包的报文内容存储至内存片区中,直至会话传输的所有数据包的报文内容存储在内存片区中,从而获得完整的报文数据。
-
公开(公告)号:CN114330584A
公开(公告)日:2022-04-12
申请号:CN202111677732.0
申请日:2021-12-31
Applicant: 北京明朝万达科技股份有限公司
IPC: G06K9/62
Abstract: 本发明公开了一种数据聚类方法、装置、存储介质以及电子设备。其中,该方法包括:获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到待聚类数据的增量数据之后,对待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个第二聚类指标值中选取第二目标聚类指标值;获取第二目标聚类指标值对应的第二最佳聚类簇数值;根据第一最佳聚类簇数值和第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对待聚类数据进行K‑means聚类处理,得到目标聚类处理结果。本发明解决了由于现有技术中数据聚类方法无法自动满足新增数据聚类需求,造成的聚类效率低且聚类结果差的技术问题。
-
公开(公告)号:CN113836088A
公开(公告)日:2021-12-24
申请号:CN202111015785.6
申请日:2021-08-31
Applicant: 北京明朝万达科技股份有限公司
IPC: G06F16/14 , G06F16/17 , G06F16/172
Abstract: 本发明公开了一种基于深度扫描的文件处理方法、系统、装置及存储介质。其中,该系统包括:控制台,用于生成敏感策略信息和扫描任务;文件扫描系统,与控制台连接,用于根据控制台下发扫描任务对目标文件目录执行深度扫描处理,得到待解析文件队列;文件解析系统,与文件扫描系统和控制台连接,用于对文件扫描系统发送的待解析文件队列执行文件解析,得到文件解析信息,并检测文件解析信息是否命中控制台下发的敏感策略信息,将命中结果上报至控制台。本发明解决了现有技术中由于文件扫描系统重复扫描,导致浪费扫描时间、消耗计算机资源的技术问题。
-
公开(公告)号:CN113468119A
公开(公告)日:2021-10-01
申请号:CN202110605340.7
申请日:2021-05-31
Applicant: 北京明朝万达科技股份有限公司
IPC: G06F16/16 , G06F16/172 , G06F16/13 , G06F9/54
Abstract: 在本发明实施例公开了一种文件扫描方法和装置,应用于文件存储系统,该文件存储系统包括断点缓存消息队列,该方法包括:接收文件扫描请求;获取文件扫描请求中待扫描文件的唯一标识号和待扫描文件绝对路径信息;若在断点缓存消息队列中获取断点扫描信息成功,则获取断点扫描信息中的断点文件绝对路径信息;将断点文件绝对路径信息与待扫描文件的绝对路径信息进行递归匹配;若匹配成功,则将匹配成功的所述断点文件绝对路径信息作为扫描起点继续扫描;若待扫描文件扫描成功,则根据唯一标识号将待扫描文件的绝对路径信息存储至断点缓存消息队列中,作为更新的断点文件绝对路径信息。实现了快速定位文件上次扫描断点,提高文件扫描效率目的。
-
-
-
-
-
-
-
-
-