-
公开(公告)号:CN114968932A
公开(公告)日:2022-08-30
申请号:CN202210513704.3
申请日:2022-05-12
Applicant: 西南科技大学
IPC: G06F16/16 , G06F40/216 , G06F40/284
Abstract: 本发明公开了一种归类抽取试验数据的方法,该方法包括:提取待分类文件夹内文件的属性特征;对提取的文件属性特征进行标准化和归一化处理;将每次试验带有试验描述信息的文件文本进行预处理并统计文本词频;利用文件属性特征、文件扩展名词频特征和描述文本词频特征对试验文件采用k‑means++聚类方法进行聚类;对完成聚类的试验文件利用正则表达式去获取所需要的试验描述信息和试验数据。本发明采用无监督聚类的方法,不需要对试验数据进行标注训练,操作简便、省时,在试验数据中比较有实用性;采用文件结构属性特征强特征进行相似度判断,可以精确快速实现文件聚类;可有效提高抽取效率。