-
公开(公告)号:CN113360633B
公开(公告)日:2023-10-17
申请号:CN202110641886.8
申请日:2021-06-09
Applicant: 南京大学
IPC: G06F16/335 , G06F16/35 , G06F40/242 , G06F40/279 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。
-
公开(公告)号:CN113360633A
公开(公告)日:2021-09-07
申请号:CN202110641886.8
申请日:2021-06-09
Applicant: 南京大学
IPC: G06F16/335 , G06F16/35 , G06F40/242 , G06F40/279 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。
-