发明授权
- 专利标题: 文本内容质量评估方法及系统
-
申请号: CN202110422185.5申请日: 2021-04-20
-
公开(公告)号: CN112989816B公开(公告)日: 2021-10-01
- 发明人: 张力文
- 申请人: 中译语通科技股份有限公司
- 申请人地址: 北京市石景山区石景山路20号中铁建设大厦16层
- 专利权人: 中译语通科技股份有限公司
- 当前专利权人: 中译语通科技股份有限公司
- 当前专利权人地址: 北京市石景山区石景山路20号中铁建设大厦16层
- 代理机构: 北京兴智翔达知识产权代理有限公司
- 代理商 郭卫芹
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; G06F40/44 ; G06K9/62 ; G06Q10/06
摘要:
本发明公开了一种文本内容质量评估方法及系统,通过词性标签的N‑gram构建特征工程并建立分类模型的构思来有效识别文本中的无效信息,并为整体的文本内容打分,本发明可以应用于智能数据挖掘系统中,作为预处理的一部分,去除无价值信息,最大限度地保留文本正文中有价值的信息,得到有价值的文本并服务于下游任务,还可以有效节省系统存储资源,提升用户阅读质量。
公开/授权文献
- CN112989816A 文本内容质量评估方法及系统 公开/授权日:2021-06-18