- 专利标题: 基于BERT问答模型从文本中抽取结构化数据的方法和装置
-
申请号: CN202310362137.0申请日: 2023-04-07
-
公开(公告)号: CN116089594B公开(公告)日: 2023-07-25
- 发明人: 王永恒 , 金宁嘉 , 金雄男 , 邵研
- 申请人: 之江实验室
- 申请人地址: 浙江省杭州市余杭区中泰街道之江实验室南湖总部
- 专利权人: 之江实验室
- 当前专利权人: 之江实验室
- 当前专利权人地址: 浙江省杭州市余杭区中泰街道之江实验室南湖总部
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 邱启旺
- 主分类号: G06F16/332
- IPC分类号: G06F16/332 ; G06F16/35 ; G06F40/194 ; G06F40/295 ; G06F18/214
摘要:
本发明公开了一种基于BERT问答模型从文本中抽取结构化数据的方法和装置,该方法通过词袋模型对原始文本集进行基于结构的文本向量化,再对所有文本向量进行凝聚层次聚类,形成代表文本集;再利用代表文本集生成训练集,从而训练BERT问答模型;最后利用训练好的BERT问答模型抽取结构化数据。本发明从机器阅读理解的角度出发,通过训练BERT问答模型来让机器从文本中自动筛选出需要抽取的数据,整个过程无需进行实体识别、实体关系识别等,大大缩短了转化时间且可直接应用到不同的领域内文本中。
公开/授权文献
- CN116089594A 基于BERT问答模型从文本中抽取结构化数据的方法和装置 公开/授权日:2023-05-09