基于BERT问答模型从文本中抽取结构化数据的方法和装置
摘要:
本发明公开了一种基于BERT问答模型从文本中抽取结构化数据的方法和装置,该方法通过词袋模型对原始文本集进行基于结构的文本向量化,再对所有文本向量进行凝聚层次聚类,形成代表文本集;再利用代表文本集生成训练集,从而训练BERT问答模型;最后利用训练好的BERT问答模型抽取结构化数据。本发明从机器阅读理解的角度出发,通过训练BERT问答模型来让机器从文本中自动筛选出需要抽取的数据,整个过程无需进行实体识别、实体关系识别等,大大缩短了转化时间且可直接应用到不同的领域内文本中。
0/0