基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

    公开(公告)号:CN113779992B

    公开(公告)日:2024-10-15

    申请号:CN202110813366.0

    申请日:2021-07-19

    摘要: 本发明公开了基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法。基于词汇增强的模型SW‑BiLSTM‑CRF,并以构建的语料库作为训练数据进行训练,得到的模型作为数据矫正的依据,迭代语料库。在此基础上,使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练,得到BcBERT(Building Code BERT),从而将通用领域和建筑领域其他规范文本的知识迁移至SW‑BiLSTM‑CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。

    基于安全访问控制知识图谱的授权鉴权引擎生成方法

    公开(公告)号:CN114444116B

    公开(公告)日:2024-08-30

    申请号:CN202111562301.X

    申请日:2021-12-20

    IPC分类号: G06F21/62 G06F16/36

    摘要: 本发明公开了一种基于安全访问控制知识图谱的授权鉴权引擎生成方法,具体按照以下实施:读取云平台中存在的系统日志和项目规范文本中的规范文档,对访问控制语句的语料信息进行预处理;对访问控制语句进行识别;对识别出的访问控制语句的语料信息依次进行领域二次预训练、任务二次预训练,进行属性信息联合抽取;表示访问控制语句和属性信息安全特征和安全标签;将实体数据和关系数据进行匹配,构成三元组形式;将三元组存储到图形数据库中,得到安全访问控制知识图谱;利用安全访问控制知识图谱建立授权鉴权引擎;对授权鉴权引擎进行存储优化和鉴权响应优化。解决了现有技术中存在的人工梳理数据访问控制工作难的问题。

    一种基于预训练模型的安全事件实体识别方法

    公开(公告)号:CN113312914B

    公开(公告)日:2024-06-14

    申请号:CN202110482621.8

    申请日:2021-04-30

    摘要: 本发明主要是对公共安全领域进行中文命名实体识别研究,提出了改进的命名实体识别模型PreTrain100K+RoBERTa+‑BiLSTM‑CRF。在对原始的RoBERTa模型进行任务二次预训练优化过程中,加入公共安全领域词典的全词Mask机制,使PreTrain100K+RoBERTa+模型具备更好的中文语言模型能力。然后将生成的预训练语言模型和扩充领域实体的词典输入到BiLSTM‑CRF模型中进行实体识别训练。采用本发明基于预训练模型的安全事件实体识别方法将提高公共安全事件实例信息化水平,能够更好的进行知识表示,存储文本语料中的语义信息,构建公共安全事件领域知识图谱。该图谱可以用于事故案例快速检索,事故关联路径分析及统计分析等,从而提高我国公共事件管理水平,加强公共安全应急管理体系建设。

    一种基于半监督学习和聚类的轨道交通实体识别方法

    公开(公告)号:CN113191148B

    公开(公告)日:2024-05-28

    申请号:CN202110482650.4

    申请日:2021-04-30

    摘要: 本发明是基于半监督学习和聚类的实体识别方法。通过本体库预定义实体类别对轨道交通规范非结构化数据进行标注;对标签数据使用word2vec进行向量化表示,然后对带标签的实体词向量进行层次聚类算法;接着将实体类别与聚类结果联合分析,校对实体类别定义,最终确定轨道交通领域本体库实体类型;最后重新整理数据集,生成的词向量输入到BiLSTM‑CRF深度学习模型中训练命名实体识别模型,使用Softmax函数对识别的实体特征进行标签分类,评估实体标签分类结果。本发明能提高轨道交通规范中实体抽取速度和准确率,从而缩短自动问答统和语义网标注对轨道交通规范的处理时间,提高建筑领域从业人员对轨道交通规范的查询速率,提高了用户体验度。

    基于目录主题分类的轨道交通规范实体识别方法

    公开(公告)号:CN113642330B

    公开(公告)日:2024-04-30

    申请号:CN202110814564.9

    申请日:2021-07-19

    摘要: 本发明主要是基于目录主题分类的轨道交通规范实体识别方法,采用RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制,通过采集较大规模的建筑规范文本实现领域自适应预训练,并加入主题分类信息,提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中,为构建领域知识图谱提供重要支持;会带来很多好处:使命名实体识别模型更好地对领域文本进行表示,提高对于建筑实体的识别性能。逐步增加文本语料库,对已经完成的预训练语言模型进行扩展,从而使预训练语言模型适应更多样多复杂的文本内容;一次训练、多次使用,经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中。

    一种基于标签属性图结构的IFC数据高效存储方法

    公开(公告)号:CN112328543B

    公开(公告)日:2024-01-26

    申请号:CN202010897122.0

    申请日:2020-08-31

    IPC分类号: G06F16/13 G06F16/901

    摘要: 本发明公开了一种基于标签属性图结构的IFC数据高效存储方法,包括ISG构建、IFC File分割匹配和IFG构建。本发明的技术特征还在于,解决了四个具有导出属性的特殊IFC实体模式转化。构建的IFC Schema Graph包含除了辅助IFC文件存储管理需求之外的IFC完整信息,可用于IFC完备性校核、IFC信息智能查询分析等应用。采用该方法对IFC模型文件进行存储管理,将基于IFC文件的BIM信息流转模式转变为基于IFC数据的信息交互模式,极大的促进了建筑工程的数字转型与智能升级。同时支持对IFC文件中多跳关系等复杂查询需求的高效检索,为基于IFC模型的信息计算与语义推理等智能应用提供坚实的数据基础和技术支撑。

    一种可信的跨链交易隐私保护方法

    公开(公告)号:CN117273728A

    公开(公告)日:2023-12-22

    申请号:CN202310769193.6

    申请日:2023-06-27

    摘要: 本发明公开了一种可信的跨链交易隐私保护方法,包括以下步骤:步骤1,用户在主链上创建一笔交易,将资产发送到侧链上的地址,交易输入被转换为一组公共参数和私密参数;步骤2,使用zk_SNARKs算法生成一个证明,证明交易的有效性,并保护交易的隐私。步骤3,将证明中的私密参数使用AES加密算法进行加密,并将密文存储在SGX中;步骤4,证明被发送到侧链上的验证节点,验证节点使用zk_SNARKs算法验证证明的有效性。步骤5,如果证明验证成功,侧链上的验证节点可以使用SGX内部的密钥将私密参数解密,从而进行交易。本发明将zk_SNARKs生成的证明和密钥保存到SGX中,使得跨链交易更具有隐私性和安全性。