-
公开(公告)号:CN116467430A
公开(公告)日:2023-07-21
申请号:CN202310510440.0
申请日:2023-05-08
Applicant: 北京科技大学
IPC: G06F16/335 , G06F40/194 , G06F40/211 , G06F40/242 , G06N3/0895
Abstract: 本发明涉及一种材料制备加工工艺信息文本挖掘方法及系统,属于材料和计算机应用技术领域,能够实现工艺文本分类、工艺动作及参数实体识别、依存解析和数据依赖解析,形成包含材料名称、工艺动作和工艺参数的数据库;该方法包括:S1、选定单词级别和词块级别初始启动种子;S2、基于预定义词性规则在材料语料中匹配筛选获得单词级别和词块级别工艺动作实体集;S3、根据单词级别初始启动种子和工艺动作实体之间词向量相似度获得单词级别工艺动作词典;S4、利用词块级别初始启动种子和工艺动作实体集通过算法获得词块级别工艺动作词典;S5、对待处理新语料进行动作和参数的实体识别;S6、依存解析、依赖解析,并形成所需数据库。
-
公开(公告)号:CN118824432A
公开(公告)日:2024-10-22
申请号:CN202410894355.3
申请日:2024-07-04
Applicant: 北京科技大学
IPC: G16C60/00 , G16C20/70 , G16C20/90 , G06F40/30 , G06F40/284 , G06F40/242 , G06N3/0464 , G06N3/048 , G06N3/082 , G06N3/084
Abstract: 本发明涉及材料性能预测领域,提供了一种大语言模型辅助定量预测设计新材料的方法及系统,所述方法包括:S1收集文献,预处理得到预处理语料;S2训练分词器;S3训练大语言模型;S4获得工艺特征编码;S5获得成分特征编码;S6构建并训练神经网络预测模型;S7新材料性能预测。所述系统包括语料预处理模块、分词器训练模块、大语言模型训练模块、工艺特征编码模块、成分特征编码模块、神经网络预测模型训练模块及材料性能预测模块。本发明突破了传统机器学习方法在材料制备工艺路线表示上面临的结构化对齐和高维稀疏等难题,在兼顾工艺路线的灵活表示同时,确保材料性能的定量精准预测,为新材料设计和工艺优化提供了可靠的工具和途径。
-
公开(公告)号:CN116467430B
公开(公告)日:2023-09-19
申请号:CN202310510440.0
申请日:2023-05-08
Applicant: 北京科技大学
IPC: G06F16/335 , G06F40/194 , G06F40/211 , G06F40/242 , G06N3/0895
Abstract: 本发明涉及一种材料制备加工工艺信息文本挖掘方法及系统,属于材料和计算机应用技术领域,能够实现工艺文本分类、工艺动作及参数实体识别、依存解析和数据依赖解析,形成包含材料名称、工艺动作和工艺参数的数据库;该方法包括:S1、选定单词级别和词块级别初始启动种子;S2、基于预定义词性规则在材料语料中匹配筛选获得单词级别和词块级别工艺动作实体集;S3、根据单词级别初始启动种子和工艺动作实体之间词向量相似度获得单词级别工艺动作词典;S4、利用词块级别初始启动种子和工艺动作实体集通过算法获得词块级别工艺动作词典;S5、对待处理新语料进行动作和参数的实体识别;S6、依存解析、依赖解析,并形成所需数据库。
-
公开(公告)号:CN118504682A
公开(公告)日:2024-08-16
申请号:CN202410549292.8
申请日:2024-05-06
Applicant: 北京科技大学
IPC: G06N5/04 , G06F16/332 , G06F18/2411 , G06F40/186 , G06F18/22
Abstract: 本发明涉及一种增强大语言模型在材料领域推理能力的方法及系统,方法包括:材料领域用户与大型语言模型LLM进行交互,提出问题,形成提问文本;将提问文本转换为提示向量;对提示向量与大型语言模型LLM的向量数据库预先存储的专家提示向量进行比较和提示增强补全,得到问题提示;根据问题提示和模型描述进行任务分解和调度,生成任务规划;调用任务规划中的数据处理任务,将问题提示包含的文本数据转换为格式化数据;根据任务规划选择相应的模型并执行;大型语言模型LLM整合任务结果并生成最终响应。本发明将LLM的语言理解能力与科学领域的专业知识相结合,使得模型能够更好地理解和处理科学领域的任务,解决了科学领域任务中的复杂性和多样性。
-
公开(公告)号:CN113779995B
公开(公告)日:2023-07-18
申请号:CN202110990945.2
申请日:2021-08-26
Applicant: 北京科技大学
IPC: G06F40/295 , G06F40/247 , G06F40/242 , G06F40/151 , G06F40/205
Abstract: 本发明公开了一种基于文本挖掘的科技文献数据自动抽取方法及系统,该方法包括:获取待抽取数据的文件(XML、HTML或纯文本);提取出XML和HTML文件中的纯文本并过滤掉其中的出版信息和URL信息,形成文本语料;筛选出文本语料中包含预设信息的句子,作为目标句子;对XML和HTML文件进行表格识别与表格解析,并筛选出其中包含预设信息的表格,作为目标表格;对目标句子和目标表格分别进行命名实体识别,识别出其中包含的目标实体,并确定目标实体之间的关系;对同一文献中相互关联的目标实体进行拼接,形成完整的结构化数据集。本发明方案抽取精度高、全流程自动化且易于实现。
-
公开(公告)号:CN113779995A
公开(公告)日:2021-12-10
申请号:CN202110990945.2
申请日:2021-08-26
Applicant: 北京科技大学
IPC: G06F40/295 , G06F40/247 , G06F40/242 , G06F40/151 , G06K9/00
Abstract: 本发明公开了一种基于文本挖掘的科技文献数据自动抽取方法及系统,该方法包括:获取待抽取数据的文件(XML、HTML或纯文本);提取出XML和HTML文件中的纯文本并过滤掉其中的出版信息和URL信息,形成文本语料;筛选出文本语料中包含预设信息的句子,作为目标句子;对XML和HTML文件进行表格识别与表格解析,并筛选出其中包含预设信息的表格,作为目标表格;对目标句子和目标表格分别进行命名实体识别,识别出其中包含的目标实体,并确定目标实体之间的关系;对同一文献中相互关联的目标实体进行拼接,形成完整的结构化数据集。本发明方案抽取精度高、全流程自动化且易于实现。
-
-
-
-
-