-
公开(公告)号:CN114091442A
公开(公告)日:2022-02-25
申请号:CN202111213156.4
申请日:2021-10-19
Applicant: 北京信息科技大学
IPC: G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种文本关键词提取方法。本申请实施例提供的文本关键词提取方法,基于多特征融合进行关键词提取,利用BERT向量和五笔向量捕捉输入序列的语义特征和字形特征,并将字频特征作为权重值进一步获取输入序列的上下文特征,从而使编码层BiLSTM捕捉到长序列更多的语义信息,并利用CRF添加约束信息促使输出标签序列结果更合理有效。本申请实施例提出的文本关键词提取方法,基于多特征融合进行关键词提取,可以有效地提升关键词提取的效果,取得了较高的准确率、召回率和F1值,完全能够满足实际应用的需要。
-
公开(公告)号:CN112561313A
公开(公告)日:2021-03-26
申请号:CN202011470328.1
申请日:2020-12-15
Applicant: 北京信息科技大学
Abstract: 本申请公开了一种专利质量等级的确定方法,包括:利用将指标量化模型与多任务学习序列模型相结合得到的模型,对专利的质量等级进行确定。所述指标量化模型包括依次连接的第一全连接层、第二全连接层、Softmax层和输出层。所述将指标量化模型与多任务学习序列模型相结合得到的模型包括依次连接的嵌入层、BiLSTM层、CRF层、注意力分配、全连接层、Softmax层和输出层。所述所述将指标量化模型与多任务学习序列模型相结合得到的模型包括嵌入层、BiLSTM、BiLSTM+Attention、BiGRU+Attention与多任务学习方法。本申请的方法将指标量化模型与多任务学习序列模型相结合,对专利的等级进行确定,确定结果准确,准确度高。
-
公开(公告)号:CN112418182A
公开(公告)日:2021-02-26
申请号:CN202011470737.1
申请日:2020-12-15
Applicant: 北京信息科技大学
Abstract: 本申请公开了一种红外影厅图像人数统计方法,包括:对红外影厅图像进行预处理;针对预处理后的图像,提取前景图像;根据随机采样的数据进行拟合,根据拟合结果进行校正,计算前景面积;建立所述前景面积与人数的线性回归关系,计算人数。本申请的方法,将多个影厅的原图与其前景图像进行端到端训练,实现不同影厅图像的前景提取,再结合改进透视效应校正方法,提取前景面积并建立其与人数的回归关系,得到最终人数统计结果,本申请实施例提供的方法提取效果好,分类准确率、召回率及前景准确率较高,假正率和假负率较低,无论是在人群稀疏还是密集场景,均能够得到较好的前景提取效果,增强了算法对不同场景、不同光线的鲁棒性。
-
公开(公告)号:CN112101970A
公开(公告)日:2020-12-18
申请号:CN202011213761.7
申请日:2020-11-04
Applicant: 北京信息科技大学 , 阳光易购(湖南)科技有限公司
Abstract: 本发明公开了一种基于区块链食品溯源系统的后台数据管理方法及系统,所述方法包括获取通过所述客户端上报的疫情信息,其中,所述疫情信息包括门店名和疫情食材名;筛选出与所述门店名一致的所述餐饮主体名,并标记为疫情餐饮主体名;获取包括了所述疫情餐饮主体名的所述餐饮商信息,并标记为源头疫情单位信息;获取所述源头疫情单位信息对应的所有的所述台账信息;本发明提出的一种基于区块链食品溯源系统的后台数据管理方法将防疫功能和食品溯源技术进行了有效的结合,大大提升了食品溯源技术的应用范围,不仅能够对食品安全市场进行监督,还增加了卫生健康监督的能力。
-
公开(公告)号:CN110134787A
公开(公告)日:2019-08-16
申请号:CN201910400320.9
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35
Abstract: 本发明涉及一种新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。本发明提供的新闻话题检测方法,提出了改进的相似度计算方法,采用抽取出的关键词集,通过聚类的方法,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。
-
公开(公告)号:CN110059192A
公开(公告)日:2019-07-26
申请号:CN201910404059.X
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35
Abstract: 本发明涉及一种基于五笔码的字符级文本分类方法,采用五笔字型码对中文进行转换的字符级表示模型,采用五笔码将中文字符转化成唯一的英文字符串,再将英文字符串输入字符级模型中进行分类。本发明提供的基于五笔码的字符级文本分类方法,采用字符级表示模型,无需分词且能进行很好的字符转化,在中文文本分类中有着特殊的优势,分类效果明显优于传统模型和其他深度学习模型,可以有效地应用于中文文本分类,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109614490A
公开(公告)日:2019-04-12
申请号:CN201811566674.2
申请日:2018-12-21
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种基于LSTM的金融新闻倾向性分析方法,包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。本发明在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果。
-
公开(公告)号:CN116595169A
公开(公告)日:2023-08-15
申请号:CN202310415758.0
申请日:2023-04-18
Applicant: 北京信息科技大学 , 华能煤炭技术研究有限公司
IPC: G06F16/35 , G06F16/332 , G06F40/186 , G06N3/08 , G06N3/047
Abstract: 本专利摘要涉及一种基于提示学习的煤矿生产领域问答意图分类方法。问答系统是智能化信息处理的重要领域,也是煤矿智能化建设不可或缺的一部分。在实际应用中,意图分类是智能问答的重要子任务,它可以帮助问答系统更好地理解用户查询意图并提供准确答案。本方法通过引入不同的提示模板对BERT预训练模型进行微调,从而提高问答意图分类的准确性。实验结果表明,引入提示模板后,模型的准确率、召回率和F1值均有所提高。此外,该方法还可以在少样本场景下快速适配新领域的任务,具有较好的应用价值。因此,本专利摘要所述的基于提示学习的煤矿生产领域问答意图分类方法可用于问答系统的开发和应用。
-
公开(公告)号:CN115858813A
公开(公告)日:2023-03-28
申请号:CN202211628660.5
申请日:2022-12-20
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
IPC: G06F16/36 , G06F18/22 , G06F18/214 , G06F16/35 , G06F16/332 , G06F40/30
Abstract: 本发明涉及面向工程咨询报告的文本检索方法,以改善工程咨询报告撰写过程中人力成本大、编撰周期过长等问题,包括以下步骤:构建面向工程咨询报告的文本检索语料集,使用语料集微调simCSE对比学习模型,将得到的模型参数初始化Vanilla BERT模型,将语料的文本信息送入Vanilla BERT模型得到语义匹配分数。将文本信息和关键词信息通过SAT模型得到词级粒度的义原词向量表示并送入DRMM深度文本交互模型,得到关联匹配分数。将得到的语义匹配分数和关联匹配分数归一化后加权融合,得到最终的匹配分数,完成标题与段落之间的文本检索。本发明联合上下文向量表示和文本交互匹配方法,有效增强了文本检索的效果。
-
公开(公告)号:CN115357187A
公开(公告)日:2022-11-18
申请号:CN202210950209.9
申请日:2022-08-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及存储系统领域中的绿色存储技术以及自然语言处理领域中的数据语义挖掘技术,针对存储系统中数据语义的挖掘,采用多特征融合方法,提升了现有基于单一特征在数据布局策略上的不足,包括以下步骤:(一)、设定实验所需200个访问关键词;(二)、将中国34个省级行政区,按标准划分为四季分明区、夏长冬短区、冬长夏短区和其他区;(三)、获取每个气候区中200个关键词3年每日的访问记录;(四)、利用K‑means聚类,确定关键词在不同气候区的季节属性;(五)、构建存储系统能耗和成本模型,得到不同粒度框架下的能耗和成本。本发明融合“季节+地域”特征,充分提取关键词的季节属性,能够更为有效地降低存储能耗和成本。
-
-
-
-
-
-
-
-
-