-
公开(公告)号:CN117150113A
公开(公告)日:2023-12-01
申请号:CN202310625164.2
申请日:2023-05-30
Applicant: 北京理工大学
IPC: G06F16/9535 , G06F40/126 , G06N3/0442 , G06N3/045 , G06N3/048
Abstract: 本发明涉及一种基于长短期偏好的科技情报推荐方法,属于推荐系统领域,可用于为用户提供个性化的科技情报推荐。该方法包括:利用多头自注意力机制分别提取情报标题和摘要的表示,然后结合情报来源表示以获取更准确的情报表示;采用长短期记忆网络和用户ID嵌入的方法学习长短期偏好表示;以及将长短期偏好表示与情报表示相结合,计算推荐得分,从而实现个性化的科技情报推荐。本发明解决了现有推荐系统在情报表示方面的不足以及在捕捉用户长短期兴趣方面不精确的问题,可以在推荐过程中捕捉到新颖性和突发性的科技情报,适用于国防、科研、教育等领域的情报推荐场景,有助于提高情报工作人员的工作效率,促进知识传播和技术创新。
-
公开(公告)号:CN115358234A
公开(公告)日:2022-11-18
申请号:CN202210828795.X
申请日:2022-07-14
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了基于图卷积网络与关系证据互指导的篇章关系抽取方法,属于计算机自然语言处理技术领域。本发明针对文档级别的文本,构造包含实体提及和实体关系两种节点的文档图,利用图卷积神经网络学习关系表征。同时,利用关系表征指导证据集抽取网络抽取对应的证据集,最后将证据集表征融入关系表征进行关系判别。本发明通过关系抽取和证据集抽取两通道任务的联合训练。关系抽取为证据集抽取提供特定关系信息,证据集抽取为关系抽取提供依据信息,从而提高篇章关系抽取的效果。同时,在文档图中创新性的增加关系节点促进了实体之间的消息传递,有利于模型充分学习语义表征。
-
公开(公告)号:CN114707516A
公开(公告)日:2022-07-05
申请号:CN202210322393.2
申请日:2022-03-29
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于对比学习的长文本语义相似度计算方法,属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型,通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分,经过人工修正模块对该语义打分进行修正,并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型,实现小样本下高精度语义相似度计算。
-
公开(公告)号:CN110991167B
公开(公告)日:2021-10-08
申请号:CN201911233518.9
申请日:2019-12-05
Applicant: 北京理工大学
IPC: G06F40/247 , G06F40/30 , G06F40/279
Abstract: 本发明涉及一种基于情感层次体系的情感词典构建方法,属于情感分析领域。包含如下步骤:步骤一:将语料按照情感层次体系进行拆分,并提取出未知情感词;步骤二:按照未知情感词构字,计算未知情感词的权重,构建基于字的情感词典;步骤三:通过复合句推到未知情感值的单句的情感值并通过语境计算未知情感词的权重,构建基于语境的情感词典;步骤四:将二和三得情感词典融合;步骤六:利用新的情感词典重新迭代计算直到没有新的情感词。所述方法将语料划分六层层次体系,然后通过构字和语境方法计算权重,得到了更加准确、全面的情感词典;将得到的情感词典运用到情感分析任务中,可以提高情感分析的效率和准确率。
-
公开(公告)号:CN110991167A
公开(公告)日:2020-04-10
申请号:CN201911233518.9
申请日:2019-12-05
Applicant: 北京理工大学
IPC: G06F40/247 , G06F40/30 , G06F40/279
Abstract: 本发明涉及一种基于情感层次体系的情感词典构建方法,属于情感分析领域。包含如下步骤:步骤一:将语料按照情感层次体系进行拆分,并提取出未知情感词;步骤二:按照未知情感词构字,计算未知情感词的权重,构建基于字的情感词典;步骤三:通过复合句推到未知情感值的单句的情感值并通过语境计算未知情感词的权重,构建基于语境的情感词典;步骤四:将二和三得情感词典融合;步骤六:利用新的情感词典重新迭代计算直到没有新的情感词。所述方法将语料划分六层层次体系,然后通过构字和语境方法计算权重,得到了更加准确、全面的情感词典;将得到的情感词典运用到情感分析任务中,可以提高情感分析的效率和准确率。
-
公开(公告)号:CN107247780A
公开(公告)日:2017-10-13
申请号:CN201710436963.X
申请日:2017-06-12
Applicant: 北京理工大学
CPC classification number: G06F17/30976 , G06F17/2785
Abstract: 本发明涉及一种基于知识本体的专利文献相似性度量方法,涉及面向专利文本的自然语言信息处理技术领域;该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案;构建专利分类号主题词词间关系模型;根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词;主题词词间关系结合以TF‑IDF作为TextRank词初始权重提取关键词和权重;训练FastText模型,生成词向量;根据关键词、词权重和词向量,计算EMD距离,得出语义距离。对比现有技术,本发明解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点,领域特点,词间关系特点及语义近似表述不一致导致的相似度低的问题。
-
公开(公告)号:CN105159879A
公开(公告)日:2015-12-16
申请号:CN201510531262.5
申请日:2015-08-26
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种网络个体或群体价值观自动判别方法,属于互联网信息挖掘与分析领域;包括:1)基于典型价值观三层树形结构搜集价值观新闻语料集;2)基于语料集及卡方统计方法构建典型价值观特征向量,并基于TF-IDF-IG方法计算其权重;3)基于步骤2)的方法确定社交网络个体的价值观特征向量,然后计算其与典型价值观特征向量的相似度,并进行价值观优先级评估;4)基于网络群体中每个个体的价值观优先级对其进行价值观分类,得到网络群体的价值观评估。对比现有技术,本发明基于网络大数据语料,对网络个体的价值观倾向进行定量评估以及对网络群体的价值观倾向进行定量评估,可用于网络舆论合理引导和管理控制,以及网络营销、人力资源管理等。
-
公开(公告)号:CN118821796A
公开(公告)日:2024-10-22
申请号:CN202410726533.1
申请日:2024-06-06
Applicant: 北京理工大学
IPC: G06F40/58 , G06F16/34 , G06F40/186 , G06F40/216 , G06F40/284 , G06N3/0455 , G06N3/084
Abstract: 本发明涉及一种基于大模型多阶段数据增强的跨语言简讯生成方法,属于计算机自然语言处理技术领域。本方法通过指令微调技术,利用英文原文和中文简讯之间的对应关系,生成适合大模型学习的指令微调语料。本发明将大模型应用于跨语言科技简讯生成领域,以及结合多阶段数据增强框架,提高了模型在特定任务上的表现,同时保持了模型的泛化能力,解决了传统跨语言文本摘要任务样本不足等问题,避免了传统跨语言任务流水线方法中的误差传播,能够更快地进行推理。本方法通过串行结构学习多个相关任务,并通过辅助任务数据进行增强,从共享的知识中受益,提高了性能,增强泛化能力,有效应对数据稀缺性。
-
公开(公告)号:CN116628301A
公开(公告)日:2023-08-22
申请号:CN202310420021.8
申请日:2023-04-19
Applicant: 北京理工大学
IPC: G06F16/951 , G06F16/958 , G06F16/955 , G06F16/36
Abstract: 本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法,属于计算机科学中的信息处理技术领域。该方法包括:解析Web网页内容数据,判断是否存在表格;若存在表格,提取所有表格的内容并存储;获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;对表格项内容进行匹配,得到每一个表项对应的标签;根据表项标签,获取行列标签;计算行列置信度,判断表头实体属性;以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术,基于知识库对网页表格数据进行抽取解析,使得结构化后的信息更加清晰、准确、和实用,为各种装备性能参数的构建提供技术支持,具有很大的实用价值。
-
公开(公告)号:CN115374784A
公开(公告)日:2022-11-22
申请号:CN202210810750.X
申请日:2022-07-11
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种多模态信息选择性融合的中文命名实体识别方法,属于自然语言处理技术领域。本发明有效解决了如何将字音和字形这两个重要信息有效融入命名实体识别中,通过在命名实体识别的输入中,加入携带语义信息的字符的拼音与偏旁部首序列,赋予了向量更强的语义信息。采用选择性融合,能够动态地控制字音和字形特征所占的权重,有效提升了命名实体识别性能。本发明能够为机器翻译、问答系统和阅读理解等自然语言处理任务提供有效支持。
-
-
-
-
-
-
-
-
-