-
公开(公告)号:CN115481645A
公开(公告)日:2022-12-16
申请号:CN202211268116.4
申请日:2022-10-17
Applicant: 天津大学 , 北京中科闻歌科技股份有限公司
Abstract: 本发明公开了一种基于形态学增强的张量化词嵌入压缩系统,该模型包括语素分割模块、语素索引及嵌入模块、词嵌入生成模块;所述语素分割模块将文本任务的词表中每个词分割成语素,所述语素索引及嵌入模块首先统计语素分割模块的分割结果生成语素表,接着定义语素索引矩阵和多个可训练的语素嵌入矩阵,语素索引矩阵每一行代表词表中对应单词的语素在语素表中的位置,语素嵌入矩阵的每一行代表语素表中对应语素的嵌入向量;词嵌入生成模块对词表中每个词,从语素嵌入矩阵中索引出语素向量并进行张量积,多个张量积的结果相加生成词嵌入向量;本发明克服了一般词嵌入技术参数量及存储空间占用大的问题,以及高倍压缩词嵌入时任务效果损失的问题。
-
公开(公告)号:CN114722836B
公开(公告)日:2022-09-02
申请号:CN202210516005.4
申请日:2022-05-12
Applicant: 北京中科闻歌科技股份有限公司
Inventor: 赵菲菲
IPC: G06F40/30 , G06F40/44 , G06K9/62 , G06F40/289 , G06F40/268
Abstract: 本公开涉及一种摘要生成方法、装置、设备及介质,在获取多个目标文本后,能够从与语义距离相关的多个视角提取每个目标文本的文本特征;并基于文本特征,对多个目标文本进行议题聚类,得到多个第一文本集合,进而针对各个第一文本集合分别进行议题摘要的抽取,由于用于对目标文本进行议题聚类的文本特征具有与语义距离相关的多个视角类型,使得进行议题聚类时所参考的信息特征比较丰富,能够从多个视角综合的对多个目标文本进行议题聚类,提高了议题聚类的准确性,进而使得抽取到的议题摘要也更加准确、有效。
-
公开(公告)号:CN114723542A
公开(公告)日:2022-07-08
申请号:CN202210369630.0
申请日:2022-04-08
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种办税异常绑定行为的检测方法、装置、设备及存储介质,其中方法包括:获取企业办税人的办税绑定行为数据;对所述办税绑定行为数据进行特征提取处理,得到与所述企业办税绑定行为相关的特征;将所述特征输入预设的企业绑定行为风险量化模型,基于所述企业绑定行为风险量化模型对所述企业进行异常办税绑定行为检测。本公开基于企业绑定行为风险量化模型进行异常办税绑定行为检测,考虑了办税绑定行为数据中风险特征的提取及量化,提升了泛化性能和普适性,减少了检测方案对个人领域经验的依赖,并提高了异常办税绑定行为检测的准确率和检测效率。
-
公开(公告)号:CN109815296B
公开(公告)日:2020-12-22
申请号:CN201811654206.0
申请日:2018-12-29
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明实施例涉及一种公证文档的人物知识库构建方法、装置及存储介质,所述方法包括:接收输入的公证文档数据;从所述公证文档数据中提取人名信息;从所述公证文档数据中提取与所述人名信息对应的属性信息;根据所述人名信息和所述属性信息更新数据库,当后续需要使用有关该人物的公证文档数据时,通过数据库调取,即可获取该人物的属性信息,节省人工查询的时间,提升办事效率。
-
公开(公告)号:CN110134942A
公开(公告)日:2019-08-16
申请号:CN201910260924.8
申请日:2019-04-01
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F17/27 , G06F16/951 , G06F16/9535 , G06F16/35
Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。
-
公开(公告)号:CN109815395A
公开(公告)日:2019-05-28
申请号:CN201811608345.X
申请日:2018-12-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/957
Abstract: 本发明实施例涉及一种网页垃圾信息过滤方法、装置及存储介质,所述方法包括:按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本,够准确的提高内容识别系统的准确性和鲁棒性。
-
公开(公告)号:CN109815296A
公开(公告)日:2019-05-28
申请号:CN201811654206.0
申请日:2018-12-29
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明实施例涉及一种公证文档的人物知识库构建方法、装置及存储介质,所述方法包括:接收输入的公证文档数据;从所述公证文档数据中提取人名信息;从所述公证文档数据中提取与所述人名信息对应的属性信息;根据所述人名信息和所述属性信息更新数据库,当后续需要使用有关该人物的公证文档数据时,通过数据库调取,即可获取该人物的属性信息,节省人工查询的时间,提升办事效率。
-
公开(公告)号:CN113051918B
公开(公告)日:2024-05-14
申请号:CN201911368962.1
申请日:2019-12-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/295 , G06F18/214 , G06F18/25 , G06N20/20
Abstract: 本发明公开了一种基于集成学习的命名实体识别方法、装置、设备和介质。该方法包括:将待识别的文本序列输入预先集成训练的命名实体识别模型;在命名实体识别模型中集成有多个基学习器并且每个基学习器对应一个权重;通过多个基学习器分别对输入的文本序列执行命名实体识别,得到每个基学习器输出的初始识别结果;根据每个基学习器输出的初始识别结果以及每个基学习器对应的权重,确定并输出文本序列的最终识别结果。本发明在命名实体识别模型中集成多个基学习器,并且集成训练多个基学习器,这使得命名实体识别模型的复杂度较低,降低了命名实体识别的耗时,提升了命名实体识别的时效性,也使得模型的训练过程简单易行。
-
公开(公告)号:CN116743343A
公开(公告)日:2023-09-12
申请号:CN202310763263.7
申请日:2023-06-26
Applicant: 天津大学 , 北京中科闻歌科技股份有限公司
IPC: H04L9/00 , H04L9/32 , H04L67/565
Abstract: 本发明公开了一种面向复杂网络环境的高性能区块链共识方法,属于区块链技术领域;本发明提出了一种能满足在大规模复杂广域网条件下的高性能低延迟的共识方法,通过对区块结构进行了重新设计,满足了异步区块传输、流式区块执行的需求;同时设计了异步区块传输协议,避免了节点带宽不同,网络波动所带来的性能影响;更进一步地,设计了区块流式区块执行协议,在保证执行结果正确的前提下,加速了大部分区块交易的确认延时。
-
公开(公告)号:CN115688773A
公开(公告)日:2023-02-03
申请号:CN202110857375.X
申请日:2021-07-28
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/295
Abstract: 本申请涉及一种实体关系抽取方法、装置及存储介质,所述方法包括:利用已训练的关系抽取模型从待抽取的目标语料中抽取目标关系;基于所述目标关系从所述目标语料中抽取目标实体对;利用所述目标关系和所述目标实体对构建所述目标语料对应的实体关系三元组。由此,可以实现先抽取目标语料中的目标关系,然后再基于目标关系抽取目标语料中的实体对,这相较于现有技术而言,可以避免在进行关系判断时,引入并无关系的实体对这一冗余信息,从而提高实体关系抽取结果的准确性。
-
-
-
-
-
-
-
-
-