-
公开(公告)号:CN115481645A
公开(公告)日:2022-12-16
申请号:CN202211268116.4
申请日:2022-10-17
Applicant: 天津大学 , 北京中科闻歌科技股份有限公司
Abstract: 本发明公开了一种基于形态学增强的张量化词嵌入压缩系统,该模型包括语素分割模块、语素索引及嵌入模块、词嵌入生成模块;所述语素分割模块将文本任务的词表中每个词分割成语素,所述语素索引及嵌入模块首先统计语素分割模块的分割结果生成语素表,接着定义语素索引矩阵和多个可训练的语素嵌入矩阵,语素索引矩阵每一行代表词表中对应单词的语素在语素表中的位置,语素嵌入矩阵的每一行代表语素表中对应语素的嵌入向量;词嵌入生成模块对词表中每个词,从语素嵌入矩阵中索引出语素向量并进行张量积,多个张量积的结果相加生成词嵌入向量;本发明克服了一般词嵌入技术参数量及存储空间占用大的问题,以及高倍压缩词嵌入时任务效果损失的问题。
-
公开(公告)号:CN115168549A
公开(公告)日:2022-10-11
申请号:CN202210343005.9
申请日:2022-04-02
Applicant: 天津大学 , 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F16/36 , G06N3/04 , G06N3/08
Abstract: 本发明公开基于双重感知表示与层级交互记忆网络的任务型对话系统,使用端到端的方法通过捕捉双重感知表示,利用设计的层级交互记忆网络来构造任务型对话系统;包括对话历史和用户需求编码模块、层级交互记忆网络模块、感知表示融合模块、动态记忆解码模块。静态的需求感知表示和动态的知识感知表示作为双重感知表示,静态的需求感知表示能够更好地捕捉到用户最新的需求信息,动态的知识感知表示能够将当前的和过去的知识库信息进行整合进而得到与当前需求相关的知识信息,层级交互记忆网络,能够增强记忆内容在hop‑level和layer‑level上的交互,从而增强对知识的表示能力,使得模型能够更准确地从外部知识库中提取相关的知识信息,以生成更准确更合适的回复。
-
公开(公告)号:CN114492420B
公开(公告)日:2022-07-29
申请号:CN202210340732.X
申请日:2022-04-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/284 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种文本分类方法、装置、设备及计算机可读存储介质,该方法包括:对待分类的文本进行分词处理,得到文本中包含的词汇;从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;响应于词汇对应的语义有多个,基于词汇在所述文本中的上下文,确定词汇对应的每个语义的权重;基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;基于文本中包含的词汇的特征向量,确定文本的特征向量;基于文本的特征向量对文本进行分类。通过上述技术方案,将文本转化到量子领域进行处理,减少计算成本的同时,提升了文本的分类准确率,提升用户的使用体验。
-
公开(公告)号:CN114723542A
公开(公告)日:2022-07-08
申请号:CN202210369630.0
申请日:2022-04-08
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种办税异常绑定行为的检测方法、装置、设备及存储介质,其中方法包括:获取企业办税人的办税绑定行为数据;对所述办税绑定行为数据进行特征提取处理,得到与所述企业办税绑定行为相关的特征;将所述特征输入预设的企业绑定行为风险量化模型,基于所述企业绑定行为风险量化模型对所述企业进行异常办税绑定行为检测。本公开基于企业绑定行为风险量化模型进行异常办税绑定行为检测,考虑了办税绑定行为数据中风险特征的提取及量化,提升了泛化性能和普适性,减少了检测方案对个人领域经验的依赖,并提高了异常办税绑定行为检测的准确率和检测效率。
-
公开(公告)号:CN114281944A
公开(公告)日:2022-04-05
申请号:CN202111619353.6
申请日:2021-12-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/33 , G06F40/289 , G06F16/242 , G06N3/08
Abstract: 本申请实施例提供一种文档匹配模型的构建方法、装置、电子设备及存储介质,其中,该方法包括:步骤一,获取查询词汇特征集合和文档特征集合;步骤二,获得查询词汇特征集合和文档特征集合的相关性特征值;步骤三,获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值,选取第一匹配值最大的文档特征;步骤四,获得第二文档特征;步骤五,将候选文档特征集合作为新的候选文档特征集合,将第二文档特征作为新的第一文档特征,重复步骤四;步骤六,根据有序文档特征集合和文档特征集合获得损失函数,并根据损失函数构建匹配模型。实施本申请实施例,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率和检索性能。
-
公开(公告)号:CN113987264A
公开(公告)日:2022-01-28
申请号:CN202111266325.0
申请日:2021-10-28
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/738 , G06F16/75 , G06F16/783 , G10L15/26 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种视频摘要生成方法、装置、设备、系统及介质。其中,图像处理方法包括:获取目标视频对应的多个视频片段;提取每个视频片段对应的多模态视频特征;基于多模态视频特征,计算每个视频片段的重要性得分;基于多个视频片段和每个视频片段的重要性得分,生成目标视频的摘要视频。根据本公开实施例,能够基于多个模态的特征,准确的生成目标视频的摘要视频。由此,当用户浏览视频摘要时,能准确的掌握目标视频的主要内容,因此,对于海量的目标视频,也可以满足用户快速且准确的从海量的目标视频中获取主要内容的需求。
-
公开(公告)号:CN113553839A
公开(公告)日:2021-10-26
申请号:CN202010340711.9
申请日:2020-04-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/194
Abstract: 本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。
-
公开(公告)号:CN109299082B
公开(公告)日:2021-09-14
申请号:CN201811068797.3
申请日:2018-09-13
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/215 , G06F16/248
Abstract: 本发明涉及一种大数据分析方法及系统,包括:采集大数据;根据预设的分析组件对所述大数据进行预处理;分析预处理后的大数据,得到可视化的分析组件;根据用户需求选择分析组件的类型;将所述分析组件进行合成,得到整个分析场景。本发明提供的技术方案可以自由选择所需要的分析组件,解决各种数据分析问题,适应各种应用场景。
-
公开(公告)号:CN108769278B
公开(公告)日:2021-08-10
申请号:CN201810319766.4
申请日:2018-04-11
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明涉及一种社交媒体账号管理方法及系统,该方法包括:通过所述互联网协议地址和端口访问任一社交媒体对应的注册网站;通过浏览器控件完成账号注册,将所述账号与所述互联网协议地址绑定为合格账号进行存储;当接收到任务时,从所述合格账号中获取执行所述任务的合格账号,通过所述浏览器控件根据所述合格账号进行登录以完成所述任务。本发明实施例主要提供针对国外社交媒体账号自动注册及利用注册账号进行指定任务的工作,同时通过将注册完成的账号与相对应的互联网协议地址进行绑定存储,以使用相匹配的互联网协议地址登录相关账号,提高账号可用性和存活概率。
-
公开(公告)号:CN113158656A
公开(公告)日:2021-07-23
申请号:CN202011561236.4
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/30 , G06K9/00 , G06K9/46
Abstract: 本发明实施例公开了一种讽刺内容识别方法、装置、电子设备以及存储介质。该方法包括:获取待识别的数据内容,并提取所述数据内容的文本内容和图像内容;提取所述图像内容的第一特征信息,其中,所述第一特征信息至少包括所述图像内容中的文本向量特征;提取所述文本内容的第二特征信息,其中,所述第二特征信息至少包括所述文本内容的表情符号特征;将所述图像内容的第一特征信息和所述文本内容的第二特征信息输入至预先训练的讽刺内容识别模型,得到所述数据内容的讽刺识别结果。通过本发明实施例公开的技术方案,实现了更加准确的识别到讽刺内容,更加精准的了解待识别的数据内容的表达含义。
-
-
-
-
-
-
-
-
-