-
公开(公告)号:CN109992645B
公开(公告)日:2021-05-14
申请号:CN201910250572.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 拓尔思信息技术股份有限公司
Abstract: 本发明公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明提高了工作效率,提升了对战略研究素材的管理能力。
-
公开(公告)号:CN112214966A
公开(公告)日:2021-01-12
申请号:CN202010923832.6
申请日:2020-09-04
Applicant: 拓尔思信息技术股份有限公司
IPC: G06F40/126 , G06F40/284 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于信息处理领域,为了解决现有技术中实体识别和关系抽取存在无法充分利用实体识别时隐含的实体类别信息的技术问题,本发明提供一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统,使用深度神经网络采用一体化的方法实现将实体识别和关系抽取进行联合训练学习,并且对输入的文本无需人工干预组合实体,能够自动抽取出文本中包含的实体及实体间存在的关系。
-
公开(公告)号:CN107193883B
公开(公告)日:2020-06-02
申请号:CN201710285832.6
申请日:2017-04-27
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/335 , G06F16/332
Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。
-
公开(公告)号:CN104679738B
公开(公告)日:2018-02-27
申请号:CN201310607937.0
申请日:2013-11-27
Applicant: 北京拓尔思信息技术股份有限公司
Abstract: 本发明提供的一种互联网热词挖掘方法,包括:词图和背景库的初始化;实体串和非实体串的识别;字串统计指标更新;字串热度计算;字串热度排序及字串输出。将字串分为实体串和非实体串有针对性的区分识别,并设置背景库实现语料和计算指标的增量更新,提高了热词抽取的准确率和效率。同时,还提供了一种互联网热词挖掘装置,包括:存储单元,实体串识别单元,非实体串识别单元,热词抽取单元。热词抽取单元完成:统计指标的增量更新,字串热度计算,字串排序输出。实现热词有序、高效、准确地抽取。
-
公开(公告)号:CN107203509A
公开(公告)日:2017-09-26
申请号:CN201710262158.X
申请日:2017-04-20
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775 , G06F17/2785
Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。
-
公开(公告)号:CN104375990B
公开(公告)日:2017-06-20
申请号:CN201310346542.X
申请日:2013-08-12
Applicant: 北京拓尔思信息技术股份有限公司
Inventor: 程涛
IPC: G06F17/30
Abstract: 基于SIFT特征的海量图像实时检索方法,包括图像SIFT特征抽取、SIFT基因生成、特征匹配,SIFT基因生成分为三步,依次为特征KEY生成、特征重要信息VALUE生成、特征点压缩。在从SIFT特征到SIFT基因映射过程中采用了特征降维方法,将128维的特征向量降至26维,同时在SIFT基因形成的过程中进行特征点压缩处理,大大降低了特征存储空间,特征匹配时合理地利用特征重要性程度信息进行简单的对比相加运算,将特征匹配计算复杂度降至O(n)级别,实现了海量图像实时检索需求。
-
公开(公告)号:CN103853772B
公开(公告)日:2017-02-08
申请号:CN201210511478.1
申请日:2012-12-04
Applicant: 北京拓尔思信息技术股份有限公司
Inventor: 王弘蔚
IPC: G06F17/30
Abstract: 本发明公开了一种高效倒排索引组织方法。将记录倒排项和属性倒排项分开存储,减少信息冗余;采用分块方式对倒排索引进行存储,以数据库索引优化为切入点,综合利用链表和集中定位表的优势对倒排块进行管理,既有利于索引动态维护又便于SKIP技术下的随即访问;同时根据域间关联关系,采用了压缩技术,以达到尽量少的空间存储尽量多的信息量。所提供的倒排索引结构及组织方法,减少了存储空间、优化了访问时间,在一定程度解决了倒排索引优化问题,能够实现海量数据的有效管理。
-
公开(公告)号:CN105592003A
公开(公告)日:2016-05-18
申请号:CN201410563541.5
申请日:2014-10-22
Applicant: 北京拓尔思信息技术股份有限公司
Abstract: 本发明提供一种基于通知的跨域单点登录方法,其包括:步骤S1.信任通道建立;步骤S2.全局认证凭证生成;步骤S3.用户身份认证;步骤S4.单点登录。借助web服务器的原有会话机制,以安全的加密通道传递会话ID,在认证服务端维护会话ID与认证凭证的关系,实现身份认证和单点登录,具有效率高、安全性高、实现成本低的特点。此外,本发明还提供一种基于通知的跨域单点登录系统,包括:客户端、应用服务端、认证中心三大模块,任意接入认证中心的应用端需携带重定向组件,认证中心负责认证凭证的生成、管理、销毁等工作,应用服务端与认证中心需建立互信通道,复用web服务的会话特性,实现跨域单点登录,具有复杂度低、安全性高、可靠性强的优点。
-
公开(公告)号:CN105302793A
公开(公告)日:2016-02-03
申请号:CN201510696274.3
申请日:2015-10-21
Applicant: 南方电网科学研究院有限责任公司 , 中国南方电网有限责任公司电网技术研究中心 , 北京拓尔思信息技术股份有限公司
Abstract: 本发明提供了一种利用计算机自动评价科技文献新颖性的方法,其包括如下步骤:A、基于文档内容排序的新颖性检测;B、基于文档语义比对的新颖性检测;C、基于关键术语的新颖性检测;D、基于数值指标的新颖性检测;E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。采用本发明的方法,可基于多维度新颖性检测的科技文献自动查新,提高科技查新的效率。
-
公开(公告)号:CN104750461A
公开(公告)日:2015-07-01
申请号:CN201310723625.6
申请日:2013-12-25
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F9/44
Abstract: 本发明提供一种可视化的网站建设系统,其包括:站点池,栏目库,资源池,风格池,母版库,可视化设计页面等模块,其中可视化设计页面作为用户接口,将网页拆分成一个个独立的资源块,由其他数据资源模块提供内容、风格支持,可实现用户拖拽设计和可视化数据配置。此外,本发明还提供一种可视化的网站建设方法,该方法将站点池、栏目库以结构树的形式组织管理,预定义资源池、风格池内容,页面设计时直接选择资源块并配置资源块的内容及风格即可,实现了所见即所得的网站建设模式,同时将内容与表现形式剥离,业务处理逻辑透明化,提高了网站建设效率,降低了网站建设的技术门槛。
-
-
-
-
-
-
-
-
-