-
公开(公告)号:CN110990676A
公开(公告)日:2020-04-10
申请号:CN201911194794.9
申请日:2019-11-28
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网北京市电力公司 , 国家电网有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F16/951 , G06F16/35 , G06F16/34 , G06F16/335
Abstract: 一种社交媒体热点主题提取方法与系统。所述热点主题提取方法收集的互联网文本信息数据进行过滤归纳,然后采用文本聚类算法聚集相同主题的互联网数据信息,再把所述互联网数据信息聚类,为所选主题生成文本摘要;所述热点主题提取系统包括了数据筛选计算、主题聚类和主题摘要提取三个模块;所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳;所述主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;所述主题摘要提取模块,提取模块根据用户所选的主题,将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取;本发明提升了社交媒体热点主题的提取质量,具有较强的实用价值。
-
公开(公告)号:CN110889296A
公开(公告)日:2020-03-17
申请号:CN201911182998.0
申请日:2019-11-27
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F40/58 , G06F16/951
Abstract: 本发明涉及一种结合爬虫技术的实时翻译方法,包括以下步骤:对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;将翻译结果进行整理输出为翻译文本。
-
公开(公告)号:CN109710947A
公开(公告)日:2019-05-03
申请号:CN201910058614.8
申请日:2019-01-22
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网浙江省电力有限公司 , 国家电网有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F17/27 , G06F16/36 , G06F16/335
Abstract: 一种电力专业词库生成方法及装置,其中方法包括如下步骤,获取电力相关语料,对相关语料进行切词,得到候选词,对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。解决现有技术中电力专业词库杂乱不准确,无法满足实际需求的问题。
-
-