互联网热词挖掘方法及装置

    公开(公告)号:CN104679738A

    公开(公告)日:2015-06-03

    申请号:CN201310607937.0

    申请日:2013-11-27

    Inventor: 肖诗斌 孙丽华

    Abstract: 本发明提供的一种互联网热词挖掘方法,包括:词图和背景库的初始化;实体串和非实体串的识别;字串统计指标更新;字串热度计算;字串热度排序及字串输出。将字串分为实体串和非实体串有针对性的区分识别,并设置背景库实现语料和计算指标的增量更新,提高了热词抽取的准确率和效率。同时,还提供了一种互联网热词挖掘装置,包括:存储单元,实体串识别单元,非实体串识别单元,热词抽取单元。热词抽取单元完成:统计指标的增量更新,字串热度计算,字串排序输出。实现热词有序、高效、准确地抽取。

    基于网页结构的信息动态采集更新调度方法

    公开(公告)号:CN103793421A

    公开(公告)日:2014-05-14

    申请号:CN201210428272.2

    申请日:2012-10-31

    Inventor: 都云程

    Abstract: 本发明公开了一种基于网页结构的信息动态采集更新调度方法,该方法包括:S1,采用网页结构分析方法对每个采集后的网页进行量化打分;S2,页面分数大于一定阈值()判定为Hub页面,参与更新采集调度;S3,将Hub页面分数划定等级,不同等级采用不同的调度周期实施调度;S4,每轮采集后,重新调整Hub页面调度等级,在持续调整过程中实现更新采集效果的不断优化。本发明实现了海量信息时代下,信息采集系统准确、高效的要求。

    用于航迹检索的航迹特征建模方法及系统、电子装置

    公开(公告)号:CN112214537B

    公开(公告)日:2025-01-24

    申请号:CN202010975489.X

    申请日:2020-09-16

    Inventor: 程涛 廖培红

    Abstract: 本发明属于飞行器轨迹建模的技术领域,为了解决现有技术中航迹检索存在精度不够、处理速度达不到实时要求中至少一个技术问题,本发明提供一种用于航迹检索的航迹特征建模方法及系统、电子装置、非易失性存储介质,通过建立多级地球位置字典,利用多级地球位置字典,设计航迹特征;再利用多级地球位置字典,快速查找相似航迹;由于地球位置编码采用多级算法,可以通过逐步细化的方法,初步筛查找到符合条件的航迹集合,然后再逐步使用细化的区域词典,最后精准定位最相似航迹;大大提高了航迹的检索效率。

    一种基于提示学习的海关税收风险知识抽取方法

    公开(公告)号:CN118296134B

    公开(公告)日:2024-08-09

    申请号:CN202410718893.7

    申请日:2024-06-05

    Abstract: 本发明涉及海关数据处理技术领域,提出了一种基于提示学习的海关税收风险知识抽取方法,建立海关风险知识抽取的数据源:输入通用预训练命名实体识别模型抽取企业实体名称,并利用依存句法优化实体命名结果,得到候选名称;将候选名称放入提示学习语言模型进行验证,输出概率最高的企业实体名称;再进行风险评价提取:基于预训练语言模型的提示学习来对报道正负面做文本分类预测;最后将提取出企业实体名称、风险评价信息进行特征融合,并录入海关报关单数据库。提高实体命名识别的准确性,并解决了对海关风险信息领域的样本信息少,抽取任务准确率低的问题。

    一种互联网文档的总访问量的估值方法

    公开(公告)号:CN114357347B

    公开(公告)日:2024-04-26

    申请号:CN202111621632.6

    申请日:2021-12-28

    Abstract: 本发明涉及一种互联网文档的总访问量的估值方法。包括:基于网站、app、社交媒体的日平均访问量,分别构建网站、app以及社交媒体的计算模型;获取用户首发的原创互联网文档并进行初始化分析;根据计算模型分别预估访问量;对所述网站预估访问量、app预估访问量以及社交媒体预估访问量,这三个值进行求和获得当日全网总访问量,再根据发布时间t获得衰减比例,获得已发布t天数内的总访问量。本发明针对互联网中的网站、app、社交媒体为基础全面的进行估算;构建不同的模型及实现算法,同时通过校正系数、配比等分析,客观准确的在全网进行总访问量的估值,为更有效的评估网站影响力、统计效绩及通过客观性排名等需求提供更有力的数据支持。

    一种基于互联网公开数据的企业关联信息挖掘方法

    公开(公告)号:CN117909559A

    公开(公告)日:2024-04-19

    申请号:CN202410170696.6

    申请日:2024-02-06

    Abstract: 本发明属于数据挖掘领域,提出了一种基于互联网公开数据的企业关联信息挖掘方法,通过搜索引擎自动搜索目标企业相关信息,获取特征信息,采集目标企业互联网公开数据,使用NLP技术处理采集的互联网公开数据,挖掘企业间关联关系,并分别从面向标题和面向段落的企业实体识别规则进行分阶段的提取,其对面向标题的企业实体识别规则中添加了价值判断,实现了自动且准确的从互联网采集数据中发掘企业关联信息,最大程度的解决了现有企业关联信息获取方法中存在的个人主观因素影响较大、特定站点数据不够全面、验证环节困难等问题。

    一种图片中的虚实线局部区域的提取方法

    公开(公告)号:CN114332108A

    公开(公告)日:2022-04-12

    申请号:CN202111499410.1

    申请日:2021-12-09

    Abstract: 本发明涉及计算机技术领域,涉及图像处理,具体涉及一种图片中的虚实线局部区域的提取方法。具体包括:将图片原始图进行尺寸规格化;二值化得到第二处理图;通过像素点的宽度来判断是否是线条图;利用候选虚线判断准则判断图像的某一区域是否是候选虚线;进行虚线确认与搭接得到第三处理图;最后利用虚线确认准则,通过包围率算法,提取实际子图。本发明可以准确并快速完成虚实线结合图的子图的提取,尤其是局部外观设计图的局部保护区域的提取,提取后使用全局特征检索即可实现快速检索,解决了局部设计审查的难题,可以提高对局部外观设计专利的审查效率,对国家提出的知识产权“提质增效”的战略提供技术支持。

    手写屏上的摹写用检测方法、装置、电子设备和存储介质

    公开(公告)号:CN112215061A

    公开(公告)日:2021-01-12

    申请号:CN202010881452.0

    申请日:2020-08-27

    Inventor: 程涛 肖锋

    Abstract: 本发明属于手写屏上摹写技术领域,本发明提供一种手写屏上的摹写用检测方法、装置、电子设备和非易失性计算机存储介质;所述方法包括:在手写屏上的第一次起笔开始,到最后一笔提笔,每一次提笔都保存为一个笔画对应的一幅图像;每一个笔画对应的一幅图像对应生成带标号的笔画文件;所述带标号的笔画文件基于起笔时间、提笔时间,可以获取每一个笔画对应的一幅图像的书写时间;基于所述每一个笔画对应的一幅图像对应生成带标号的笔画文件、每一个笔画对应的一幅图像的书写时间,识别出在手写屏上对当前文字的摹写结果。因此,通过手写屏上的摹写结果自动判断方法,能够准确识别出用户在摹写过程中的每个笔画。

Patent Agency Ranking