-
公开(公告)号:CN114443820B
公开(公告)日:2025-02-07
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/334 , G06F16/3332 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN116662480A
公开(公告)日:2023-08-29
申请号:CN202310505568.8
申请日:2023-05-06
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F40/30 , G06F40/295 , G06N5/022 , G06N3/045
Abstract: 本发明提出一种基于实体增强的文本语义表示方法和系统,包括:获取文本编码模型和实体增强编码模型,实体增强编码模型由串联的外部实体向量表示模块和上下文相关的实体信息编码模块组成;通过文本编码模型提取目标文本的第一表示向量;以外部实体向量表示模块识别目标文本中表示实体的词项序列,并确定词项序列和知识库中的哪些实体相关联,获得词项序列对应实体的在知识库中的实体向量表示;实体信息编码模块包括多个串联的实体适配器层,实体信息编码模块的输入为实体向量表示和文本编码模型中间层的隐状态;最后一个实体适配器层输出的特征作为目标文本的第二表示向量;融合第一表示向量和第二表示向量,得到目标文本的语义表示结果。
-
公开(公告)号:CN114491157A
公开(公告)日:2022-05-13
申请号:CN202210132296.7
申请日:2022-02-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/90 , G06F16/901 , G06F16/903
Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。
-
公开(公告)号:CN114443820A
公开(公告)日:2022-05-06
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN119513312A
公开(公告)日:2025-02-25
申请号:CN202411503651.2
申请日:2024-10-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/353 , G06F16/334 , G06F40/186 , G06F18/241
Abstract: 本发明提供了一种针对文本的讽刺检测方法,包括:获取待分析文本及其讽刺上下文信息,其中,讽刺上下文信息是指用于辅助判断待分析文本是否带有讽刺情绪的语境信息;根据待分析文本及其讽刺上下文信息,评估待分析文本的讽刺上下文信息的充足性;在待分析文本的讽刺上下文信息不充足的情况下,根据预设的上下文信息检索库提供补充的上下文信息,得到更新的讽刺上下文信息;根据待分析文本及其最新的讽刺上下文信息,确定待分析文本是否带有讽刺的情绪。
-
公开(公告)号:CN117076598A
公开(公告)日:2023-11-17
申请号:CN202310518172.7
申请日:2023-05-09
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/953 , G06F40/30 , G06F18/25
Abstract: 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重、该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果。本发明还提出一种基于自适应权重的语义检索模型融合系统,以及一种用于基于自适应权重的语义检索模型融合的数据处理装置。
-
-
-
-
-