400-806-0087
您的当前位置:主页 > 常见问题> 营销教程 > 正文

解读百度百科内链系统

时间:2021-05-07 16:42 所属栏目:营销教程 阅读数量: ()

解读百度百科内链系统

专利名称:自动添加内链的方法及系统

 

专利摘要

 

本发明公开一种自动添加内链的方法及系统,该方法包括:对接收的词条信息进行切词以获取关键词;根据预先设置的抓取策略,从关键词中抓取待添加内链的词汇;对待添加内链的词汇自动添加内链。本发明通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链的同时,大幅度提高百科词条的内链量和准确率。对浏览用户而言,无需花费大量的时间和经历去检索查找相关疑难术语,提高延伸阅读体验,降低搜索成本;对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性;对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。

 

内链系统

 

切词模块,用于对接收的词条信息进行切词以获取关键词 ;

抓取模块,用于根据预先设置的抓取策略,从所述关键词中抓取待添加内链的词汇 ;

添加内链模块,用于对所述待添加内链的词汇自动添加内链。

 

内链的作用

 

改善浏览用户的延展阅读的体验,在主题词条中添加内部链接(简称“内链”),用以对被添加内链的主题词进行注解或知识扩展,用户在遇到该添加内链的主题词后通过点击该内链给出的链接可以获得自动的答疑解惑,极大地方便了用户的阅读 ;

同时具有内链的电子大百科全书在知识体系结构上也更加完善,也有利于减少对同一较为生僻或热点事件的重复注解,提供系统的资源利用率。

 

此外,研究发现通过内链途径,还能够有效提高词条的总页面浏览率(PV,PageView),在方便用户阅读的同时,提供用户的忠诚度。

 

现状问题

 

现有的设置内链的方式主要包括由人工添加和由系统自动添加。

 

对于人工添加的方式,由于其添加内链是凭借自身的知识能力/经验来决定对什么词汇添加内链的,主观任意性较强,会存在需要添加内链的没有添加内链,而无需内链注解的主题词又被添加了内链,造成内链遗漏和内链闲置等问题。此外,对于人工添加的方式,需要耗费大量的人力物力,尤其是在知识爆炸的时代,大量信息的瞬时爆发对于设置内链的及时性和有效性提出了更高的要求,但传统的人工添加的方式效率低下,远不能满足需要。

 

对于机器自动添加的方式,由于其对目标主题词的内链的必需性不作严格的判断,几乎是对主题词都进行内链,针对性和选择性都比较差,造成大量无用的内链最终处于闲置状态,而未被有效的利用,从而造成系统资源的浪费。

 

专利目的

 

本发明要解决的一个技术问题是提供一种自动添加内链的方法及系统,其能够在减少人工投入的前提下,提高内链添加的效率和针对性,从而有效地丰富百科词条的内链。

 

相关性判断

 

A词条正文出现B词条,且B词条正文出现A词条,则判定两者相关。

 

过滤系统

 

当所抓取的互链词汇并非在该词条信息正文首次出现的位置时,不再添加内链,如“汉王电纸书”词条信息正文中除首次出现的“ipad”被保留待添加内链,其它在后出现的“ipad”均可以被过滤掉 ;

当互链词与词条名存在同义词关系时,如在“汉王电纸书”词条信息正文中互链词汇“ipad”和“苹果电子书阅读器”属于同义指代的关系,如果对“苹果电子书阅读器”作为在前需要添加内链的词汇,那么在后的“ipad”可以被过滤掉 ;

当互链词汇比邻,形成长词汇词组,且长词汇与现有另一互链词汇的名称完全匹配时,过滤较短互链词汇;如存在互链词汇“苹果”公司和“电子书阅读器”,而且所述两个互链词汇比邻形成长词汇词组“苹果电子书阅读器”,如果该长词汇词组恰巧是另一互链词汇,则此时以该长词汇词组为待添加内链的互链词汇,而过滤掉两个较短互链词汇;

当两个或以上互链词交接切词,彼此含有相同词素,过滤掉该互链词汇,如互链词汇“苹果电子书阅读器”和“苹果 ipad”切词后都含有相同词素“苹果”,“电子书阅读器”和“ipad”属于同义词素 ;

此外,对于由纯数字、特殊符号 ( 包括百科编辑器中所有特殊符号列表中的内容,如拼音、罗马字符、日文片假名 )等构成的互链词汇,其本身并不具备扩展阅读的需要,因此可以对此类互链词汇进行筛选过滤掉 ;

同样的,对于互链词汇具备时间表述特征,如 X 年、X 月X 日等构成的互链词汇(X 包括中文繁/ 简体数字、全/半角阿拉伯数字),其本身并不具备扩展阅读的需要,因此可以对此类互链词汇进行筛选过滤掉。

 

最终结果

 

本发明通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链的同时,大幅度提高百科词条的内链量和准确率。

对浏览用户而言,无需花费大量的时间和经历去检索查找相关疑难术语,提高延伸阅读体验,降低搜索成本;

对编辑用户而言,节省了为相关词条添加内链所花费的人力成本,同时避免了人工添加内链的主观随意性,提高了内链的针对性和有效性 ;

对管理团队而言,极大地降低了对增加内链的编辑版本进行人工审核所花费的成本。

 

搭建自己的内链系统

 

1、准备大量关键词,关键词获取途径可以通过关键词挖掘系统实现,比如抓取大网站的关键词系统或者百度凤巢API接口等。

2、建立关键词和页面映射关系,主要通过文章切词系统实现(切词需要预设字典,会用到第1步中的大量关键词),每篇内容提取3条关键词作为对应映射关系。

3、建立内链相关性系统,参考百科的AB词条映射计算相关性。(如果太复杂,这一步可以跳过)

4、内链添加规则,首次出现位置添加内链,长词优先合并短词。

5、内链更新周期,根据网站内容产产出频率自行确定,一般以周为单位。

 

 

 

如果还想了解“解读百度百科内链系统”相关问题,可以联系官方电话,也可以点击屏幕上方的免费注册按钮

官方电话:400-806-0087(下方免费注册)

TAG标签: 百度百科

相关推荐

×

恭喜您提交成功

百度推广咨询员会在8:30-18:00以官方电话 进行回拨,请您注意接听,谢谢!

了解更多百度产品优势

×

通过百度营销获取更多客户

拨打电话

免费注册

在线咨询