最近公司在搞平台网站流量,所以我们第一个目标就是做百度,其实个人对于百度相关SEO了解还是比较外行。以前做公司网站和个人网站都给内容为主要目标。主要认为内容好了,百度爬虫自然会过来爬。其实可能自己不是SEO高手原因。其实一般内容也是可以让百度收录也可以做到不错搜索排名。所以就一直要找这些技术方面文章。找了一些SEO相关收录条件,还有最近五年内百度算法修改。当中有一些体会如下:
1.SEO相关收录条件(转载):
1、网站文章的原创度,无论你的网站是新的,还是老的,百度都把原创文章放在第一位,原创度越高,那么收录就越容易,就算不能做原创文章,也要加大你的伪原创文章程度。
2、站内内容是否重复,站内的内容重复包括多个部分,第一个部分就是网页标题是否重复,如果重复的话百度会出现不收录,标题重复是有一定收录难度的,这个非常容易理解吧,第二个就是内容重复,像网站的状况header,footer,网站权版,和分类部分,我们都是在所难免重复的内容,但一家一定要注意,尽量把这些内容重复程度降低,还有就是分类和tag标签一定不会分得太细,因为分得越细,重复程度就越高,收录起来就越难,最后一个内容重复就是文章与文章之间的重复程度,不要把文章A的内容再写在B文章就行了,关于内容重复就写这么多,去掉重复内容提高网站文章收录率。
3、网页加载速度
对于上面三种收录条件我认为后面两条是技术人员应该帮相关运营人员来解决事情。
1)站内内容是否重复和相似度这种其实就比较简单的。把相关页面也像爬虫一样收集一下。然后去keyword,descrption,去html相关标识得到文本内容,你就是出现真实让百度收录内容其实可以看的出来是否有重复和相似度。如果想更明确一些可以推荐使用现在云服务自然语言接口来处理一下也可以自己搭建相关自然语言服务来处理。
2)网页加载速度,这个其实也是我们做技术终极目标,页面尽量想办法静态化或是cache化。
2.五年内百度算法修改(转载):
* 绿萝算法 2013年2月19日上线 最新版本:2.0 打击买卖链接的行为,包括超链中介、出卖链接的网站、购买链接的网站
* 石榴算法 2013年5月17日上线 打击大量妨碍用户正常浏览的恶劣广告的页面
* 冰桶算法 2014年8月30日上线 最新版本4.5 打击强行弹窗app下载、大面积广告等影响用户正常浏览体验的页面
* 天网算法 2016年8月10日上线 打击盗取用户隐私的行为,行为主要表现为网页嵌恶意代码,用于盗取网民的QQ号、手机号。
* 蓝天算法 2016年11月22日上线 旨在严厉打击新闻源售卖软文、目录行为,还用户一片搜索蓝天。
* 飓风算法 2017年7月7日上线 旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展,与之相关的出台过一个百度原创星火计划。
对于上面算法修改做为了一个做技术人来说有一种体会就是百度算法越来越针对原创文章,对于一些采集内容一般都不能给你收录但是会索引(这个大家可以通过百度资源可以看到相关结果)
3.SEO关键词用法
1)现在大大小小网站不管三七二十一都会把内容加上keyword,descrption。个人认为如果只针对这两个的话。我认为会比较难。经过初步发现现在百度不会对这个两个标识进行处理了。感觉你的网页内容才是搜索关键词以及页面title。所以还是要慎用这个内容
2) 相关SEO关键词使用自己还是不断学习中,所以只能说这么多了。
本人做过两个测试:
1)如果是DB查询内容以及相关内容cache的话得到加载速度在200-500毫秒左右,是不是已经性能很不错的。
2) 其实还有一种方式法就是把html进行cache的话这个请求速度就是100毫秒以内。所以我会推荐大家使用这种方式。当然这种方式其实需要技术难度会比较大。因为如果一个平台动态内容的话。这种方式需要技术成本和网络资源是比较大的。需要关系到这个页面什么时间有登陆,什么时间这个内容要发生变更,什么时间这个页面是没有变化过的。这些内容来说相比做第一种会来的比较方便多。开发人员只要把DB内容进行cache处理也不需要关心其它情况。
文章评论