搜索引擎研究 > 文章列表
google搜索引擎蜘蛛抓取原则造成404错误的问题 (浏览次数:2591)
发表于2007-7-15 12:04:00

首佳汽车维修管理博客开通后,我就比较关注搜索引擎的收录情况,一直都出现大量的404错误(无法访问的网址),原因一方面有博客程序的问题,比如配置的问题和程序BUG的问题产生大量的无效链接。

第二方面,应该归就于google蜘蛛抓取的原则,比如谷歌开始抓取本应在客户端生成的网页内容,比如用javascript写的链接代码也给抓取了,按道理,搜索引擎蜘蛛人应该先过滤所有的HTML标签、CSS样式表、JS代码,再把余下的内容抓取。例子:百度空间的友情链接就是由javascript写的,并在客户端生成的网页内容,现在好像开始计算在有效的友情链接内了。

第三方面,有些网页码也应该过滤掉的,或者跳过不计算链接。比如很多网站在留下邮箱时,都在网页有mailto:这样的代码。但是在抓取时被算作无效链接的内容是:域名加/mailto:abc@163.com。类似这样的例子很多,按正常的网页设计方法,网页在浏览时完全是正常的,但在搜索引擎眼里却是404错误。还比如很多网站有调查的栏目,一般用JS代码来写,链接到调查操作的代码这样写的:href='javascript:VoteForm.submit();'这个也被谷歌抓取成域名加/javascript:VoteForm.submit()了,这自然会成为无效链接,网站增加了很多404错误了。

来自:搜索引擎研究

转载请注明作者和链接。

楼主

您必须登录后才能进行回复或者发起新的主题

分享按钮