百度蜘蛛(Baiduspider)是百度搜索引擎用来抓取网页内容的一个程序,在网站日志里能看到这个百度蜘蛛留下的痕迹。它也叫百度搜索机器人或百度搜索爬虫,主要用于访问网站并抓取数据。蜘蛛抓取网站内容的线路一般是从首页登录,然后计算该网站的所有链接,根据反馈的信息再侧重抓取。这个程序永不停息的在互联网上寻找新的URL,并抓取该URL上的内容,并把数据返回给百度的数据库。
百度蜘蛛这种称呼是对程序一种比较形象的叫法,百度所有产品基本都可以触发蜘蛛的爬行行为,比如百度工具条和百度统计等。蜘蛛最大的嗜好就是喜欢吃互联网上的新内容,如果是蜘蛛早已吃过的东西,它肯定会拂袖而去。如果网站结构简单,减少它的爬行路径,那么它也是乐于经常光顾的。一旦蜘蛛有规律的爬行某个网站,这时如果更换服务器或IP,那么这将对它是一个严重的打击。
百度官方称:目前Baiduspider只能读懂文本内容,flash和图片等非文本内容暂时无法识别。
★欢迎参与讨论或留言★