Esplendor y miseria del robots.txt (parte II)

Bueno, así como a Brett Tabke le da por ser original y escribir su blog en el archivo de marras, los hay que prefieren el uso tradicional y les gusta tirar de robots.txt para prohibir el acceso a determinadas partes de su site. Véase por ejemplo el robots.txt de la Casa Blanca

¿Qué pasa? ¿Nunca habéis conocido a alguien que se lea la guía telefónica? Pues yo leo el robots.txt de la Casa Blanca. Además, encuentro muy interesante ver que tienen directorios llamados blackhistory, firstlady o fitness y me pregunto las razones por las que querrías sacar del buscador cosas como sitemap.html o accesibility.html.

No obstante, tengo una duda razonable sobre la longitud que puede alcanzar este archivo, en principio, no debería de estar limitado: total, los de la Casa Blanca usan 89.356 caracteres de nada (ale a lo grande, como todo lo estadounidense) sin embargo Google restringe la prueba del robots.txt en su webmaster tool a 5.000 caracteres.

El sentido común sugiere moderación que el robots.txt es muy delicado. Tendré que desechar lo de hacer una tesis en/sobre el robots.txt.

clicad en la foto para poder leer el pantallazo con el mensaje de error

Gracias a María que me descubrió la existencia de este mensaje de error (hacer click en la foto para pantallazo legible). Por cierto, que no fue ella la culpable de subir un robots.txt de semejante tonelaje ¡Ni yo!

PD: ya sé que la imagen se sale, es enorme, por coherencia.

Actualización (22-03-2010): A fecha de 19 de enero de 2009 con la llegada al poder de Obama se rehizo la web de la Casa Blanca, y se hizo un nuevo archivo robots.txt rebajando las 2.400 que había llegado a tener, hecho que fue bastante comentado en la blogosfera, etc. por ejemplo aquí.

About Dictina

Online desde 1.995. Siempre de cabeza, siempre del revés.

This entry was posted in SM: SEO, SEM, SMO, etc. and tagged , . Bookmark the permalink.