Seguimos con la Guía Google de SEO. Después de tener algunas nociones de SEO, de haber optimizado la estructura de tu web y el contenido llega el momento de relacionarnos con las arañas de los buscadores, una manera de realizarlo es a través del archivo robots.txt.
4. Trato con las “arañas de los buscadores” robots.txt
4.1. Haz un uso efectivo de «robots.txt»
Restringe el acceso a las arañas de los buscadores cuando no sea necesario. El archivo «robots.txt» dice a los buscadores si pueden acceder a tu web y que partes de tu web pueden indexar. Este archivo, el cual debe ser llamado «robots.txt», debes situarlo en el directorio principal o raiz de tu web.
Podría ser que no quisieras que ciertas páginas de tu web fueran indexadas porque no son útiles para el usuario si las encuentra en un buscador. Si quieres prevenirte de la indexación de alguna de tus páginas, Google Webmaster Tools tiene un generador de archivos «robots.txt»(http://googlewebmastercentral.blogspot.com/2008/03/speaking-language-of-robots.html) que puede ayudarte a crearlo. Si tu web tiene subdominios entonces deberás utilizar diferentes archivos «robots.txt» para cada subdominio.
Existe un abanico de formas para prevenir que el contenido de una página aparezca en los resultados de los buscadores, como añadir «NOINDEX» en tu etiqueta meta robots, usar .htaccess para codificar un directorio, o usar las herramientas para webmaster de «Google», para eliminar el contenido que ha sido indexado. El ingeniero de «Google» Matt Cutts, tiene un vídeo sobre este tema:
http://googlewebmastercentral.blogspot.com/2008/01/remove-your-content-from-google.html
Utiliza métodos más seguros para la información sensible.
No deberias sentirte bien usando robots.txt para bloquear material sensible o confidencial. Una de las razones es que los buscadores podrían referenciar la URL de la página aunque no tuviera título ni descreipción, entonces solo mostraría la URL, si hubiera enlaces a esa URL, desde otra página de internet. Además podría ocurrir que tu robots.txt fallase por alguna razón y esa información fuera mostrada. Por útlimo un usuario podría examinar los directorios y subdirectorios en tu robots.txt y averiguar la URL de la página que no quieres que sea mostrada. Encriptar el contenido o proteger con contraseña con .htaccess es más seguro.
A evitar:
Permitir que los resultados de una búsqueda sean indexados. Esto molesta mucho a los usuarios que buscan información y hacen click en un resultado que les lleva otra página de resultados.
Permitir que una URL creada como resultado de un servicio proxy sea indexado.
Para más información sobre «robots.txt», «Google» te recomienda su guía «Webmaster Help Center»:
http://www.google.com/support/webmasters/bin/answer.py?answer=156449