Creacion Archivo Robots.txt

13 09 2012

Creacion Archivo Robots.txt

El Archivo robots.txt es un file de texto que dicta unas recomendaciones para que todos los crawlers y robots.

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

Un Archivo Robot.txt  indica a los robots que rastrean nuestro sitio que páginas o zonas deseamos que explore y cuáles no.

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:

  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image, robot indexador de imagenes del buscador de Google.
  • Slurp, crawler de indexación del buscador Yahoo!
  • noxtrumbot, del buscador Noxtrum.
  • Scooter, del buscador Altavista.


Y muchísimos más. Si establecemos un control en nuestro Archivo Robots.txt, podremos conseguir una serie de beneficios:

  • Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
  • Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
  • Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
  • Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.

Sólo tenemos que crear un Archivo Robots.txt y comenzar a escribir en el.

# Crawler de MSN
User-agent: msnbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/

Este código impide al crawler del buscador de Live (MSN) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:

  • Disallow: / prohibe la entrada a todo el sitio.
  • Disallow: /foro/ prohibe la entrada a los documentos del directorio foro.
  • Disallow: permite la entrada a todo el sitio.

Origen : http://www.emezeta.com/articulos/robots-txt-todo-lo-que-deberia-saber#axzz26KznyRGI


Acciones

Information

One response

17 09 2012
Creacion XML SiteMap « Peruvian working Ideas

[…] más que un listado completo de todas las páginas de un sitio web en un formato pensado para los robots de los buscadores, no para los humanos. La mayoría de sistemas de publicación de contenidos […]

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




A %d blogueros les gusta esto: