fbpx
Wikipedia

Estándar de exclusión de robots

El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt, es un método para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.

El archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda.[1]​ Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.[2]

Desventajas

Este protocolo es consultivo. Confía en la cooperación de los robots del sitio web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque este no necesariamente garantice aislamiento completo. Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles en forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador web y conocimientos medianamente avanzados.

En algunos casos el incluir un directorio en este archivo le anuncia su presencia a posibles hackers, así ellos pueden determinar fácilmente algunos softwares usados en el sitio mediante buscar "huellas típicas" en el robots.txt.

Ejemplos

  • Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín * especifica todos los robots:[3]
User-agent: * Disallow: 

Cabe destacar que el comodín (*) significa "ALL" (en español «todos»)

  • Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/]), en todos los archivos almacenados en el directorio raíz:
User-agent: * Disallow: / 

Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.

  • Este ejemplo permite el acceso a un solo bot:
User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso Disallow: User-agent: * Disallow: / 
  • El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente estos, exceptuando a todos los demás archivos y directorios que no contienen un comodín, para su revisión:
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/ 
  • Ejemplo que dice a un robot específico no entrar en un directorio
User-agent: BadBot # sustituir 'BadBot' con el nombre del bot Disallow: /private/ 
  • Ejemplo que dice a todos los bots no entrar en un archivo en concreto
User-agent: * Disallow: /directory/file.html 

El resto de archivos del directorio seguirán estando disponibles

  • Ejemplo usando comentarios
# Los comentarios aparecen tras el símbolo "#"al comienzo de una línea o al final de un directorio User-agent: * # todos los bots Disallow: / # impedir su entrada 

robots.txt de una página ficticia

User-agent: * Disallow:/portal/ Disallow:/portal/ Disallow:/wp-* Disallow:/?Monopolio Disallow:/?Ficticia Disallow:/? Disallow:/?* Disallow:/author/ Disallow:/category/ Disallow:/portal/ Disallow:/search/ Disallow:/home2/ Disallow:/sg0-no-tocar/ Disallow:/sg1-no-tocar/ Disallow:/sg2-no-tocar/ Disallow:/sg3-no-tocar/ Disallow:/sg4-no-tocar/ Disallow:/sg5-no-tocar/ Disallow:/sg-5-no-tocar/ Disallow:/sg-4-no-tocar/ Disallow:/sg-3-no-tocar/ Disallow:/sg-2-no-tocar/ Disallow:/sg-1-no-tocar/ Disallow:/sg* Disallow:/ 

Observaciones

Los robots de los buscadores son sensibles a las mayúsculas y minúsculas, es importante agregarlos tal y como aparecen listados en el servidor, para una buena programación y entendimiento (robot-servidor).

Incidencias

A lo largo de su historia el estándar de exclusión de robots, ha presentado una serie de incidencias, de las cuales las más importantes han sido las siguientes:

Véase también

Referencias

  1. (html). The Web Robot Pages (en inglés). 26 de junio de 2018. Archivado desde el original el 26 de junio de 2018. Consultado el 2 de julio de 2019. «If an indexing robot knows about a document, it may decide to parse it, and insert it into its database. How this is done depends on the robot: Some robots index the HTML Titles, or the first few paragraphs, or parse the entire HTML and index all words, with weightings depending on HTML constructs, etc. Some parse the META tag, or other special hidden tags.» 
  2. Gutiérrez, Norman (2 de julio de 2019). (html). FayerWayer. Archivado desde el original el 2 de julio de 2019. Consultado el 2 de julio de 2019. «Un robots.txt bien hecho informa correctamente a los robots que lo leen sobre qué contenido del sitio escanear, especialmente si es necesario excluir ciertas carpetas que pueden contener información confidencial de usuarios o cuentas.» 
  3. (html). The Web Robot Pages (en inglés). 7 de junio de 2019. Archivado desde el original el 7 de junio de 2019. Consultado el 2 de julio de 2019. 
  4. «robotstxt/LICENSE». GitHub. 25 de junio de 2019. Consultado el 5 de febrero de 2021. 
  5. Illyes, Gary; Vandevenne, Lode; Pereda, Edu (1 de julio de 2019). (html). Google blog (en inglés). Archivado desde el original el 2 de julio de 2019. Consultado el 2 de julio de 2019. «We're here to help: we open sourced the C++ library that our production systems use for parsing and matching rules in robots.txt files. This library has been around for 20 years and it contains pieces of code that were written in the 90's.» 

Enlaces externos

  •   Datos: Q80776

estándar, exclusión, robots, estándar, exclusión, robots, también, conocido, como, protocolo, exclusión, robots, protocolo, robots, método, para, evitar, ciertos, bots, analizan, sitios, otros, robots, investigan, todo, parte, acceso, sitio, público, privado, . El estandar de exclusion de robots tambien conocido como el protocolo de la exclusion de robots o protocolo de robots txt es un metodo para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio Web publico o privado agreguen informacion innecesaria a los resultados de busqueda Los robots son de uso frecuente por los motores de busqueda para categorizar archivos de los sitios Webs o por los webmasters para corregir o filtrar el codigo fuente Indice 1 El archivo robots txt 2 Desventajas 3 Ejemplos 3 1 robots txt de una pagina ficticia 4 Observaciones 5 Incidencias 6 Vease tambien 7 Referencias 8 Enlaces externosEl archivo robots txt EditarUn archivo robots txt en un sitio web funcionara como una peticion que especifica que determinados robots no hagan caso a archivos o directorios especificos en su busqueda 1 Esto puede realizarse por ejemplo para dejar fuera de una preferencia los resultados de una busqueda avanzada o de la creencia que el contenido de los directorios seleccionados puede ser enganoso o inaplicable a la clasificacion del sitio en su totalidad 2 Desventajas EditarEste protocolo es consultivo Confia en la cooperacion de los robots del sitio web de modo que marca una o mas areas de un sitio fuera de los limites de busqueda con el uso de un archivo robots txt aunque este no necesariamente garantice aislamiento completo Algunos administradores de sitios Web utilizan el archivo robots txt para hacer algunas secciones privadas invisibles al resto del mundo pero dado que los archivos estan disponibles en forma publica su contenido podria ser visto de todas maneras por cualquier persona con un navegador web y conocimientos medianamente avanzados En algunos casos el incluir un directorio en este archivo le anuncia su presencia a posibles hackers asi ellos pueden determinar facilmente algunos softwares usados en el sitio mediante buscar huellas tipicas en el robots txt Ejemplos EditarEste ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el codigo raiz de la pagina web porque el comodin especifica todos los robots 3 User agent Disallow Cabe destacar que el comodin significa ALL en espanol todos Este ejemplo les niega el acceso a todos los bots implementando el comodin en todos los archivos almacenados en el directorio raiz User agent Disallow Cabe destacar que el comodin le niega el acceso la entrada al bot Este ejemplo permite el acceso a un solo bot User agent Unsolobot Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso Disallow User agent Disallow El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodin deben ser bloqueados unicamente estos exceptuando a todos los demas archivos y directorios que no contienen un comodin para su revision User agent Disallow cgi bin Disallow images Disallow tmp Disallow private Ejemplo que dice a un robot especifico no entrar en un directorioUser agent BadBot sustituir BadBot con el nombre del bot Disallow private Ejemplo que dice a todos los bots no entrar en un archivo en concretoUser agent Disallow directory file html El resto de archivos del directorio seguiran estando disponibles Ejemplo usando comentarios Los comentarios aparecen tras el simbolo al comienzo de una linea o al final de un directorio User agent todos los bots Disallow impedir su entrada robots txt de una pagina ficticia Editar User agent Disallow portal Disallow portal Disallow wp Disallow Monopolio Disallow Ficticia Disallow Disallow Disallow author Disallow category Disallow portal Disallow search Disallow home2 Disallow sg0 no tocar Disallow sg1 no tocar Disallow sg2 no tocar Disallow sg3 no tocar Disallow sg4 no tocar Disallow sg5 no tocar Disallow sg 5 no tocar Disallow sg 4 no tocar Disallow sg 3 no tocar Disallow sg 2 no tocar Disallow sg 1 no tocar Disallow sg Disallow Observaciones EditarLos robots de los buscadores son sensibles a las mayusculas y minusculas es importante agregarlos tal y como aparecen listados en el servidor para una buena programacion y entendimiento robot servidor Incidencias EditarA lo largo de su historia el estandar de exclusion de robots ha presentado una serie de incidencias de las cuales las mas importantes han sido las siguientes El 1 de julio de 2019 la empresa Alphabet Inc decidio publicar en GitHub bajo Apache License 4 el codigo fuente utilizado por mas de 20 anos por el robot Google 5 el cual alimenta los indices de su motor de busqueda Vease tambien EditarMapa de sitio web Metatag Nofollow Arana webReferencias Editar How does an indexing robot decide what to index html The Web Robot Pages en ingles 26 de junio de 2018 Archivado desde el original el 26 de junio de 2018 Consultado el 2 de julio de 2019 If an indexing robot knows about a document it may decide to parse it and insert it into its database How this is done depends on the robot Some robots index the HTML Titles or the first few paragraphs or parse the entire HTML and index all words with weightings depending on HTML constructs etc Some parse the META tag or other special hidden tags Gutierrez Norman 2 de julio de 2019 Google quiere que el protocolo robots txt sea un estandar de internet html FayerWayer Archivado desde el original el 2 de julio de 2019 Consultado el 2 de julio de 2019 Un robots txt bien hecho informa correctamente a los robots que lo leen sobre que contenido del sitio escanear especialmente si es necesario excluir ciertas carpetas que pueden contener informacion confidencial de usuarios o cuentas About robots txt html The Web Robot Pages en ingles 7 de junio de 2019 Archivado desde el original el 7 de junio de 2019 Consultado el 2 de julio de 2019 robotstxt LICENSE GitHub 25 de junio de 2019 Consultado el 5 de febrero de 2021 Illyes Gary Vandevenne Lode Pereda Edu 1 de julio de 2019 Google s robots txt parser is now open source html Google blog en ingles Archivado desde el original el 2 de julio de 2019 Consultado el 2 de julio de 2019 We re here to help we open sourced the C library that our production systems use for parsing and matching rules in robots txt files This library has been around for 20 years and it contains pieces of code that were written in the 90 s Enlaces externos Editarrobotstxt org http webdoc gwdg de ebook aw 1999 webcrawler mailing lists robots 1616 html Pagina oficial de Google Robotstxt en Google Search Console Datos Q80776Obtenido de https es wikipedia org w index php title Estandar de exclusion de robots amp oldid 135174166, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos