fbpx
Wikipedia

Araña web

Un rastreador web, indexador web, indizador web o araña web es una programa informático que inspecciona las páginas del World Wide Web de forma metódica y automatizada.[1]​ Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots.[2]

Las arañas web comienzan visitando una lista de URL, identifica los hiperenlaces en dichas páginas y los añade a la lista de URL a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente.

Entre las tareas más comunes de las arañas de la web tenemos:

  • Crear el índice de una máquina de búsqueda.
  • Analizar los enlaces de un sitio para buscar links rotos.
  • Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.

Información general

Un buen rastreador web comienza con una lista de direcciones URL para visitar, llamado las semillas. A medida que el rastreador visita estas direcciones URL, identifica todos los hipervínculos en la página y los añade a la lista de URL para visitar, llamada la frontera de rastreo . URL de la frontera se forma recursiva visitadas de acuerdo con un conjunto de políticas. Si el rastreador está realizando el archivo de los sitios web se copia y guarda la información a medida que avanza. Los archivos se almacenan por lo general de tal manera que se puedan ver, leer y navegar como lo fueron en la web en directo, pero se conservan como "instantáneas".

El gran volumen implica al rastreador que sólo puede descargar un número limitado de las páginas Web en un tiempo determinado, por lo que necesita dar prioridad a sus descargas. La alta tasa de cambio puede implicar a las páginas que podría ya haber sido actualizados o incluso eliminado.

El número de posibles URL rastreadas siendo generados por el software del lado del servidor también ha hecho que sea difícil para los rastreadores web para evitar recuperar el contenido duplicado.

Un sinfín de combinaciones de HTTP GET existen parámetros (basados en URL), de los cuales sólo una pequeña selección anterior obtiene un contenido único. Por ejemplo, un simple galería de fotos en línea puede ofrecer tres opciones a los usuarios, tal como se especifica a través de parámetros HTTP GET en la URL. Si existen cuatro formas de ordenar las imágenes, tres opciones de tamaño miniatura, dos formatos de archivo, y una opción para desactivar el contenido proporcionado por el usuario, a continuación, el mismo conjunto de contenidos se puede acceder con 48 direcciones URL diferentes, todos los cuales pueden estar vinculados en el sitio. Esta combinación matemática crea un problema para los rastreadores, ya que deben ordenar a través de un sinfín de combinaciones de secuencias de comando, cambios relativamente menores con el fin de recuperar el contenido único.

"Teniendo en cuenta que el ancho de banda para la realización de rastreos no es ni infinito ni libre, se hace indispensable para rastrear la Web, no sólo en una forma escalable, pero eficiente, sino también alguna medida razonable de calidad o frescura debe ser mantenido." Un rastreador debe elegir con cuidado en cada paso qué página siguiente visitar siempre.

Política de Arrastre o Rastreo

El comportamiento de un buscador web es el resultado de una combinación de políticas:

  • una política de selección que establece las páginas de descarga,
  • una política de re-visita que establece cuándo debe buscar cambios en las páginas,
  • una política de cortesía que indica cómo evitar la sobrecarga de los sitios Web , y
  • una política de paralelización que indica la forma de coordinar los rastreadores web distribuidos

Política de selección

Teniendo en cuenta el tamaño actual de la Web, incluso los grandes motores de búsqueda cubren sólo una porción de la parte a disposición del público. Un estudio de 2009 mostró incluso a gran escala de los motores de búsqueda índice de no más de 40-70% de la Web indexable; un estudio previo realizado por Steve Lawrence y Lee Giles mostró que ningún motor de búsqueda indexa más de un 16% de la Web en 1999. Como rastreador siempre se descarga sólo una fracción de las páginas web, es altamente deseable para la fracción descargado poder contener las páginas más relevantes y no sólo una muestra aleatoria de la web.

Esto requiere una métrica de importancia para la priorización de las páginas Web. La importancia de una página es una función de su calidad intrínseca, su popularidad en términos de enlaces o visitas, e incluso de su URL (este último es el caso de los motores verticales de búsqueda restringidos a un único dominio de nivel superior, o motores de búsqueda restringidas a un sitio web fija). El diseño de una buena política de selección tiene una dificultad añadida: tiene que trabajar con información parcial, ya que el conjunto completo de páginas web no se conoce durante el rastreo.

Cho et al. hicieron el primer estudio sobre las políticas para el rastreo de programación. Su conjunto de datos estaba a 180.000 páginas se arrastran desde elstanford.edu de dominio, en el que una simulación de rastreo se realizó con diferentes estrategias. Las métricas de pedido probados fueron primero en amplitud, vínculo de retroceso recuento y parciales Pagerank cálculos. Una de las conclusiones fue que si el rastreador quiere descargar páginas con alto Pagerank temprana durante el proceso de rastreo, entonces la estrategia Pagerank parcial es la mejor, seguida de primero en amplitud y vínculo de retroceso de recuento. Sin embargo, estos resultados son para un solo dominio. Cho también escribió su Ph.D. tesis doctoral en Stanford en el rastreo web.

Referencias

  1. Kobayashi, Mei; Takeda, Koichi (1 de junio de 2000). «Information Retrieval on the Web». ACM Comput. Surv. 32 (2): 144-173. ISSN 0360-0300. doi:10.1145/358923.358934. Consultado el 8 de agosto de 2016. 
  2. . Archivado desde el original el 13 de diciembre de 2009. Consultado el 7 de agosto de 2016. 
  •   Datos: Q45842

araña, rastreador, indexador, indizador, araña, programa, informático, inspecciona, páginas, world, wide, forma, metódica, automatizada, usos, más, frecuentes, consiste, crear, copia, todas, páginas, visitadas, para, procesado, posterior, motor, búsqueda, inde. Un rastreador web indexador web indizador web o arana web es una programa informatico que inspecciona las paginas del World Wide Web de forma metodica y automatizada 1 Uno de los usos mas frecuentes que se les da consiste en crear una copia de todas las paginas web visitadas para su procesado posterior por un motor de busqueda que indexa las paginas proporcionando un sistema de busquedas rapido Las aranas web suelen ser bots 2 Las aranas web comienzan visitando una lista de URL identifica los hiperenlaces en dichas paginas y los anade a la lista de URL a visitar de manera recurrente de acuerdo a determinado conjunto de reglas La operacion normal es que se le da al programa un grupo de direcciones iniciales la arana descarga estas direcciones analiza las paginas y busca enlaces a paginas nuevas Luego descarga estas paginas nuevas analiza sus enlaces y asi sucesivamente Entre las tareas mas comunes de las aranas de la web tenemos Crear el indice de una maquina de busqueda Analizar los enlaces de un sitio para buscar links rotos Recolectar informacion de un cierto tipo como precios de productos para recopilar un catalogo Indice 1 Informacion general 2 Politica de Arrastre o Rastreo 2 1 Politica de seleccion 3 ReferenciasInformacion general EditarUn buen rastreador web comienza con una lista de direcciones URL para visitar llamado las semillas A medida que el rastreador visita estas direcciones URL identifica todos los hipervinculos en la pagina y los anade a la lista de URL para visitar llamada la frontera de rastreo URL de la frontera se forma recursiva visitadas de acuerdo con un conjunto de politicas Si el rastreador esta realizando el archivo de los sitios web se copia y guarda la informacion a medida que avanza Los archivos se almacenan por lo general de tal manera que se puedan ver leer y navegar como lo fueron en la web en directo pero se conservan como instantaneas El gran volumen implica al rastreador que solo puede descargar un numero limitado de las paginas Web en un tiempo determinado por lo que necesita dar prioridad a sus descargas La alta tasa de cambio puede implicar a las paginas que podria ya haber sido actualizados o incluso eliminado El numero de posibles URL rastreadas siendo generados por el software del lado del servidor tambien ha hecho que sea dificil para los rastreadores web para evitar recuperar el contenido duplicado Un sinfin de combinaciones de HTTP GET existen parametros basados en URL de los cuales solo una pequena seleccion anterior obtiene un contenido unico Por ejemplo un simple galeria de fotos en linea puede ofrecer tres opciones a los usuarios tal como se especifica a traves de parametros HTTP GET en la URL Si existen cuatro formas de ordenar las imagenes tres opciones de tamano miniatura dos formatos de archivo y una opcion para desactivar el contenido proporcionado por el usuario a continuacion el mismo conjunto de contenidos se puede acceder con 48 direcciones URL diferentes todos los cuales pueden estar vinculados en el sitio Esta combinacion matematica crea un problema para los rastreadores ya que deben ordenar a traves de un sinfin de combinaciones de secuencias de comando cambios relativamente menores con el fin de recuperar el contenido unico Teniendo en cuenta que el ancho de banda para la realizacion de rastreos no es ni infinito ni libre se hace indispensable para rastrear la Web no solo en una forma escalable pero eficiente sino tambien alguna medida razonable de calidad o frescura debe ser mantenido Un rastreador debe elegir con cuidado en cada paso que pagina siguiente visitar siempre Politica de Arrastre o Rastreo EditarEl comportamiento de un buscador web es el resultado de una combinacion de politicas una politica de seleccion que establece las paginas de descarga una politica de re visita que establece cuando debe buscar cambios en las paginas una politica de cortesia que indica como evitar la sobrecarga de los sitios Web y una politica de paralelizacion que indica la forma de coordinar los rastreadores web distribuidosPolitica de seleccion Editar Teniendo en cuenta el tamano actual de la Web incluso los grandes motores de busqueda cubren solo una porcion de la parte a disposicion del publico Un estudio de 2009 mostro incluso a gran escala de los motores de busqueda indice de no mas de 40 70 de la Web indexable un estudio previo realizado por Steve Lawrence y Lee Giles mostro que ningun motor de busqueda indexa mas de un 16 de la Web en 1999 Como rastreador siempre se descarga solo una fraccion de las paginas web es altamente deseable para la fraccion descargado poder contener las paginas mas relevantes y no solo una muestra aleatoria de la web Esto requiere una metrica de importancia para la priorizacion de las paginas Web La importancia de una pagina es una funcion de su calidad intrinseca su popularidad en terminos de enlaces o visitas e incluso de su URL este ultimo es el caso de los motores verticales de busqueda restringidos a un unico dominio de nivel superior o motores de busqueda restringidas a un sitio web fija El diseno de una buena politica de seleccion tiene una dificultad anadida tiene que trabajar con informacion parcial ya que el conjunto completo de paginas web no se conoce durante el rastreo Cho et al hicieron el primer estudio sobre las politicas para el rastreo de programacion Su conjunto de datos estaba a 180 000 paginas se arrastran desde elstanford edu de dominio en el que una simulacion de rastreo se realizo con diferentes estrategias Las metricas de pedido probados fueron primero en amplitud vinculo de retroceso recuento y parciales Pagerank calculos Una de las conclusiones fue que si el rastreador quiere descargar paginas con alto Pagerank temprana durante el proceso de rastreo entonces la estrategia Pagerank parcial es la mejor seguida de primero en amplitud y vinculo de retroceso de recuento Sin embargo estos resultados son para un solo dominio Cho tambien escribio su Ph D tesis doctoral en Stanford en el rastreo web Referencias Editar Kobayashi Mei Takeda Koichi 1 de junio de 2000 Information Retrieval on the Web ACM Comput Surv 32 2 144 173 ISSN 0360 0300 doi 10 1145 358923 358934 Consultado el 8 de agosto de 2016 See definition of scutter on FOAF Project s wiki Archivado desde el original el 13 de diciembre de 2009 Consultado el 7 de agosto de 2016 Datos Q45842Obtenido de https es wikipedia org w index php title Arana web amp oldid 136879872, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos