fbpx
Wikipedia

Web scraping

Web scraping o raspado web, es una técnica utilizada mediante programas de software para extraer información de sitios web.[1]​ Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.

El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda. Sin embargo, el web scraping se enfoca más en la transformación de datos sin estructura en la web (como el formato HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento. Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs. También es utilizado para obtener información relevante de un sitio a través de los rich snippets.

En los últimos años el web scraping se ha convertido en una técnica muy utilizada dentro del sector del posicionamiento web gracias a su capacidad de generar grandes cantidades de datos para crear contenidos de calidad.[2]

Técnicas

Web scraping es el proceso de recopilar información de forma automática de la Web. Es un campo con desarrollos activos, compartiendo un propósito en común con la visión de la Web semántica. Utiliza soluciones prácticas basadas en tecnologías existentes que son comúnmente ad hoc. Existen distintos niveles de automatización que las existentes tecnologías de Web Scraping pueden brindar:

  • «Copiar y pegar» humano: algunas veces incluso las mejores técnicas de web scraping no pueden reemplazar el examen manual de un humano, y a veces esta puede ser la única vía de solución cuando el sitio que tenemos en mente pone ciertas barreras para prevenir que se creen softwares para realizar tareas automáticas en este.
  • Uso de expresiones regulares: una posible vía para extraer información de páginas webs pueden ser las expresiones regulares, aunque comúnmente no se recomienda utilizarlas para parsear el formato HTML.
  • Protocolo HTTP: páginas webs estáticas y dinámicas pueden ser obtenidas haciendo peticiones HTTP al servidor remoto utilizando sockets, etc.
  • Algoritmos de minería de datos: muchos sitios webs tienen grandes colecciones de páginas generadas dinámicamente a partir de una base de datos. Datos de la misma categoría aparecen usualmente en páginas similares mediante un script o una plantilla. En la minería de datos, un programa detecta estas plantillas en un contexto específico y extrae su contenido.
  • Parsers de HTML: Algunos lenguajes, como XQuery y HTQL pueden ser utilizados para parsear documentos, recuperar y transformar el contenido de documentos HTML.
  • Aplicaciones para web scraping: existen muchas aplicaciones disponibles que pueden ser utilizadas para personalizar soluciones de Web Scraping. Estas aplicaciones podrían reconocer automáticamente la estructura de cierta página o brindar una interfaz al usuario donde este pudiera seleccionar los campos que son de interés dentro del documento. De esta forma no es necesario escribir manualmente código para realizar estas tareas.
  • Reconocimiento de información semántica: las páginas que son analizadas podrían incluir metadatos o cierta información semántica como anotaciones o comentarios, los cuales pueden ser usados comúnmente. Si estas anotaciones están en las mismas páginas, como sucede con los microformatos, estas podrían ser de utilidad cuando parseamos el DOM del documento. En otro caso, las anotaciones, organizadas en una capa semántica, son almacenadas y manejadas de forma separada desde otras páginas, por lo que los scrapers pueden recuperar estos esquemas y las instrucciones desde esta capa antes de analizar los documentos.

Cuestiones legales

El web scraping pudiera ir en contra de los términos de uso de algunos sitios webs. El cumplimiento de estos términos no está totalmente claro. Mientras que la duplicación de expresiones originales puede ser en muchos casos ilegal, en Estados Unidos la corte dictó en el caso Feist Publications v. Rural Telephone Service que la duplicación de hechos es permitida. Las cortes de Estados Unidos en ciertas ocasiones han reconocido que ciertos usos de los scrapers no deberían estar permitidos. Podría considerarse una computadora como una propiedad personal, y de esta forma el scraper estaría entrando sin autorización en esta propiedad. En el caso más conocido, eBay vs Bidder's Edge, la segunda empresa tuvo que parar de realizar peticiones automáticas al sitio de eBay. En este caso, Bidder's Edge pujaba automáticamente por ciertos productos en este sitio.

Uno de las principales pruebas de scraping involucró a American Airlines y a una empresa llamada FareChase. American Airlines ganó esta batalla, haciendo que FareChase parara de vender un software que le permitía a los usuarios comparar tarifas en línea si el sitio de American Airlines era incluido. La aerolínea dijo que las búsquedas de FareChase entraban sin autorización en los servidores cuando recopilaban la información públicamente disponible.

Aunque las decisiones actualmente tomadas no son uniformes, es difícil ignorar que un patrón está emergiendo, en el cual podemos ver que las cortes están preparándose para proteger el contenido propietario en sitios webs comerciales, previendo de esta forma que este sea utilizado sin el consentimiento de los propietarios de los sitios. Sin embargo, el grado de protección de estos contenidos aún no está establecido, y dependerá del tipo de acceso realizado por los scrapers, de la cantidad de información recopilada y del grado en el que afecten estos factores al propietario del sitio web.

Medidas para detener a los scrapers

El administrador de un sitio web puede utilizar varias técnicas para detener o disminuir los pedidos de los scrapers. Algunas técnicas incluyen:

  • Añadir entradas al fichero robots.txt. Algunos bots pueden ser detenidos de esta forma. Hay personas que piensan que el bot de Google puede ser detenido así, cosa que el propio buscador ha negado.
  • Bloquear la dirección IP. Esto también bloqueará todos los accesos desde esa misma IP, por lo que los usuarios no podrán navegar por el sitio web si acceden desde esta.
  • Deshabilitar cualquier interfaz de programación de aplicaciones que el sitio web pudiera estar brindando.
  • Los bots o scrapers algunas veces declaran quienes son, y gracias a esto pueden ser bloqueados. «Googlebot» es un ejemplo. Algunos scrapers no hacen lo que el bot de G., para que no se pueda distinguir entre un navegador común y ellos.
  • Monitorear el exceso de tráfico proveniente de cierta IP.
  • Añadir un captcha u otro sistema de verificación manual al sitio web. No se garantiza el completo bloqueo de los scrapers, pero mediante esta técnica se dificulta el acceso de los mismos a los sitios webs.
  • Servicios comerciales antibots: algunas empresas ofrecen servicios antibots y antiscraping.
  • Incrementar el uso de JavaScript y AJAX. De esta forma es más difícil para los scrapers simular las peticiones como si fueran un navegador común, aunque hará que usuarios legítimos dejen de poder ver la página.

La mayoría de estos métodos suponen una merma importante en la usabilidad del sitio web en cuestión y los beneficios pueden ser muy puntuales.

Beneficios

Pese al planteamiento negativo de ciertos sectores, el rastreo automático y scraping son muy importantes para mantener la historia de Internet. Las iniciativas de archivado web se basan mayoritariamente en esta técnica.

Herramientas notables

Véase también

Referencias

  1. Martí, Marq (8 de abril de 2016). (html). Sitelab España. Archivado desde el original el 29 de julio de 2017. Consultado el 30 de marzo de 2020. «El web scraping es una técnica que sirve para extraer información de páginas web de forma automatizada. Si traducimos del inglés su significado vendría a significar algo así como “escarbar una web”.» 
  2. Martí, Marq (8 de abril de 2016). (html). Sitelab España. Archivado desde el original el 29 de julio de 2017. Consultado el 30 de marzo de 2020. «Para controlar la imagen y la visibilidad de nuestra marca en internet: a través de un scrapeo podemos automatizar la posición por la que varios artículos de nuestra web se posicionan en Google o, por ejemplo, controlar la presencia del nombre de nuestra marca en determinados foros. Ejemplo: rastrear la posición en Google de todas las entradas de nuestro blog.» 
  •   Datos: Q665452

scraping, este, artículo, sección, necesita, referencias, aparezcan, publicación, acreditada, este, aviso, puesto, junio, 2014, raspado, técnica, utilizada, mediante, programas, software, para, extraer, información, sitios, usualmente, estos, programas, simula. Este articulo o seccion necesita referencias que aparezcan en una publicacion acreditada Este aviso fue puesto el 1 de junio de 2014 Web scraping o raspado web es una tecnica utilizada mediante programas de software para extraer informacion de sitios web 1 Usualmente estos programas simulan la navegacion de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente o incrustando un navegador en una aplicacion El web scraping esta muy relacionado con la indexacion de la web la cual indexa la informacion de la web utilizando un robot y es una tecnica universal adoptada por la mayoria de los motores de busqueda Sin embargo el web scraping se enfoca mas en la transformacion de datos sin estructura en la web como el formato HTML en datos estructurados que pueden ser almacenados y analizados en una base de datos central en una hoja de calculo o en alguna otra fuente de almacenamiento Alguno de los usos del web scraping son la comparacion de precios en tiendas la monitorizacion de datos relacionados con el clima de cierta region la deteccion de cambios en sitios webs y la integracion de datos en sitios webs Tambien es utilizado para obtener informacion relevante de un sitio a traves de los rich snippets En los ultimos anos el web scraping se ha convertido en una tecnica muy utilizada dentro del sector del posicionamiento web gracias a su capacidad de generar grandes cantidades de datos para crear contenidos de calidad 2 Indice 1 Tecnicas 2 Cuestiones legales 3 Medidas para detener a los scrapers 4 Beneficios 5 Herramientas notables 6 Vease tambien 7 ReferenciasTecnicas EditarWeb scraping es el proceso de recopilar informacion de forma automatica de la Web Es un campo con desarrollos activos compartiendo un proposito en comun con la vision de la Web semantica Utiliza soluciones practicas basadas en tecnologias existentes que son comunmente ad hoc Existen distintos niveles de automatizacion que las existentes tecnologias de Web Scraping pueden brindar Copiar y pegar humano algunas veces incluso las mejores tecnicas de web scraping no pueden reemplazar el examen manual de un humano y a veces esta puede ser la unica via de solucion cuando el sitio que tenemos en mente pone ciertas barreras para prevenir que se creen softwares para realizar tareas automaticas en este Uso de expresiones regulares una posible via para extraer informacion de paginas webs pueden ser las expresiones regulares aunque comunmente no se recomienda utilizarlas para parsear el formato HTML Protocolo HTTP paginas webs estaticas y dinamicas pueden ser obtenidas haciendo peticiones HTTP al servidor remoto utilizando sockets etc Algoritmos de mineria de datos muchos sitios webs tienen grandes colecciones de paginas generadas dinamicamente a partir de una base de datos Datos de la misma categoria aparecen usualmente en paginas similares mediante un script o una plantilla En la mineria de datos un programa detecta estas plantillas en un contexto especifico y extrae su contenido Parsers de HTML Algunos lenguajes como XQuery y HTQL pueden ser utilizados para parsear documentos recuperar y transformar el contenido de documentos HTML Aplicaciones para web scraping existen muchas aplicaciones disponibles que pueden ser utilizadas para personalizar soluciones de Web Scraping Estas aplicaciones podrian reconocer automaticamente la estructura de cierta pagina o brindar una interfaz al usuario donde este pudiera seleccionar los campos que son de interes dentro del documento De esta forma no es necesario escribir manualmente codigo para realizar estas tareas Reconocimiento de informacion semantica las paginas que son analizadas podrian incluir metadatos o cierta informacion semantica como anotaciones o comentarios los cuales pueden ser usados comunmente Si estas anotaciones estan en las mismas paginas como sucede con los microformatos estas podrian ser de utilidad cuando parseamos el DOM del documento En otro caso las anotaciones organizadas en una capa semantica son almacenadas y manejadas de forma separada desde otras paginas por lo que los scrapers pueden recuperar estos esquemas y las instrucciones desde esta capa antes de analizar los documentos Cuestiones legales EditarEl web scraping pudiera ir en contra de los terminos de uso de algunos sitios webs El cumplimiento de estos terminos no esta totalmente claro Mientras que la duplicacion de expresiones originales puede ser en muchos casos ilegal en Estados Unidos la corte dicto en el caso Feist Publications v Rural Telephone Service que la duplicacion de hechos es permitida Las cortes de Estados Unidos en ciertas ocasiones han reconocido que ciertos usos de los scrapers no deberian estar permitidos Podria considerarse una computadora como una propiedad personal y de esta forma el scraper estaria entrando sin autorizacion en esta propiedad En el caso mas conocido eBay vs Bidder s Edge la segunda empresa tuvo que parar de realizar peticiones automaticas al sitio de eBay En este caso Bidder s Edge pujaba automaticamente por ciertos productos en este sitio Uno de las principales pruebas de scraping involucro a American Airlines y a una empresa llamada FareChase American Airlines gano esta batalla haciendo que FareChase parara de vender un software que le permitia a los usuarios comparar tarifas en linea si el sitio de American Airlines era incluido La aerolinea dijo que las busquedas de FareChase entraban sin autorizacion en los servidores cuando recopilaban la informacion publicamente disponible Aunque las decisiones actualmente tomadas no son uniformes es dificil ignorar que un patron esta emergiendo en el cual podemos ver que las cortes estan preparandose para proteger el contenido propietario en sitios webs comerciales previendo de esta forma que este sea utilizado sin el consentimiento de los propietarios de los sitios Sin embargo el grado de proteccion de estos contenidos aun no esta establecido y dependera del tipo de acceso realizado por los scrapers de la cantidad de informacion recopilada y del grado en el que afecten estos factores al propietario del sitio web Medidas para detener a los scrapers EditarEl administrador de un sitio web puede utilizar varias tecnicas para detener o disminuir los pedidos de los scrapers Algunas tecnicas incluyen Anadir entradas al fichero robots txt Algunos bots pueden ser detenidos de esta forma Hay personas que piensan que el bot de Google puede ser detenido asi cosa que el propio buscador ha negado Bloquear la direccion IP Esto tambien bloqueara todos los accesos desde esa misma IP por lo que los usuarios no podran navegar por el sitio web si acceden desde esta Deshabilitar cualquier interfaz de programacion de aplicaciones que el sitio web pudiera estar brindando Los bots o scrapers algunas veces declaran quienes son y gracias a esto pueden ser bloqueados Googlebot es un ejemplo Algunos scrapers no hacen lo que el bot de G para que no se pueda distinguir entre un navegador comun y ellos Monitorear el exceso de trafico proveniente de cierta IP Anadir un captcha u otro sistema de verificacion manual al sitio web No se garantiza el completo bloqueo de los scrapers pero mediante esta tecnica se dificulta el acceso de los mismos a los sitios webs Servicios comerciales antibots algunas empresas ofrecen servicios antibots y antiscraping Incrementar el uso de JavaScript y AJAX De esta forma es mas dificil para los scrapers simular las peticiones como si fueran un navegador comun aunque hara que usuarios legitimos dejen de poder ver la pagina La mayoria de estos metodos suponen una merma importante en la usabilidad del sitio web en cuestion y los beneficios pueden ser muy puntuales Beneficios EditarPese al planteamiento negativo de ciertos sectores el rastreo automatico y scraping son muy importantes para mantener la historia de Internet Las iniciativas de archivado web se basan mayoritariamente en esta tecnica Herramientas notables EditarUIPath Apache Camel Automation Anywhere Convertigo cURL Data Toolbar Firebug Greasemonkey HtmlUnit Node js HTTrack iMacros Aptana Jaxer nokogiri watir Wget WSO2 Mashup Server HtmlAgilityPack BeautifulSoup ScrapyVease tambien EditarMineria de datos Mashup aplicacion web hibrida Spamdexing Corpus linguistico Arana web Metadato Screen scraping Referencias Editar Marti Marq 8 de abril de 2016 Que es el Web scraping Introduccion y herramientas html Sitelab Espana Archivado desde el original el 29 de julio de 2017 Consultado el 30 de marzo de 2020 El web scraping es una tecnica que sirve para extraer informacion de paginas web de forma automatizada Si traducimos del ingles su significado vendria a significar algo asi como escarbar una web Marti Marq 8 de abril de 2016 Que es el Web scraping Introduccion y herramientas html Sitelab Espana Archivado desde el original el 29 de julio de 2017 Consultado el 30 de marzo de 2020 Para controlar la imagen y la visibilidad de nuestra marca en internet a traves de un scrapeo podemos automatizar la posicion por la que varios articulos de nuestra web se posicionan en Google o por ejemplo controlar la presencia del nombre de nuestra marca en determinados foros Ejemplo rastrear la posicion en Google de todas las entradas de nuestro blog Datos Q665452 Obtenido de https es wikipedia org w index php title Web scraping amp oldid 141828329, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos