fbpx
Wikipedia

Wikipedia discusión:Bot/respaldo

Interlanguage specialities at eo:

  • Halló! At eo:Vikipedio:Sciindaĵoj#doublex you find a note / an abstract about valid interlanguage links from eo: to other languages which differ from the original titles. Regards eo:Vikipediisto:Gangleri - Gangleri 01:27 9 feb, 2005 (CET)

User:KocjoBot

I'm asking for permission to use KocjoBot (Python Wikipedia bot) on this WP. Primary mission will be updating interwiki links of all WP. So far the bot was and is running on :sl, :en:, :bs, :hr and :sr. Regards, --KocjoBot 20:47 23 nov 2005 (CET)

The place to do it is the local Village Pump. This page is for requests to bot operators. It would be nice if you could prove that you speak enough Spanish to be able to handle ambiguous cases, too. It's sort of an unofficial must-have. Taragüí @ 11:24 24 nov 2005 (CET)

Petición

Trasladado aquí

Traido del café

Carrera desenfrenada por correr un bot interwikis

¿Alguien ha visto cuantos bots para agregar enlaces interwiki corren cada día? Por ejemplo al escribir este mensaje estaban corriendo dos, ambos peleándose (imagino yo) los artículos que comienzan por L. Para ver el estado de la pelea abran la página de cambios recientes y seleccionen la opción mostrar bots.
Otros días creo haber visto más de cuatro bots trabajando al mismo tiempo. No he leído como funcionan, pero por el orden en que modifican las páginas pareciera que abren por turno cada una de las setentipicomil páginas de Wikipedia en castellano, buscan una o más de las páginas enlazadas por interwikis en una o varias de las otras wikipedias y se traen los interwikis adicionales que allí encuentran (también producen una lista de cambios para que bots en la Wikipedia en otros idiomas sepan cuales páginas cambiar). Una vez completada la vuelta arrancan de nuevo y así, ad vitam eternam. ¿Sería posible que los conductores de bots de interwiki, que imagino tienen las mejores intenciones, nos dieran la oportunidad de usar Wikipedia a los otros usuarios? (exageración hecha a propósito) Bastaría simplemente que se asignen “turnos de trabajo.” Se abre una lista con quienes están interesados en correr un bot que agregue interwikis y cada uno da una vuelta completa, o trabaja por un mes, y cede el turno a otro bot. Si lo desea que se anote nuevamente al final de la lista de turnos para una nueva vuelta. Obtendríamos el mismo resultado a un costo de conexión con el servidor bien inferior (a manera de ejemplo por este artículo pasaron tres bots este mes y ya hay tres veces más modificaciones de bots que de usuarios).

¿Opiniones? --Boticario 22:49 29 nov 2005 (CET)
Bueno, parece que el fregar se va a acabar... lo que no sabemos es exactamente cuándo. --Dodo 23:30 29 nov 2005 (CET)
¿Sabes cuanto tarda un bot en dar la vuelta a Wikipedia? ¿Sabes que los operadores de bots muchas veces tienen cuentas en varias wikis, y las aparentes coincidencias pueden deberse (por ejemplo) a que estén trabajando uno en la L de la wiki gallega y otro en la L de la wiki holandesa? ¿Sabes que hay muchas maneras de correr un bot (con o sin atención manual, con o sin sugerencias, etc.) y que dejarle el trabajo a un sólo operador equivale a dejar de hacerlo, porque supera con creces lo que una persona puede absorber?
Hay apenas un puñado de bots registrados. La mayoría no hace interwikis automáticos, sino que corre con el control de un supervisor. No tendría el menor sentido imponer más restricciones que las que ya hay. Taragüí @ 11:47 30 nov 2005 (CET)
¿Cuáles restricciones? Las que existan no son transparentes dado que Wikipedia:Bot no menciona ninguna, salvo registrarse. lo que se obtiene hasta ahora con sólo pedirlo. --Boticario 14:10 30 nov 2005 (CET)
Un robot-adicto como yo también cree que hay sobre-bot-interwikiciismo, o sea, muchos bots corriendo el script de interwikis y floodeando continuamente los historiales con lo que es más fácil que se escapen vandalismos en nuestra lista de seguimiento y cosas de ese estilo. Personalmente me parece el robot más aburrido y nunca uso ese script, además, creo que a pesar de lo que dice taragüí todos lo usan(mos) en modo autónomo, porque si no es realmente aburrido. Tal vez deberíamos usar más los robots para desambiguaciones o cosas personalizadas, los últimos trabajos de Orgullobot han sido geniales, etiquetando imagenes duplicadas en commons o artículos en los que hay una imagen que no existe. Conclusión, que el robot de interwikis está muy bien pero con correrlo semanalmente debería ser más que suficiente. Saludoooooos Yrithinnd (/dev/null) 15:33 30 nov 2005 (CET)
Sólo una apreciación: sobre-bot-interwikiciísmo lleva acento en la i. XD --Kokoo !! 17:29 30 nov 2005 (CET)
Pues yo no lo corro jamás de otro modo que con atención manual. Es muy aburrido, verdad, pero lo tengo en el background mientras hago otras cosas. O lo uso para desambiguar. O para corregir enlaces. Y nunca he notado que se me perdiera algo en la lista de seguimiento por ello.
Las restricciones son las que ves: pedir y obtener el consenso de la comunidad, que lo dará según la confianza que le merezca el peticionario. No es poco. Y los bots no autorizados se bloquean apenas vistos (yo lo he hecho unas cuantas veces ya). Taragüí @ 16:37 30 nov 2005 (CET)
Tomé una muestra del 50% de los (25) bots registrados. Eliminé los que no corren desde hace más de un mes y los que han corrido otra cosa que interwikis en sus últimas 500 modificaciones. Encontré tres bots que parecen correr de forma automática y dos que lo hacen de forma manual (criterio: inserción del primer interwiki de un artículo). Extrapolando a la población completa daría que hay aproximadamente seis bots que corren interwikis en forma automática cuando uno o dos sería suficiente. Esto representa 75.000 x 4 = 300.000 páginas bajadas de forma innecesaria desde los servidores de la Fundación cada vez que esos bots dan una vuelta a toda Wikipedia, ciclo que parece durar alrededor de 25 días (?).
En discusiones con usuarios que manejan bots me ha quedado el sabor de que ellos piensan que los recursos de la Fundación son en la práctica ilimitados, por lo que vale la pena la ganancia marginal de correr seis bots de interwikis en lugar de uno o dos. Esa ganancia es obtener exactamente los mismos interwikis, pero en un tiempo menor al ciclo de recorrido promedio de uno o dos bots.
Nombre Último cambio ¿Corre manual?
C-3POrao 28 nov No encontré evidencia en el historial de que corra en modo manual
Eskimbot 23 nov No encontré evidencia en el historial de que corra en modo manual
Chobot 30 nov No encontré evidencia en el historial de que corra en modo manual
FlaBot 30 nov Hay evidencias en el historial de que corre en modo manual
LeonardoRob0t 30 nov Hay evidencias en el historial de que corre en modo manual
--Boticario 18:37 30 nov 2005 (CET)
Pfff, órale, Boticario. Paramos los bots y te pones a buscar interwikis tú, ¿vale?--Orgullomoore - § 18:57 30 nov 2005 (CET)
No hombre, simplemente se refiere a no correrlos con tanta frecuencia, además en los cálculos de Boticario faltan datos, recorrer las 75000 páginas tarda unas 3 horas, el script de interwikis tiene que buscar 75000 páginas y sus correspondientes enlaces en otros idiomas, lo que supondrá en muchas casos multiplicar esa cifra por 4 ó 5 interwikis que tienen todos las páginas (si no son más) Yrithinnd (/dev/null) 19:19 30 nov 2005 (CET)
Afinando los datos con la información que aporta Yrithinnd nos queda que al correr uno o dos bots de interwikis en lugar de seis se ahorraría la escandalosamente grande cantidad de 1.200.000 páginas descargadas inútilmente por los bots en exceso y eso cada 25 días aproximadamente.
¿Realmente consideran que es demasiado pedir que se organicen por turnos? --Boticario 19:36 30 nov 2005 (CET)
Se los podría hacer funcionar por días. No sé nada sobre cómo se programan, pero quizás poner cada uno a una parte sólo de los artículos (uno de la A a la F, otro de la G a la...). Seguro que hay unas cuantas maneras de no hacer trabajo redundante. --Davidsevilla (dime, dime) 20:06 30 nov 2005 (CET)
Boticario olvida que:
  • las páginas descargadas por un bot son sensiblemente menos exigentes que las hechas por un navegador manual; normalmente bajan paquetes de 60 mediante la función de exportación, y no solicitan más que el texto exacto, a diferencia de los varios hits HTTP que representa una conexión manual;
  • varios bots operan también en otras wikis; si yo corro a Rembiapo pohyiete en w:ca, consultará también esta wiki para hacer los añadidos correspondientes. Lo mismo si Quistnix corre en w:nl, et cetera ad nauseam. Yo no puedo hacer lo que él hace (añadir los enlaces que hay de w:nl a w:es, pero no viceversa) ni él lo que yo (lo propio en w:ca);
  • los recursos no son ilimitados, cierto. Podrían haberse dejado de fastidiar con convertir todos los PNG a SVG (que imponen la carga extra de renderizar), por ejemplo. Dudo de que los bots representen un porcentaje muy elevado del insumo de recursos. Las estadísticas dadas más arriba no demuestran nada (sobre todo desde el momento que ignoran la optimización realizada por el uso de Especial:Export) a falta de comparación con otras prácticas optimizables.
En fin, no es que yo no considere que podríamos pasar de algún bot de los existentes. Pero la argumentación de Boticario me parece un caso típico de síndrome de Frankenstein (¿algún fan de la SF que se atreva al artículo?). Sugerir que es por el uso de bots que "el resto de usuarios no puede usar Wikipedia" me parece francamente pérfido. Taragüí @ 10:02 1 dic 2005 (CET)
Hola, tratas de ponerme palabras que no he dicho y aparentemente así desviar la discusión de lo estrictamente técnico a otros planos. No pongo en duda la utilidad de bots, sino el desperdicio en el que los usuarios que los manejan están incurriendo al correr en promedio seis bots de interwikis en forma automática al mismo tiempo:
  • Si las páginas descargadas por un bot son menos pesadas, quiere decir que 1.200.000 se multiplica por un valor más pequeño, pero siguen siendo 1.200.000 descargas inútiles. El promedio de caracteres de un artículo de Wikipedia en castellano es de 2.722 caracteres. Al menos esos 2.722 caracteres son descargados en promedio por cada una de esas lecturas.
  • Las 1.200.000 descargas desperdiciadas no pretenden contar el trabajo de esos bots cuando ese trabajo se origina desde otro idioma (listas de cambios). Igualmente no cuenta los bots que vienen a la Wikipedia en castellano y la recorren sin realizar cambios.
  • Tampoco cuentan otros trabajos útiles de los bots. Ellos incluyen el paso de a lo sumo un par de bots de interwikis en modo automático por período, el paso de tantos bots de interwikis que funcionen en modo manual como sea necesario, los bots de detección de supuestos vandalismos u errores ortográficos, los de corrección de enlaces a imágenes, etc. Ninguna de esas actividades está cuestionada por este planteamiento y fueron (o intentaron ser) excluidas de las cuentas que aparecen más arriba.
Bajando el nivel de la discusión un instante, me parece que sugerir que 1.200.000 descargas es una cifra despreciable sin aportar datos técnicos parece un acto de encubrimiento.
De las 685.000 descargas diarias de páginas de wikipedia en castellano (según las estadísticas oficiales), unas 48.000, es decir el 7%, corresponderían a descargas inútiles de bots. Si hay error en alguno de los elementos que llevaron a este cálculo, por favor indicarlo para que sea corregido.
--Boticario 12:16 1 dic 2005 (CET)
Has dicho textualmente: "¿Sería posible que los conductores de bots de interwiki, que imagino tienen las mejores intenciones, nos dieran la oportunidad de usar Wikipedia a los otros usuarios? (exageración hecha a propósito)". Un caso típico de paralipsis, íntegramente contenido en palabras que síhas dicho.
No he dicho que 1.200.000 descargas sean despreciables. He dicho que no hay pruebas de que haya 1.200.000 descargas de más. Para empezar, los datos son erróneos o sesgados; mi bot tarda 105 horas, no 3, en recorrer la base de datos buscando interwikis. Para seguir, no hay pruebas de que los bots (corran solos o no) recorran la base de datos entera. Imagino que habrá gente que los corre usando -number:x, haciendo la base de datos por trozos. Para finalizar, no veo ninguna prueba de que esas descargas estén desaprovechadas, salvo en la concepción estrechamente productivista que ignora que una tarea de verificación (aunque no produzca ninguna modificación) es un trabajo necesario.
Es posible que un sólo bot perfecto (que estuviese registrado en todas las wikis e hiciese contínua y regularmente el ciclo de la base de datos en todos los idiomas) hiciera perfectamente bien el trabajo. No hay tal bot, y de hecho es posible que la lentitud de los cálculos lo hiciese impráctico. Es una situación, muy habitual por otra parte, en la que un incremento de la precisión o eficiencia es una pérdida en velocidad; no veo una estimación fiable de la tasa de intercambio entre los dos bienes que me haga pensar que es preferible reducir la cantidad de bots.
Por último, y que te quede claro, no me opongo a proyectos de coordinación; me opongo a la retórica populista que has empleado y que insisto en calificar de pérfida. En lugar de ir al Café a ventilar tus sospechas de que los operadores de bots son responsables de las intermitencias en el funcionamiento de los servidores, podrías haber venido aquí con amabilidad a presentar una propuesta. Por mi parte, estás cosechando lo que sembraste. Taragüí @ 13:16 1 dic 2005 (CET)
Aunque ya he dicho que me parece excesivo el uso del interwiki.py. La cifra de 1.200.000 me parece una exageración. Probablemente no sean más de 300.000, muchísimas páginas no tienen interwikis y la media de interwikis andará en 4 ó 5 por página. Y por otra parte Taragüí tiene razón en la forma de descargar la información, además se puede configurar el robot para decir las páginas que descarga por "hit" en mi caso son 250 páginas. Las descargas son en formato raw, es decir, se descarga, única y exclusivamente el código raw, evitando la descarga de imágenes y la renderización del código wiki en html, que hoy por hoy es uno de los cuellos de botella de la granja de servidores (lo de renderizar). Por otra parte, todas las wikis usan los mismos servidores. Teniendo en cuenta que es: sólo representa el 3% de las visitas, tal vez deberías ir a en: a pedir explicaciones ya que ellos se llevan más del 60% de las consultas. El problema de rendimiento es de la fundación, un único usuario desde su casa (o 6, digo este número por los interwikis simultaneos) dificilmente colapsarán un proyecto que usan miles y miles de personas. Saludos Yrithinnd (/dev/null) 13:37 1 dic 2005 (CET)


¿Es una exageración el decir que el exceso de bots entorpece el uso de Wikipedia? si lees el texto que acabas de citar te darás cuenta que estoy de acuerdo contigo. Por otra parte, gracias por el consejo de no ventilar los problemas que considero graves en el café sino en un lugar más apropiado, pero ya lo intenté y la respuesta fue de rechazo por uno de los manejadores de bots. No dijiste (cito:) «He dicho que no hay pruebas de que haya 1.200.000 descargas de más», dijiste (cito:) «Sugerir que es por el uso de bots que "el resto de usuarios no puede usar Wikipedia" me parece francamente pérfido.» sin mencionar cifra alguna en ese mensaje. Por ello te solicité que regresaras al plano de las cifras en el que ahora te sitúas. Por mi parte, he afirmado que no conozco el detalle del funcionamiento de los bots, pero el número 1.200.000 descargas proviene de cuatro elementos fácilmente ajustables de forma independiente, su corrección hasta una cifra "más real" es por lo tanto de extrema sencillez. Como no están de acuerdo con este cálculo les pido ayuda para ajustarlo:

  1. A: Número de artículos de Wikipedia: 75.000
  2. B: Número de bots que recorren wikipedia en castellano buscando cuales interwikis agregar a cada artículo estimado en 6; mi hipótesis es que dos de ellos harían un trabajo de igual calidad por lo que habría 4 en exceso:
  3. C: Número de artículos en promedio en otros idiomas visitados por el bot para revisar un artículo local. No conozco esa cifra pero utilicé un dato aportado por Yrithinnd que la situaba en 4. Si lo corrijo con la cantidad de enlaces interwikis de Wikipedia en castellano (438.000, gracias bots) entre el número de archivos da 5,8 enlaces interwiki por artículo el resultado crecería.
Aunque no interviene en este cálculo cuando se cuenta por artículos, la forma de descarga optimizada de los bots ya fue tomada en cuenta, pero no veo como, el número de bytes por artículo en promedio sería inferior a 2.722 caracteres que es el tamaño promedio del fuente de un artículo. Simplemente opté por no hacer el cálculo en gygabytes sino en número de artículos, que es algo más cercano a lo que manejamos todos aquí.
A × B × C = 75.000 × 4 × 4 = 1.200.000
Contado en datos descargados eso equivale a 1.200.000 × 2.722bytes /(10243) = 3 gygabytes descargados en exceso.
--Boticario 18:10 1 dic 2005 (CET)

Una experiencia reciente

En los últimos días estaba experimentando con mi nuevo bot, como una forma de revisar que su funcionamiento no perjudica a la Wikipedia (en el sentido de que no exige un trabajo extra de verificación manual para corregir desastres). Como escenario de pruebas recorrí la totalidad de la base de datos de Wikipedia en ladino, alrededor de 50 páginas en total (no 75.000 como aquí), la mayoría sin interwikis o con un solo interwiki agregado manualmente antes del proceso. Sólo puedo decir que el proceso no tardó tres horas... tras más de 12 horas el proceso no ha terminado.

Segundo punto, aunque esto es un poco de especulación de mi parte: creo que el bot, para trabajar, utiliza el código raw de la base de datos y no el HTML que usamos la mayoría de los usuarios. Si esto es así el impacto sobre los servidores es relativamente bajo porque el mayor trabajo que realiza la granja de servidores no es la transferencia de información sino la generación de HTML a partir del código mediawiki. Corrijanme si estoy equivocado.

Carlos Th (M·C) 15:29 2 dic 2005 (CET)


Hola, si el modo raw es lo mismo que se obtiene a través de la página Especial:Export efectivamente contiene básicamente el fuente del artículo (lo que aparece en la caja de edición de artículos). Ahora bien, en mis cuentas sobre tráfico de bots de interwikis sólo tomo en cuenta el tamaño promedio del texto fuente del artículo, sin expansión de plantillas ni imágenes ni encabezados y sin embargo la suma que da sigue siendo muy grande.
Con respecto a que trabajo realiza la granja de servidores:
  • Para la inmensa mayoría de los usuarios que son los que no se conectan, las páginas son formateadas en html una sola vez y almacenadas en un cache. Cuando cambia el texto de la página, o el de una plantilla que aparece en su texto, se borra la página del cache y a la primera consulta de usuario anónimo ésta será re-formateada y almacenada (Esto es una aproximación, el cache squid puede ser entonado para no guardar páginas con poca frecuencia de visita, etc.).
  • Para los usuarios conectados, las páginas son formateadas en cada solicitud.
Las estadísticas publicadas no indican la relación precisa entre páginas descargadas por usuarios anónimos contra páginas descargadas por usuarios conectados.
--Boticario 18:20 2 dic 2005 (CET)
Yo no sé de tantos números como Boticario, pero lo que sí sé es que siempre me sorpredo de la de interwikis que no hay. Si te dedicas a Interwiki Link Checker verás de lo que estoy hablando. Conclusión: hay demasiado pocos bots trabajando en interwikis -Ecelan 11:02 3 dic 2005 (CET)
El robot no es capaz de encontrar nuevos interwikis, si una entrada no tiene ningún interwiki, el robot no se la añadirá, únicamente añadirá todos los interwikis posibles una vez que tenga uno, entonces el robot se encarga de seguir ese interwiki y ver los interwikis de la wikipedia correspondiente, así con todos los interwikis que va encontrando y cuando los ha revisado todos decide añadir, borrar y modificar. A boticario paso de responderle porque está encerrado en su opinión de que la lentitud wikipédica se debe a los robots, cosa que ni por asomo es cierta, el ancho de banda de wikipedia es el menor de los problemas que tiene la fundación. Yrithinnd (/dev/null) 19:12 3 dic 2005 (CET)
Gracias por responder en mi nombre mientras disfrutaba de un fin de semana en la playa. Estaré ausente también entre martes y viernes, por favor responde mis mensajes e interpreta mi ausencia con igual prestancia.
Sin embargo, debo decir que a tu respuesta hubiera agregado un matiz y es que el usuario que maneja bots puede colaborar con el proyecto que menciona Ecelan cuando lo hace funcionar en modo manual. Por supuesto los bots que funcionan en modo manual fueron explícitamente excluidos de las cuentas de desperdicio, las cuales sólo incluyen los bots corriendo automáticamente en exceso de dos.
También puse empeño en la tarea que me asignaste, (cito): «tal vez deberías ir a en: a pedir explicaciones ya que ellos se llevan más del 60% de las consultas». Allí encontré que los bots que van a recorrer de forma automática Wikipedia en inglés deben registrar esa característica y hay ocho de ellos actualmente registrados para ello. Ahora, hasta 8 bots por 850.326 artículos representa
un bot automático por cada 100.000 artículos en la Wikipedia en inglés
mientras que
en la Wikipedia en castellano tenemos en promedio
un bot automático por cada 12.500 artículos
(Allí otros doce bots hacen Interwikis a partir de listas provenientes del proceso de Wikipedia en otros idiomas). Con uno que otro más que se ponga a funcionar de forma automática llegaremos a igual núemro de bots recorriendo Wikipedia en castellano en forma automática por diez veces menos de artículos. Esta es una segunda cuenta independiente de la primera (independiente salvo por el número de bots recorriendo Wikipedia en castellano en forma automática) que mostraría igualmente el alto desperdicio en el que incurriríamos aquí.
--Boticario 23:55 4 dic 2005 (CET)

¿como funciona?

Bueno,¿como es que funciona un bot? ¿es automatico o uno lo programa?. bueno... eso. -Clerc 23:12 16 oct 2007 (CEST)

Volver a la página de proyecto «Bot/respaldo».

wikipedia, discusión, respaldo, Índice, interlanguage, specialities, user, kocjobot, petición, traido, café, carrera, desenfrenada, correr, interwikis, experiencia, reciente, como, funciona, interlanguage, specialities, editarhalló, vikipedio, sciindaĵoj, doub. Indice 1 Interlanguage specialities at eo 2 User KocjoBot 3 Peticion 4 Traido del cafe 5 Carrera desenfrenada por correr un bot interwikis 5 1 Una experiencia reciente 6 como funciona Interlanguage specialities at eo EditarHallo At eo Vikipedio Sciindaĵoj doublex you find a note an abstract about valid interlanguage links from eo to other languages which differ from the original titles Regards eo Vikipediisto Gangleri Gangleri 01 27 9 feb 2005 CET User KocjoBot EditarI m asking for permission to use KocjoBot Python Wikipedia bot on this WP Primary mission will be updating interwiki links of all WP So far the bot was and is running on sl en bs hr and sr Regards KocjoBot 20 47 23 nov 2005 CET The place to do it is the local Village Pump This page is for requests to bot operators It would be nice if you could prove that you speak enough Spanish to be able to handle ambiguous cases too It s sort of an unofficial must have Taragui 11 24 24 nov 2005 CET Peticion EditarTrasladado aquiTraido del cafe EditarCarrera desenfrenada por correr un bot interwikis Editar Alguien ha visto cuantos bots para agregar enlaces interwiki corren cada dia Por ejemplo al escribir este mensaje estaban corriendo dos ambos peleandose imagino yo los articulos que comienzan por L Para ver el estado de la pelea abran la pagina de cambios recientes y seleccionen la opcion mostrar bots Otros dias creo haber visto mas de cuatro bots trabajando al mismo tiempo No he leido como funcionan pero por el orden en que modifican las paginas pareciera que abren por turno cada una de las setentipicomil paginas de Wikipedia en castellano buscan una o mas de las paginas enlazadas por interwikis en una o varias de las otras wikipedias y se traen los interwikis adicionales que alli encuentran tambien producen una lista de cambios para que bots en la Wikipedia en otros idiomas sepan cuales paginas cambiar Una vez completada la vuelta arrancan de nuevo y asi ad vitam eternam Seria posible que los conductores de bots de interwiki que imagino tienen las mejores intenciones nos dieran la oportunidad de usar Wikipedia a los otros usuarios exageracion hecha a proposito Bastaria simplemente que se asignen turnos de trabajo Se abre una lista con quienes estan interesados en correr un bot que agregue interwikis y cada uno da una vuelta completa o trabaja por un mes y cede el turno a otro bot Si lo desea que se anote nuevamente al final de la lista de turnos para una nueva vuelta Obtendriamos el mismo resultado a un costo de conexion con el servidor bien inferior a manera de ejemplo por este articulo pasaron tres bots este mes y ya hay tres veces mas modificaciones de bots que de usuarios Opiniones Boticario 22 49 29 nov 2005 CET Bueno parece que el fregar se va a acabar lo que no sabemos es exactamente cuando Dodo 23 30 29 nov 2005 CET dd Sabes cuanto tarda un bot en dar la vuelta a Wikipedia Sabes que los operadores de bots muchas veces tienen cuentas en varias wikis y las aparentes coincidencias pueden deberse por ejemplo a que esten trabajando uno en la L de la wiki gallega y otro en la L de la wiki holandesa Sabes que hay muchas maneras de correr un bot con o sin atencion manual con o sin sugerencias etc y que dejarle el trabajo a un solo operador equivale a dejar de hacerlo porque supera con creces lo que una persona puede absorber Hay apenas un punado de bots registrados La mayoria no hace interwikis automaticos sino que corre con el control de un supervisor No tendria el menor sentido imponer mas restricciones que las que ya hay Taragui 11 47 30 nov 2005 CET dd Cuales restricciones Las que existan no son transparentes dado que Wikipedia Bot no menciona ninguna salvo registrarse lo que se obtiene hasta ahora con solo pedirlo Boticario 14 10 30 nov 2005 CET dd Un robot adicto como yo tambien cree que hay sobre bot interwikiciismo o sea muchos bots corriendo el script de interwikis y floodeando continuamente los historiales con lo que es mas facil que se escapen vandalismos en nuestra lista de seguimiento y cosas de ese estilo Personalmente me parece el robot mas aburrido y nunca uso ese script ademas creo que a pesar de lo que dice taragui todos lo usan mos en modo autonomo porque si no es realmente aburrido Tal vez deberiamos usar mas los robots para desambiguaciones o cosas personalizadas los ultimos trabajos de Orgullobot han sido geniales etiquetando imagenes duplicadas en commons o articulos en los que hay una imagen que no existe Conclusion que el robot de interwikis esta muy bien pero con correrlo semanalmente deberia ser mas que suficiente Saludoooooos Yrithinnd dev null 15 33 30 nov 2005 CET Solo una apreciacion sobre bot interwikiciismo lleva acento en la i XD Kokoo 17 29 30 nov 2005 CET dd Pues yo no lo corro jamas de otro modo que con atencion manual Es muy aburrido verdad pero lo tengo en el background mientras hago otras cosas O lo uso para desambiguar O para corregir enlaces Y nunca he notado que se me perdiera algo en la lista de seguimiento por ello Las restricciones son las que ves pedir y obtener el consenso de la comunidad que lo dara segun la confianza que le merezca el peticionario No es poco Y los bots no autorizados se bloquean apenas vistos yo lo he hecho unas cuantas veces ya Taragui 16 37 30 nov 2005 CET dd Tome una muestra del 50 de los 25 bots registrados Elimine los que no corren desde hace mas de un mes y los que han corrido otra cosa que interwikis en sus ultimas 500 modificaciones Encontre tres bots que parecen correr de forma automatica y dos que lo hacen de forma manual criterio insercion del primer interwiki de un articulo Extrapolando a la poblacion completa daria que hay aproximadamente seis bots que corren interwikis en forma automatica cuando uno o dos seria suficiente Esto representa 75 000 x 4 300 000 paginas bajadas de forma innecesaria desde los servidores de la Fundacion cada vez que esos bots dan una vuelta a toda Wikipedia ciclo que parece durar alrededor de 25 dias En discusiones con usuarios que manejan bots me ha quedado el sabor de que ellos piensan que los recursos de la Fundacion son en la practica ilimitados por lo que vale la pena la ganancia marginal de correr seis bots de interwikis en lugar de uno o dos Esa ganancia es obtener exactamente los mismos interwikis pero en un tiempo menor al ciclo de recorrido promedio de uno o dos bots Nombre Ultimo cambio Corre manual C 3POrao 28 nov No encontre evidencia en el historial de que corra en modo manualEskimbot 23 nov No encontre evidencia en el historial de que corra en modo manualChobot 30 nov No encontre evidencia en el historial de que corra en modo manualFlaBot 30 nov Hay evidencias en el historial de que corre en modo manualLeonardoRob0t 30 nov Hay evidencias en el historial de que corre en modo manual Boticario 18 37 30 nov 2005 CET Pfff orale Boticario Paramos los bots y te pones a buscar interwikis tu vale Orgullomoore 18 57 30 nov 2005 CET No hombre simplemente se refiere a no correrlos con tanta frecuencia ademas en los calculos de Boticario faltan datos recorrer las 75000 paginas tarda unas 3 horas el script de interwikis tiene que buscar 75000 paginas y sus correspondientes enlaces en otros idiomas lo que supondra en muchas casos multiplicar esa cifra por 4 o 5 interwikis que tienen todos las paginas si no son mas Yrithinnd dev null 19 19 30 nov 2005 CET dd Afinando los datos con la informacion que aporta Yrithinnd nos queda que al correr uno o dos bots de interwikis en lugar de seis se ahorraria la escandalosamente grande cantidad de 1 200 000 paginas descargadas inutilmente por los bots en exceso y eso cada 25 dias aproximadamente Realmente consideran que es demasiado pedir que se organicen por turnos Boticario 19 36 30 nov 2005 CET Se los podria hacer funcionar por dias No se nada sobre como se programan pero quizas poner cada uno a una parte solo de los articulos uno de la A a la F otro de la G a la Seguro que hay unas cuantas maneras de no hacer trabajo redundante Davidsevilla dime dime 20 06 30 nov 2005 CET Boticario olvida que las paginas descargadas por un bot son sensiblemente menos exigentes que las hechas por un navegador manual normalmente bajan paquetes de 60 mediante la funcion de exportacion y no solicitan mas que el texto exacto a diferencia de los varios hits HTTP que representa una conexion manual varios bots operan tambien en otras wikis si yo corro a Rembiapo pohyiete en w ca consultara tambien esta wiki para hacer los anadidos correspondientes Lo mismo si Quistnix corre en w nl et cetera ad nauseam Yo no puedo hacer lo que el hace anadir los enlaces que hay de w nl a w es pero no viceversa ni el lo que yo lo propio en w ca los recursos no son ilimitados cierto Podrian haberse dejado de fastidiar con convertir todos los PNG a SVG que imponen la carga extra de renderizar por ejemplo Dudo de que los bots representen un porcentaje muy elevado del insumo de recursos Las estadisticas dadas mas arriba no demuestran nada sobre todo desde el momento que ignoran la optimizacion realizada por el uso de Especial Export a falta de comparacion con otras practicas optimizables En fin no es que yo no considere que podriamos pasar de algun bot de los existentes Pero la argumentacion de Boticario me parece un caso tipico de sindrome de Frankenstein algun fan de la SF que se atreva al articulo Sugerir que es por el uso de bots que el resto de usuarios no puede usar Wikipedia me parece francamente perfido Taragui 10 02 1 dic 2005 CET dd dd dd dd Hola tratas de ponerme palabras que no he dicho y aparentemente asi desviar la discusion de lo estrictamente tecnico a otros planos No pongo en duda la utilidad de bots sino el desperdicio en el que los usuarios que los manejan estan incurriendo al correr en promedio seis bots de interwikis en forma automatica al mismo tiempo Si las paginas descargadas por un bot son menos pesadas quiere decir que 1 200 000 se multiplica por un valor mas pequeno pero siguen siendo 1 200 000 descargas inutiles El promedio de caracteres de un articulo de Wikipedia en castellano es de 2 722 caracteres Al menos esos 2 722 caracteres son descargados en promedio por cada una de esas lecturas Las 1 200 000 descargas desperdiciadas no pretenden contar el trabajo de esos bots cuando ese trabajo se origina desde otro idioma listas de cambios Igualmente no cuenta los bots que vienen a la Wikipedia en castellano y la recorren sin realizar cambios Tampoco cuentan otros trabajos utiles de los bots Ellos incluyen el paso de a lo sumo un par de bots de interwikis en modo automatico por periodo el paso de tantos bots de interwikis que funcionen en modo manual como sea necesario los bots de deteccion de supuestos vandalismos u errores ortograficos los de correccion de enlaces a imagenes etc Ninguna de esas actividades esta cuestionada por este planteamiento y fueron o intentaron ser excluidas de las cuentas que aparecen mas arriba Bajando el nivel de la discusion un instante me parece que sugerir que 1 200 000 descargas es una cifra despreciable sin aportar datos tecnicos parece un acto de encubrimiento De las 685 000 descargas diarias de paginas de wikipedia en castellano segun las estadisticas oficiales unas 48 000 es decir el 7 corresponderian a descargas inutiles de bots Si hay error en alguno de los elementos que llevaron a este calculo por favor indicarlo para que sea corregido dd dd Boticario 12 16 1 dic 2005 CET Has dicho textualmente Seria posible que los conductores de bots de interwiki que imagino tienen las mejores intenciones nos dieran la oportunidad de usar Wikipedia a los otros usuarios exageracion hecha a proposito Un caso tipico de paralipsis integramente contenido en palabras que sihas dicho No he dicho que 1 200 000 descargas sean despreciables He dicho que no hay pruebas de que haya 1 200 000 descargas de mas Para empezar los datos son erroneos o sesgados mi bot tarda 105 horas no 3 en recorrer la base de datos buscando interwikis Para seguir no hay pruebas de que los bots corran solos o no recorran la base de datos entera Imagino que habra gente que los corre usando number x haciendo la base de datos por trozos Para finalizar no veo ninguna prueba de que esas descargas esten desaprovechadas salvo en la concepcion estrechamente productivista que ignora que una tarea de verificacion aunque no produzca ninguna modificacion es un trabajo necesario Es posible que un solo bot perfecto que estuviese registrado en todas las wikis e hiciese continua y regularmente el ciclo de la base de datos en todos los idiomas hiciera perfectamente bien el trabajo No hay tal bot y de hecho es posible que la lentitud de los calculos lo hiciese impractico Es una situacion muy habitual por otra parte en la que un incremento de la precision o eficiencia es una perdida en velocidad no veo una estimacion fiable de la tasa de intercambio entre los dos bienes que me haga pensar que es preferible reducir la cantidad de bots Por ultimo y que te quede claro no me opongo a proyectos de coordinacion me opongo a la retorica populista que has empleado y que insisto en calificar de perfida En lugar de ir al Cafe a ventilar tus sospechas de que los operadores de bots son responsables de las intermitencias en el funcionamiento de los servidores podrias haber venido aqui con amabilidad a presentar una propuesta Por mi parte estas cosechando lo que sembraste Taragui 13 16 1 dic 2005 CET Aunque ya he dicho que me parece excesivo el uso del interwiki py La cifra de 1 200 000 me parece una exageracion Probablemente no sean mas de 300 000 muchisimas paginas no tienen interwikis y la media de interwikis andara en 4 o 5 por pagina Y por otra parte Taragui tiene razon en la forma de descargar la informacion ademas se puede configurar el robot para decir las paginas que descarga por hit en mi caso son 250 paginas Las descargas son en formato raw es decir se descarga unica y exclusivamente el codigo raw evitando la descarga de imagenes y la renderizacion del codigo wiki en html que hoy por hoy es uno de los cuellos de botella de la granja de servidores lo de renderizar Por otra parte todas las wikis usan los mismos servidores Teniendo en cuenta que es solo representa el 3 de las visitas tal vez deberias ir a en a pedir explicaciones ya que ellos se llevan mas del 60 de las consultas El problema de rendimiento es de la fundacion un unico usuario desde su casa o 6 digo este numero por los interwikis simultaneos dificilmente colapsaran un proyecto que usan miles y miles de personas Saludos Yrithinnd dev null 13 37 1 dic 2005 CET dd dd dd dd Es una exageracion el decir que el exceso de bots entorpece el uso de Wikipedia si lees el texto que acabas de citar te daras cuenta que estoy de acuerdo contigo Por otra parte gracias por el consejo de no ventilar los problemas que considero graves en el cafe sino en un lugar mas apropiado pero ya lo intente y la respuesta fue de rechazo por uno de los manejadores de bots No dijiste cito He dicho que no hay pruebas de que haya 1 200 000 descargas de mas dijiste cito Sugerir que es por el uso de bots que el resto de usuarios no puede usar Wikipedia me parece francamente perfido sin mencionar cifra alguna en ese mensaje Por ello te solicite que regresaras al plano de las cifras en el que ahora te situas Por mi parte he afirmado que no conozco el detalle del funcionamiento de los bots pero el numero 1 200 000 descargas proviene de cuatro elementos facilmente ajustables de forma independiente su correccion hasta una cifra mas real es por lo tanto de extrema sencillez Como no estan de acuerdo con este calculo les pido ayuda para ajustarlo A Numero de articulos de Wikipedia 75 000 B Numero de bots que recorren wikipedia en castellano buscando cuales interwikis agregar a cada articulo estimado en 6 mi hipotesis es que dos de ellos harian un trabajo de igual calidad por lo que habria 4 en exceso C Numero de articulos en promedio en otros idiomas visitados por el bot para revisar un articulo local No conozco esa cifra pero utilice un dato aportado por Yrithinnd que la situaba en 4 Si lo corrijo con la cantidad de enlaces interwikis de Wikipedia en castellano 438 000 gracias bots entre el numero de archivos da 5 8 enlaces interwiki por articulo el resultado creceria Aunque no interviene en este calculo cuando se cuenta por articulos la forma de descarga optimizada de los bots ya fue tomada en cuenta pero no veo como el numero de bytes por articulo en promedio seria inferior a 2 722 caracteres que es el tamano promedio del fuente de un articulo Simplemente opte por no hacer el calculo en gygabytes sino en numero de articulos que es algo mas cercano a lo que manejamos todos aqui A B C 75 000 4 4 1 200 000 Contado en datos descargados eso equivale a 1 200 000 2 722bytes 10243 3 gygabytes descargados en exceso dd Boticario 18 10 1 dic 2005 CET Una experiencia reciente Editar En los ultimos dias estaba experimentando con mi nuevo bot como una forma de revisar que su funcionamiento no perjudica a la Wikipedia en el sentido de que no exige un trabajo extra de verificacion manual para corregir desastres Como escenario de pruebas recorri la totalidad de la base de datos de Wikipedia en ladino alrededor de 50 paginas en total no 75 000 como aqui la mayoria sin interwikis o con un solo interwiki agregado manualmente antes del proceso Solo puedo decir que el proceso no tardo tres horas tras mas de 12 horas el proceso no ha terminado Segundo punto aunque esto es un poco de especulacion de mi parte creo que el bot para trabajar utiliza el codigo raw de la base de datos y no el HTML que usamos la mayoria de los usuarios Si esto es asi el impacto sobre los servidores es relativamente bajo porque el mayor trabajo que realiza la granja de servidores no es la transferencia de informacion sino la generacion de HTML a partir del codigo mediawiki Corrijanme si estoy equivocado Carlos Th M C 15 29 2 dic 2005 CET Hola si el modo raw es lo mismo que se obtiene a traves de la pagina Especial Export efectivamente contiene basicamente el fuente del articulo lo que aparece en la caja de edicion de articulos Ahora bien en mis cuentas sobre trafico de bots de interwikis solo tomo en cuenta el tamano promedio del texto fuente del articulo sin expansion de plantillas ni imagenes ni encabezados y sin embargo la suma que da sigue siendo muy grande Con respecto a que trabajo realiza la granja de servidores Para la inmensa mayoria de los usuarios que son los que no se conectan las paginas son formateadas en html una sola vez y almacenadas en un cache Cuando cambia el texto de la pagina o el de una plantilla que aparece en su texto se borra la pagina del cache y a la primera consulta de usuario anonimo esta sera re formateada y almacenada Esto es una aproximacion el cache squid puede ser entonado para no guardar paginas con poca frecuencia de visita etc Para los usuarios conectados las paginas son formateadas en cada solicitud Las estadisticas publicadas no indican la relacion precisa entre paginas descargadas por usuarios anonimos contra paginas descargadas por usuarios conectados Boticario 18 20 2 dic 2005 CET Yo no se de tantos numeros como Boticario pero lo que si se es que siempre me sorpredo de la de interwikis que no hay Si te dedicas a Interwiki Link Checker veras de lo que estoy hablando Conclusion hay demasiado pocos bots trabajando en interwikis Ecelan 11 02 3 dic 2005 CET dd El robot no es capaz de encontrar nuevos interwikis si una entrada no tiene ningun interwiki el robot no se la anadira unicamente anadira todos los interwikis posibles una vez que tenga uno entonces el robot se encarga de seguir ese interwiki y ver los interwikis de la wikipedia correspondiente asi con todos los interwikis que va encontrando y cuando los ha revisado todos decide anadir borrar y modificar A boticario paso de responderle porque esta encerrado en su opinion de que la lentitud wikipedica se debe a los robots cosa que ni por asomo es cierta el ancho de banda de wikipedia es el menor de los problemas que tiene la fundacion Yrithinnd dev null 19 12 3 dic 2005 CET dd dd Gracias por responder en mi nombre mientras disfrutaba de un fin de semana en la playa Estare ausente tambien entre martes y viernes por favor responde mis mensajes e interpreta mi ausencia con igual prestancia Sin embargo debo decir que a tu respuesta hubiera agregado un matiz y es que el usuario que maneja bots puede colaborar con el proyecto que menciona Ecelan cuando lo hace funcionar en modo manual Por supuesto los bots que funcionan en modo manual fueron explicitamente excluidos de las cuentas de desperdicio las cuales solo incluyen los bots corriendo automaticamente en exceso de dos Tambien puse empeno en la tarea que me asignaste cito tal vez deberias ir a en a pedir explicaciones ya que ellos se llevan mas del 60 de las consultas Alli encontre que los bots que van a recorrer de forma automatica Wikipedia en ingles deben registrar esa caracteristica y hay ocho de ellos actualmente registrados para ello Ahora hasta 8 bots por 850 326 articulos representa dd un bot automatico por cada 100 000 articulos en la Wikipedia en ingles mientras que dd en la Wikipedia en castellano tenemos en promedio un bot automatico por cada 12 500 articulos Alli otros doce bots hacen Interwikis a partir de listas provenientes del proceso de Wikipedia en otros idiomas Con uno que otro mas que se ponga a funcionar de forma automatica llegaremos a igual nuemro de bots recorriendo Wikipedia en castellano en forma automatica por diez veces menos de articulos Esta es una segunda cuenta independiente de la primera independiente salvo por el numero de bots recorriendo Wikipedia en castellano en forma automatica que mostraria igualmente el alto desperdicio en el que incurririamos aqui dd Boticario 23 55 4 dic 2005 CET como funciona EditarBueno como es que funciona un bot es automatico o uno lo programa bueno eso Clerc 23 12 16 oct 2007 CEST Obtenido de https es wikipedia org w index php title Wikipedia discusion Bot respaldo amp oldid 117820288 Volver a la pagina de proyecto Bot respaldo, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos