El auge de la IA se basa en los datos, los datos proceden de Internet e Internet procede de nosotros.
Un análisis del Washington Post de un conjunto de datos públicos ampliamente utilizado para entrenar a las IA muestra hasta qué punto la industria actual de la IA ha experimentado con el tesoro de 30 años de publicaciones web para guiar sus redes neuronales.
Porqué es importante: ¿Has escrito alguna vez un blog? ¿Has creado una página web? ¿Participado en un hilo de Reddit? Es probable que tus palabras hayan contribuido a la educación de los chatbots de inteligencia artificial de todo el mundo.
Enresumen: aunque esta reutilización verbal masiva está provocando una importante lucha legal sobre si debe tratarse como uso legítimo o como robo, también está inspirando un ajuste de cuentas personal para muchos de los millones de personas cuyos mensajes construyeron el mundo en línea actual.
Pensábamos que compartíamos nuestros corazones y nuestras mentes, y por supuesto que lo hacíamos.
- Pero, sin darnos cuenta, también estábamos creando una base de datos incompleta pero rica en expresiones humanas.
- Esta base de datos hace posible la extrañamente hábil gimnasia de completar frases de ChatGPT y sus competidores.
Como las herramientas visuales de IA como Dall-E, Midjourney y Stable Diffusion se hicieron populares antes de que los chatbots verbales como ChatGPT despegaran, los creadores visuales -fotógrafos, ilustradores y artistas plásticos- fueron los primeros en enfrentarse a esta realidad.
- Los músicos se enfrentan al mismo tipo de epifanía al encontrar facsímiles de su trabajo, como la colaboración (que nunca se produjo) de la semana pasada entre Drake y The Weeknd, «Heart on My Sleeve».
Pero somos muchos más los que tecleamos algunas palabras en Internet que los que hemos grabado canciones o hecho dibujos.
- El proyecto del Washington Post permite introducir cualquier nombre de dominio de Internet para ver si ha contribuido a una base de datos de entrenamiento de IA y en qué medida (no es la misma que OpenAI utilizó para ChatGPT o sus otros proyectos; OpenAI no hizo públicas sus fuentes de datos de entrenamiento)
- el equipo del Post descubrió que «el conjunto de datos contenía más de medio millón de blogs personales, que representaban el 3,8%» del total de «tokens», o fragmentos discretos de lenguaje, de los datos. (No aparecen las publicaciones en plataformas de redes sociales como Facebook, Instagram y Twitter, ya que estas empresas se reservan el acceso a sus datos)
Nota: Estas bases de datos de formación son enormes, pero difícilmente representativas. Algunas culturas, grupos y sujetos están sobremuestreados; muchos otros están injustamente desatendidos. Y todos los sesgos, limitaciones y aspectos tóxicos de la cultura de Internet aparecen en los datos de entrenamiento de la IA.
- Si usted tiene algún tipo de historial en línea, la oportunidad de autoexamen que ofrece la búsqueda del Post es irresistible, como googlear su propio nombre. (Hay una herramienta de búsqueda similar llamada«¿He sido entrenado?» para ayudas visuales)
- Cuando encuentres tu puesto en la lista, probablemente te preguntarás, como yo: «¿Es esto lo que yo quería?» y «¿Por qué no se meconsultó?» y «¿Y si hubiera sabido que esto iba a pasar?»
Sé inteligente: el ansia de datos de entrenamiento de la IA arroja una nueva luz sobre los 30 años de historia de la popular Internet.
- Los avances actuales de la IA no podrían producirse sin la disponibilidad de las reservas digitales y los vertederos de información, ideas y sentimientos que Internet ha llevado a la gente a producir.
- Pero todo esto lo producimos los unos para los otros, no para la IA.
Desde este punto de vista, la existencia de estos vastos «cadáveres» de datos fue una consecuencia imprevista profundamente importante de la aparición de la propia web.
- En 1995, cuando una generación se enamoró de la «www» y el navegador, o diez años más tarde, cuando otra generación celebró la llegada de los blogs y la «sabiduría de la multitud», este resultado quedó oculto a la vista.
- A principios de la década de 2010, los movimientos de la revolución del aprendizaje automático empezaron a inquietar a algunos expertos. Pero hacía falta echar un vistazo muy largo para intuir que toda la web podría estar a punto de convertirse en forraje de entrenamiento para la IA.
Hoy, esa consecuencia imprevista está en el centro de nuestra experiencia en línea, recordándonos que todo lo que estamos haciendo ahora con y para la IA moldeará a su vez el futuro de formas que no podemos predecir.
- Porejemplo: si desatamos una avalancha de simulacros en nuestras redes públicas, corremos el riesgo de disuadir a la gente de seguir compartiendo, o incluso creando, su propio trabajo original.
- Esto podría dejar a los futuros modelos de IA atascados para siempre con la producción congelada de la humanidad en torno a 2000-2020, sin nada nuevo que aprender.
Con contenido de Axios.