¿Cómo se entrena un modelo IA? Una mirada dentro de la caja negra.

Francisco Kemeny - La inteligencia artificial

De acuerdo a la publicación de Francisco Kemeny de LinkedIn, ¿Cómo se entrena un modelo IA? Una mirada dentro de la caja negra; Hace unos días atrás el Washington Post publicó un estudio que realizó en colaboración con investigadores del Allen Institute for AI para analizar y revelar que contenidos y conjuntos de datos fueron utilizados los entrenamientos de los modelos de Inteligencia Artificial. Y así aprender más sobre como funcionan estos modelos que muchas veces son cajas negras. El estudio tenia como fin ultimo identificar desde que sitios web y fuentes se extraía el contenido, obteniendo una vista en cuanto a calidad, sesgo, privacidad y aspectos legales de la información utilizada.

El análisis se centró específicamente en el conjunto de datos C4 de Google, una muestra masiva de 15 millones de sitios web utilizados para instruir algunos modelos de IA. C4 de Google, se utilizó para entrenar algunos modelos de IA, como el T5 y LLaMA de Facebook.
Estas son las principales fuentes utilizadas para el entrenamiento:


Banner_frasco-suscripcion-800x250

Dominio de Industria: Periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido son las industrias dominantes en el conjunto de datos C4, lo que podría explicar por qué estas áreas pueden verse amenazadas por la IA.

Fuentes Populares: Los tres sitios más importantes en el conjunto de datos son patents.google.com, wikipedia.org y scribd.com.

Sitios de Contenido Pirateado: Al menos 28 sitios, incluido b-ok.org, identificados como mercados de piratería por el gobierno de EE. UU., están presentes en el conjunto de datos.
Sitios con Información Privada: Algunos sitios en el top 100, como coloradovoters.info y flvoters.com, contienen información de registro de votantes a nivel estatal, lo que podría generar preocupaciones sobre el uso de dicha información personal por parte de modelos de IA.

Contenido sin Consentimiento: Los artistas y creadores no reciben compensación ni crédito cuando su trabajo se incluye en los datos de entrenamiento de IA, lo que podría dar lugar a desafíos legales.

Desconfianza en los Medios: Se encontraron medios con baja calificación de confiabilidad, como RT.com, breitbart.com y vdare.com, lo que puede llevar a la propagación de información errónea y sesgos.

Perspectiva Occidental en sitios religiosos: La mayoría de los sitios religiosos en el conjunto de datos son cristianos, reflejando una perspectiva occidental.

Blogs Personales: El conjunto de datos contiene más de 500,000 blogs personales de diversas plataformas como Medium, WordPress, Tumblr, Blogspot y LiveJournal.

Leer también: Inteligencia artificial, ‘streaming’ y web3

Filtros Inadecuados: A pesar de utilizar listas de palabras prohibidas y eliminar ciertos contenidos, el conjunto de datos incluye sitios como stormfront.org, kiwifarms.net y https://www.linkedin.com/redir/general-malware-page?url=4cha
n%2eorg, conocidos por su contenido ofensivo y extremista.

Es crucial comprender cómo se entrenan los Modelos de Lenguaje a Gran Escala (LLM), ya que tener un buen conocimiento de su funcionamiento puede mejorar nuestra habilidad para guiar una conversación con ellos.

Ingeneria de Prompts vs Prompts Ciegos

Un buen prompt puede apoyar en guiar la conversación, incluso ajustando los parámetros en la configuración del sistema. Sin embargo, en el caso de modelos como ChatGPT (a diferencia de las versiones personalizadas), no importa cuánto contexto se haya definido en la conversación, el modelo tenderá a regresar al punto medio común de la generación de la respuesta al prompt, basándose en su conocimiento original.

He hablado anteriormente sobre la ingeniería de prompts, que es un enfoque sistemático y eficaz para aprovechar al máximo los modelos de lenguaje. En resumen, la ingeniería de prompts implica identificar un problema, proponer soluciones mediante el diseño de prompts adecuados, validar estas soluciones mediante experimentación y aplicar mejoras continuas.

Consejos para escribir prompts de calidad:

Comprender el problema y decidir si usar un LLM es la solución adecuada.

Establecer un conjunto de demostraciones con entradas y salidas esperadas para medir eficazmente la precisión de los prompts.

Generar y probar varios candidatos a prompts utilizando diferentes enfoques, como zero-shot, one-shot, few-shot, etc.

Monitorear el token y el costo del uso del modelo como indicadores clave de la calidad de la respuesta del prompt.

Aplicar la metodología de «confiar pero verificar» y mejorar continuamente el rendimiento del prompt mediante ajustes y actualizaciones.

Por otro lado, el «Blind Prompting» es un enfoque menos organizado y menos riguroso en el diseño de prompts, con resultados de menor calidad. En este caso, las personas dependen de experiencias anecdóticas y ensayo y error, sin la construcción de una infraestructura sistemática para iterar en los prompts a lo largo del tiempo.

Buenos Prompts, Malos Prompts

Los buenos prompts son claros, concisos, específicos y dirigidos a obtener la información deseada del modelo de lenguaje. Los blind prompts, por otro lado, carecen de rigor, pueden ser ambiguos y tienden a ofrecer resultados de menor calidad debido a un enfoque poco sistemático en su diseño. Aquí presentamos ejemplos de ambos tipos de prompts.

Cuestionamiento directo:

Buen prompt: «¿Cuál es la capital de Francia?»

Mal prompt: «Francia es conocida por algunas cosas, como por su maravillosa capital.»
Extracción de información específica de un texto:

Buen prompt: «Extraiga la fecha mencionada en el siguiente texto: ‘La reunión se llevará a cabo el 12 de septiembre a las 3:00 PM.'»

Mal prompt: «En este texto, hay una referencia temporal: ‘La reunión se llevará a cabo el 12 de septiembre a las 3:00 PM.'»

Resolver problemas matemáticos:

Buen prompt: «Calcule el área de un círculo con un radio de 5 metros.»
Mal prompt: «Si tienes un círculo cuyo radio es de aproximadamente 5 metros, ¿cuánto espacio ocupa?»

Brindar consejos sobre un tema:

Buen prompt: «Proporcione cinco consejos para mejorar la eficiencia energética en el hogar.»

Mal prompt: «Hablemos de algunos consejos relacionados con la eficiencia energética y cómo nuestras casas pueden contribuir a ello.»
Para la generación de contenido:

Buen prompt: «Escriba un resumen de 100 palabras sobre los peligros de la contaminación plástica en los océanos.»

Mal prompt: «Los plásticos causan problemas en los océanos, ¿puedes escribir brevemente acerca de ello?»

En cada par de ejemplos, el buen prompt proporciona una instrucción clara y específica que guía al modelo de lenguaje hacia la respuesta deseada, mientras que el blind prompt es más ambiguo, dejando espacio para interpretaciones diversas y resultados menos precisos.

Cabe mencionar que los prompts no cambian el peso de los modelos, sino que solo guían la generación de texto. Tal como se mencionó antes, el término «one-shot learning» y similares puede ser malinterpretado, ya que los modelos de lenguaje no están «aprendiendo» en el sentido clásico, sino utilizando el contexto brindado por los prompts para guiar la generación de texto.

¡Hola! Soy Francisco Kemeny, y tengo más de 20 años de experiencia en marketing y creación de contenido con una tremenda pasión por internet. Utilizo mi experiencia en marketing y diseño de productos para ayudar a las empresas a crear experiencias de usuario seguras y agradables y contenido atractivo.

He trabajado con destacados líderes mundiales de mercado, startups y marcas locales, ayudando a sus organizaciones a transformar y madurar sus capacidades de marketing digital y de contenido.

Con un profundo conocimiento del panorama digital y una pasión por la innovación, me esfuerzo por brindar a mis clientes las últimas tendencias en tecnología y diseño de experiencia de usuario.

Mi misión es unificar el aprendizaje y la implementación de la inteligencia artificial para todos, a través de contenidos educativos accesibles y fáciles de entender, brindando herramientas y recursos para facilitar el proceso y apoyando a la comunidad en su viaje hacia el conocimiento y uso de la IA.

Banner_azules
Reciba las últimas noticias de la industria en su casilla:

Suscribirse ✉