La importancia de la diversidad en la IA no es una opinión, es matemática

compromiso con el cliente, IA, Inteligencia Artificial

Todos queremos ver nuestros valores humanos ideales reflejados en nuestras tecnologías. Esperamos que las tecnologías como la inteligencia artificial (IA) no nos mientan, no discriminen y sean seguras para nosotros y nuestros hijos. Sin embargo, muchos creadores de IA están enfrentando críticas por los sesgos, inexactitudes y prácticas problemáticas de datos que se están revelando en sus modelos. Estos problemas requieren más que una solución técnica, algorítmica o basada en IA. En realidad, se requiere un enfoque holístico y socio-técnico.

Las matemáticas demuestran una verdad poderosa

Todos los modelos predictivos, incluida la IA, son más precisos cuando incorporan una diversidad de inteligencia y experiencia humana. Esto no es una opinión, tiene validez empírica. Considera el teorema de predicción de la diversidad. En pocas palabras, cuando la diversidad en un grupo es grande, el error de la multitud es pequeño, lo que respalda el concepto de «la sabiduría de la multitud». En un estudio influyente, se demostró que grupos diversos de solucionadores de problemas con habilidades bajas pueden superar a grupos de solucionadores de problemas con habilidades altas (Hong y Page, 2004).


Banner_frasco-suscripcion-800x250

Vea también: Encuesta: La IA sigue siendo relevante para los consumidores

Un estudio adicional proporcionó más cálculos que refinan las definiciones estadísticas de una multitud sabia, incluyendo la ignorancia de las predicciones de otros miembros y la inclusión de aquellos con predicciones o juicios máximamente diferentes (negativamente correlacionados). Por lo tanto, no es solo el volumen, sino la diversidad lo que mejora las predicciones. ¿Cómo podría afectar esta idea a la evaluación de los modelos de IA?

La precisión del modelo (inexactitud)

Como dice un dicho común, todos los modelos son incorrectos. Esto es cierto en las áreas de estadísticas, ciencia e IA. Los modelos creados sin experiencia en el dominio pueden llevar a resultados erróneos.

Hoy en día, un grupo pequeño y homogéneo de personas determina qué datos utilizar para entrenar modelos de IA generativos, los cuales se obtienen de fuentes que representan en gran medida el inglés. «Para la mayoría de los más de 6,000 idiomas en el mundo, los datos de texto disponibles no son suficientes para entrenar un modelo de base a gran escala» (de «Sobre las oportunidades y riesgos de los modelos de base«, Bommasani et al., 2022).

Además, los propios modelos se crean a partir de arquitecturas limitadas: «Casi todos los modelos de procesamiento del lenguaje natural de última generación se adaptan ahora a partir de uno de los pocos modelos de base, como BERT, RoBERTa, BART, T5, etc. Si bien esta homogeneización produce un apalancamiento extremadamente alto (cualquier mejora en los modelos de base puede llevar a beneficios inmediatos en todo el procesamiento del lenguaje natural), también es una responsabilidad; todos los sistemas de IA podrían heredar los mismos sesgos problemáticos de unos pocos modelos de base (Bommasani et al.)».

Para que la IA generativa refleje mejor las diversas comunidades a las que sirve, se debe representar una variedad mucho más amplia de datos de seres humanos en los modelos.

Evaluar la precisión del modelo va de la mano con evaluar el sesgo. Debemos preguntarnos cuál es la intención del modelo y para quién está optimizado. Consideremos, por ejemplo, quién se beneficia más de los algoritmos de recomendación de contenido y los algoritmos de motores de búsqueda. Los interesados pueden tener intereses y objetivos muy diferentes. Los algoritmos y modelos requieren objetivos o proxies para el error de Bayes: el error mínimo que un modelo debe mejorar. Este proxy suele ser una persona, como un experto en la materia con experiencia en el dominio.

Un desafío muy humano: evaluar el riesgo antes de la adquisición o desarrollo del modelo

Las regulaciones y planes de acción de IA emergentes están enfatizando cada vez más la importancia de los formularios de evaluación del impacto algorítmico. El objetivo de estos formularios es capturar información crítica sobre los modelos de IA para que los equipos de gobernanza puedan evaluar y abordar sus riesgos antes de implementarlos. Algunas preguntas típicas incluyen:

  • ¿Cuál es el caso de uso de su modelo?
  • ¿Cuáles son los riesgos de impacto dispar?
  • ¿Cómo está evaluando la equidad?
  • ¿Cómo está haciendo que su modelo sea explicativo?

Aunque diseñados con buenas intenciones, el problema es que la mayoría de los propietarios de modelos de IA no comprenden cómo evaluar los riesgos para su caso de uso. Una frase común podría ser: «¿Cómo podría ser injusto mi modelo si no está recopilando información personalmente identificable (PII)?» En consecuencia, los formularios rara vez se completan con la reflexión necesaria para que los sistemas de gobernanza identifiquen con precisión los factores de riesgo.

Por lo tanto, se destaca la naturaleza socio-técnica de la solución. Un propietario de modelo, una persona, no puede simplemente recibir una lista de casillas de verificación para evaluar si su caso de uso causará daño. En cambio, lo que se requiere son grupos de personas con experiencias de vida muy diversas que se reúnan en comunidades que ofrezcan seguridad psicológica para tener conversaciones difíciles sobre el impacto dispar.

Banner_azules
Reciba las últimas noticias de la industria en su casilla:

Suscribirse ✉