La nueva herramienta de Microsoft permite a los desarrolladores realizar pruebas de comportamiento de IA utilizando descripciones de texto


Los investigadores y laboratorios de IA han avanzado a pasos agigantados en la evaluación de modelos de IA en todos los ámbitos, desde la seguridad y el cumplimiento hasta la adulación y la alineación. Pero parece que las empresas y los desarrolladores se enfrentan a una necesidad nueva y específica: asegurarse de que su sistema de inteligencia artificial se comporte según lo previsto para su producto o servicio específico.

En un intento por simplificar el proceso de prueba, Microsoft el martes finalizó ASSERT, abreviatura de Puntuación adaptativa basada en especificaciones para pruebas de evaluación y regresión.

El marco de código abierto, dice Microsoft, facilita la evaluación del comportamiento de la IA de aplicaciones específicas al utilizar la IA para convertir descripciones de alto nivel en lenguaje natural de objetivos, políticas o comportamientos previstos en pruebas exhaustivas y calificadas que pueden investigarse.

ASSERT toma descripciones en lenguaje sencillo del comportamiento y las políticas esperadas de un modelo de IA, las convierte en un conjunto estructurado de comportamientos aceptables e inaceptables, genera escenarios de problemas y casos de prueba, los ejecuta contra el sistema objetivo y califica los resultados. También puede registrar las rutas que toma el sistema de IA, incluidas acciones intermedias y llamadas a herramientas, para que los desarrolladores puedan inspeccionar dónde ocurren las fallas.

Los desarrolladores también pueden proporcionar el contexto, las herramientas y las limitaciones del sistema si desean personalizar aún más lo que cubren las evaluaciones.

Por ejemplo, un desarrollador podría especificar que un agente de IA de investigación de documentos no debería enviar correos electrónicos a personas ajenas a la empresa, limitar la información confidencial a ejecutivos de nivel C y proporcionar resúmenes concisos teniendo en cuenta el contexto previo. ASSERT utilizará esas reglas para generar casos de prueba que verifiquen si el sistema sigue esas reglas de manera continua.

Créditos de imagen:microsoft

El marco, según Microsoft, llena un vacío que las evaluaciones más amplias y generales no pueden cuando los modelos de IA pretenden comportarse de una manera determinada por el contexto, las políticas y las herramientas de una aplicación o producto.

«Una de las cosas que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones», dijo Sarah Bird, directora de producto de IA responsable en Microsoft. «Porque si no se comprende el comportamiento del sistema de IA, es muy difícil saber si está cumpliendo con los estándares de su organización». […] Lo que descubrimos es que si realmente se desea tener un sistema confiable, se deben evaluar muchas más dimensiones que sean específicas de la aplicación”.

Bird dijo que ASSERT se puede utilizar para evaluar sistemas durante su construcción, después de su implementación e incluso para un monitoreo continuo.

El lanzamiento se produce en medio de un cambio gradual pero más amplio en la industria de la IA. A medida que los modelos se vuelven más capaces, los investigadores se están centrando en pruebas repetibles y comprobaciones de regresión, con HELM de Stanford, AILuminate de MLCommons y grupos de evaluación como METR implementando puntos de referencia para medir cómo se comportan los modelos en diferentes condiciones.

Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here