Política de retroceso antrópico que podría haber ‘saboteado’ a los investigadores de IA que utilizan Claude


Antrópico está retrocediendo sobre una política que habría limitado encubiertamente a los competidores a utilizar su nuevo modelo de IA, Claude Fable 5, para desarrollar otros modelos de IA. La empresa cambió de rumbo después de que la medida recibiera una reacción significativa por parte de la comunidad de investigación de IA.

«Estamos cambiando las salvaguardas de Fable 5 para el desarrollo de LLM de vanguardia para hacerlas visibles», dijo Anthropic en un comunicado a WIRED. «Hicimos una compensación equivocada y nos disculpamos por no lograr el equilibrio correcto».

Anthropic lanzó Claude Fable 5, una versión de su último modelo de IA con barandillas de seguridad adicionales diseñadas para evitar el uso indebido, a principios de esta semana. Algunas de las salvaguardas que decidió Anthropic no fueron sorprendentes: la compañía dijo que redirigiría a los usuarios que hicieran preguntas sobre ciberseguridad, biología o química a un modelo de IA menos capaz para reducir las posibilidades de que alguien usara la IA avanzada para llevar a cabo un ciberataque o construir un arma biológica.

Pero para los investigadores que intentan utilizar Claude Fable 5 para el desarrollo de IA de vanguardia, Anthropic describió un enfoque diferente. La empresa degradaría deliberadamente el rendimiento del modelo de manera invisible para el usuario. La medida sabotearía efectivamente a los investigadores que intentan utilizar Claude para entrenar modelos de IA competitivos, lo que Anthropic prohíbe explícitamente en sus términos de servicio.

Anthropic ahora dice que está cambiando de rumbo y que las salvaguardas de Claude Fable 5 para el desarrollo de IA serán visibles para los usuarios. Si la empresa sospecha que un usuario está intentando utilizar Claude para construir una IA altamente capaz, le alertará de que está rechazando la solicitud o redirigiendo al usuario a un modelo menos capaz.

Anthropic revirtió la política después de recibir una feroz reacción de la comunidad de investigación de IA. Anthropic ya ha tomado medidas para limitar el uso de Claude por parte de los competidores para construir modelos de IA de código abierto y cerrado, pero los críticos dicen que degradar silenciosamente el rendimiento del modelo para ciertos usuarios fue demasiado lejos. El agente de codificación de Claude se ha convertido en una herramienta favorita entre los desarrolladores, incluidos aquellos que trabajan en proyectos de investigación de IA de código abierto, y los investigadores le dicen a WIRED que la última política de la compañía podría haber llevado a un futuro preocupante en el que solo un puñado de laboratorios de IA líderes podrían realizar investigaciones avanzadas de IA.

Dean Ball, miembro principal de la Fundación para la Innovación Estadounidense y ex asesor de la Casa Blanca en materia de IA, escribió en una publicación en X que «degradar el rendimiento en la investigación de ML *sin informarle al usuario* es sorprendentemente hostil y tiene una apariencia terrible». Continuó en otra publicación diciendo que la política de “sabotaje secreto” socava la postura general de Anthropic, porque limita la colaboración de los investigadores de IA en la seguridad de la IA.

«Parecía como si Anthropic le estuviera diciendo al público: ‘No confiamos en nadie más para hacer investigaciones sobre IA. Somos los únicos que tenemos que hacer investigaciones sobre IA», dice Will Brown, líder de investigación en la startup de código abierto Prime Intellect. «Se siente un poco como si estuvieran empezando a subir la escalera detrás de ellos».

Brown dijo que la política también habría dejado a los desarrolladores en la ignorancia sobre si estaban violando las reglas de Anthropic, ya que la compañía no les alertaría cuando se activaran sus salvaguardas. Añadió que las restricciones podrían haber tenido consecuencias generalizadas. Por ejemplo, señaló el creciente ecosistema de empresas de evaluación de terceros que prueban modelos de vanguardia en cuanto a seguridad, rendimiento y confiabilidad, trabajo que podría haberse visto obstaculizado si Anthropic degradara secretamente su modelo.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here