Fable no responderá preguntas básicas de biología


Anthropic acaba de lanzar Claude Fable 5, calificándolo como el modelo de IA más poderoso que jamás haya puesto a disposición del público y elogiando sus habilidades en biología, entre otras. Pero el modelo no responderá preguntas básicas de biología, del tipo que se esperaría que manejara un estudiante de secundaria. En cambio, le pasa la consulta al antiguo modelo insignia, Claude Opus 4.8.

No es porque Fable no sepa las respuestas. Es porque Anthropic no lo permite, por diseño.

Fable es un modelo de clase Mythos de cara al público, una familia tan capaz en tareas de ciberseguridad que Anthropic dijo que era demasiado peligroso para publicarlo. Pero si bien Anthropic ha pasado gran parte del lanzamiento extendido de Mythos advirtiendo sobre la ciberseguridad, es en la biología donde las barreras de seguridad de Fable son las más obvias y las más limitantes.

Cuando probé el modelo, se negó a responder una serie de preguntas de biología básica, muchas de las cuales parecían tan alejadas de cualquier riesgo de seguridad plausible como cualquier pregunta podría estar. No respondería a “háblame de las membranas celulares” ni a “qué son las mitocondrias”, esa famosa central eléctrica de la célula. Se negó a explicar “qué es un prión”, las partículas proteicas detrás de la enfermedad de las vacas locas o “cómo funcionan las vacunas de ARNm”.

«Hicimos esta compensación para que los clientes pudieran beneficiarse de las capacidades del modelo antes y sin riesgos».

Las restricciones se aplicaron también a consultas médicas ordinarias y objetivamente bastante inofensivas. Fable no respondió «¿qué causa la fiebre del heno?», ni explicó cómo funcionan los medicamentos para el asma, ni cómo surge la resistencia a los antibióticos, ni me dijo qué es el ébola y cómo se propaga. Algunas de mis consultas básicas ocasionalmente respondieron, y Fable respondió preguntas como «¿qué es el cáncer» y «qué es el ADN?». Cuando Fable se negó, Opus 4.8 en general respondió perfectamente bien.

Anthropic dice que los filtros biológicos amplios son una elección intencional y deliberadamente conservadores, siendo las armas biológicas la principal preocupación. «Con el lanzamiento de Claude Fable 5, nuestro primer modelo de clase Mythos, creemos que los modelos ahora tienen una mayor capacidad para realizar tareas científicas del mundo real y para que actores maliciosos utilicen potencialmente nuestros modelos para investigaciones biológicas de alto riesgo», dijo el portavoz Paruul Maheshwary. El borde. «Siempre hemos utilizado clasificadores para impedir que nuestros modelos ayuden con solicitudes relacionadas con armas biológicas. Para implementar Fable 5 de forma segura, creemos que era necesario ser demasiado conservadores con nuestras salvaguardas para que bloqueen la mayoría de las consultas relacionadas con el trabajo de biología».

Anthropic ha destacado previamente cuatro áreas clave en las que limitaría las respuestas de seguridad de Fable: química, biología, ciberseguridad y destilación, una técnica para entrenar IA más pequeñas utilizando los resultados de las más grandes. La empresa ha acusado a rivales chinos como DeepSeek de utilizar la destilación en sus modelos a escala «industrial».

Si bien no pude probar la destilación de manera significativa, Fable parecía más dispuesta a responder preguntas sobre química y ciberseguridad. Por ejemplo, dio una descripción básica del explosivo TNT, aunque ocultó instrucciones de síntesis «por razones obvias». Respondió fácilmente preguntas sobre el uso de cloro gaseoso como arma química, amenazas de contraseñas comunes y fusión y fisión nucleares, además de explicar cómo proteger un iPhone de los piratas informáticos. Todavía limita: Fable remitió a Opus cuando le pregunté sobre el gas sarín, un agente nervioso altamente tóxico. Tanto Fable como Opus rechazaron la pregunta «cómo hacer ántrax» y Claude detuvo la conversación por completo. Eso tenía sentido. El rápido rechazo de las mitocondrias parece un falso positivo.

«Hicimos esta compensación para que los clientes pudieran beneficiarse antes de las capacidades del modelo sin riesgos», explicó Maheshwary, y agregó que Anthropic está trabajando arduamente para mejorar su detección y reducir los falsos positivos. «Tenemos la intención de hacer que los modelos de clase Mythos estén disponibles sin estas salvaguardas para la comunidad más amplia de biología y ciencias biológicas, de modo que estas capacidades puedan usarse para acelerar la investigación biomédica y el descubrimiento de fármacos».

Anthropic no respondió preguntas sobre si este tipo de lanzamiento restringido se convertirá en la nueva norma para los modelos futuros.

Seguir temas y autores de esta historia para ver más como esto en el feed personalizado de su página de inicio y recibir actualizaciones por correo electrónico.




Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here