El auge de la IA se ha construido sobre una suposición básica: los modelos más grandes son más poderosos y los modelos más poderosos ganan. Ahora, la industria está a punto de aprender qué sucederá si esa suposición comienza a romperse.
Los costos de montaje ya han presionado a los usuarios a darle una segunda mirada a los modelos más pequeños y más baratos. Esta compra de modelos consciente de los costos es nueva y no está claro cómo afectará a la industria, pero es probable que el impacto sea significativo.
Una predicción, mejor expuesta por el cofundador de Coinbase, Brian Armstrong, es que esto dará como resultado que la gran mayoría de las tareas se trasladen a modelos más baratos.
“[D]La demanda de inteligencia es casi infinita, pero el 80% de las cargas de trabajo se ejecutarán en modelos 99% más baratos dentro de 12 a 18 meses”, escribió Armstrong en X. “El 20% de las cargas de trabajo aún se ejecutarán en modelos de última generación donde maximizar el coeficiente intelectual es importante”.
Es difícil exagerar el cambio significativo que supondrá para la industria de la IA si la predicción de Armstrong se hace realidad.
Hasta ahora, la mayoría de las empresas de IA han competido en calidad, lo que ha significado optar por el modelo más avanzado disponible. Si esos mismos trabajos pueden realizarse con modelos más baratos sin afectar la calidad, significaría un cambio masivo en la economía de la IA. Y, lo que es más importante, gran parte de los ahorros saldrían de los bolsillos de los grandes laboratorios, lo que supondría un golpe financiero a OpenAI y Anthropic justo cuando se dirigen a sus IPO.
Es un cambio potencialmente sísmico en la industria, que se basa en una pregunta básica: ¿están las empresas preparadas para cambiar a modelos más pequeños?
Las pruebas iniciales sugieren que, cuando el sistema se organiza correctamente, los modelos más baratos podrían sustituirlo sin sacrificar la calidad. En una prueba reciente realizada por la herramienta legal de inteligencia artificial Harvey, la empresa pudo reducir los costos de inferencia tres veces sin reducir la calidad. La prueba, realizada en asociación con la plataforma de inferencia Fireworks AI, combinó Claude Opus y GLM 5.1 de Fireworks, y pasó a Opus para las tareas más intensivas. El resultado fue una carga significativamente menor en términos de tiempo del servidor y costo general.
«La calidad es lo primero, y en el ámbito legal siempre lo será», dijo a TechCrunch el cofundador de Harvey, Gabe Pereyra, refiriéndose a los servicios legales de inteligencia artificial que brinda su startup. «Sin embargo, la definición de calidad está evolucionando desde simplemente usar el modelo más poderoso para todo, hasta usar el mejor modelo que obtiene la respuesta correcta de manera más eficiente».
Esta tendencia a menudo se enmarca en términos de laboratorios importantes versus modelos chinos o de peso abierto, pero eso pasa por alto el punto más importante. La verdadera división no es entre modelos propietarios y abiertos; está entre modelos grandes y pequeños. Puede ahorrar dinero cambiando de GPT-5.5 a DeepSeek V4 Flash, pero cambiar a GPT-5.4-mini funciona igual de bien.
Hay una guerra de precios activa entre la inferencia interna de los grandes laboratorios y los modelos de peso abierto servidos de forma independiente. Para la cuestión más importante de lo pequeño versus lo grande, realmente no importa qué tipo de modelo pequeño gana.
Todo esto puede parecer obvio (por supuesto, no se debe utilizar más computación de la necesaria), pero va en contra del enfoque de escalamiento primero que ha dominado la industria hasta ahora. Inspirados por la amarga lección, los laboratorios se han esforzado mucho en entrenar los modelos con el mayor uso intensivo de computación posible, ampliando la frontera de lo que pueden hacer los modelos de IA. Con los precios fuertemente subsidiados por los inversores, los clientes no tenían motivos para elegir otra cosa que la opción más avanzada.
Con el aumento de los precios de los tokens y la desaceleración de los subsidios, los usuarios enfrentan presión de costos por primera vez. No sabemos si la nueva presión de costos realmente llevará a los usuarios empresariales a modelos más pequeños. Podrían economizar con la misma facilidad haciendo menos llamadas, utilizando menos contexto o simplemente renunciando a las implementaciones menos prometedoras.
Pero si resulta que la mayoría de las implementaciones se pueden ejecutar igual de bien en un modelo más pequeño, podría frenar seriamente la creciente demanda de inferencia y plantear nuevas preguntas sobre cómo justificar el costo de entrenar un modelo de frontera.
Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.


