La factura de los tokens vence: dentro de la industria luchan por gestionar los costos galopantes de la IA


En toda la industria, las empresas están empezando a oponerse al precio de la IA. Uber gastó todo su presupuesto de codificación de IA para 2026 en abril. Microsoft revocó las licencias de Claude Code de sus desarrolladores meses después de habilitarlas. Un empleado de Priceline le dijo a TechCrunch que una renovación rutinaria del contrato de Cursor resultó entre 4 y 5 veces más cara.

Aunque los precios por token han caído, el impulso para una mayor adopción de la IA y agentes cada vez más autónomos han impulsado el consumo de tokens cada vez más. Las empresas que a principios de 2025 se atiborraron de suscripciones de «todo lo que puedas comer» ahora están luchando por entender a dónde va su dinero, reducir el gasto y descubrir si pueden recuperar algo de retorno de la inversión de los escombros de sus presupuestos.

Mientras tanto, se está formando un mercado para encontrarlos allí. Empresas emergentes, proveedores establecidos y un nuevo organismo de normalización están compitiendo para brindar a las empresas las herramientas y el lenguaje para realizar un seguimiento de lo que gastan.

«Hace seis meses, tuve una conversación con un cliente y todo fue sobre ‘¿Qué puede hacer? ¿Es lo suficientemente bueno?'», dijo Alexander Embiricos, director empresarial de OpenAI, a TechCrunch en un evento en la ciudad de Nueva York esta semana. «Nuestras conversaciones ahora nunca giran en torno a eso. Ahora las conversaciones giran en torno a, ‘oye, estamos gastando mucho. ¿Qué visibilidad tienes? ¿Qué auditabilidad tienes? ¿Qué controles simbólicos tienes? ¿Cuál es la eficiencia de tus modelos?'»

Es en este contexto que la Fundación Linux reveló esta semana planes para la Fundación Tokenomics, un nuevo organismo de estándares que tiene como objetivo inculcar la misma disciplina de costos en torno a los tokens de IA que FinOps hizo para el gasto en la nube.

«En abril y mayo, comencé a escuchar de las empresas: ‘Dios mío, hemos triplicado nuestro presupuesto total de tokens para 2026 y solo es abril'», dijo a TechCrunch JR Storment, director ejecutivo de la Fundación FinOps, un proyecto de la Fundación Linux. “Comenzamos a escuchar crisis existenciales y toda la conversación pasó de tokenmaxxing y ‘ir rápido’ a ‘necesitamos barreras de seguridad, ¿cómo controlamos esto?’”

Los gritos que se escucharon en todo el mundo tecnológico siguieron a las fervientes demandas de los directores ejecutivos que presionaban a sus equipos para que utilizaran los mejores modelos y actuaran con rapidez, al diablo con los costos. Los nuevos modelos lanzados en noviembre como Claude Opus 4.5 de Anthropic, GPT-5.1 de OpenAI y Gemini 3 Pro de Google trajeron mejoras significativas a las herramientas agentes, que han multiplicado el consumo. Así es como una empresa supuestamente se encontró con una factura de Claude de 500 millones de dólares después de olvidarse de establecer límites de uso para los empleados.

«Es como la epidemia de crack y cocaína», dijo Chris Reed, director senior de finanzas de TI en Priceline, señalando que la compañía había comenzado a imponer límites simbólicos a ciertos grupos. «Te dejaron probarlo para que te engancharas y ahora estás en deuda con él».

Vitaly Gordon, director ejecutivo de la plataforma de operaciones de ingeniería Faros AI, dijo que recientemente habló con un CTO que le dijo: «Uno de mis ingenieros gastó 40.000 dólares en tokens el mes pasado, y realmente no sé si debería detenerlo o debería ir y decirle a todos los demás que sean como él».

Un estudio de dos años de 20.000 desarrolladores que Faros publicó en abril encontró que la producción estaba aumentando, pero también los errores y las reescrituras. Jellyfish, una plataforma de gestión de ingeniería, descubrió de manera similar que los ingenieros que usaban la mayor cantidad de tokens eran aproximadamente el doble de productivos que aquellos que usaban menos IA, pero gastaban 10 veces más tokens para llegar allí.

Nicholas Arcolano, jefe de investigación de Jellyfish, dijo a TechCrunch por correo electrónico que el gasto en IA se está disparando en gran parte debido a las características de agencia, con un consumo por desarrollador aumentando aproximadamente 18,6 veces en nueve meses. En definitiva, estas estadísticas hacen que el caso de la productividad sea más confuso de lo que sugiere el gasto.

«El hecho de que el gasto extremo dé sus frutos se reduce al valor comercial final del código enviado (por ejemplo, los ingresos), que la mayoría de las empresas aún no pueden medir», dijo Arcolano.

Al menos parte de ese problema de medición es la gran escala a la que se utiliza la IA en la actualidad.

«El seguimiento de los costos de la nube es un problema de datos de cientos de millones de filas al mes», dijo Storment. «El seguimiento de los costos de los tokens es un problema de datos de billones de filas al mes. No puedes simplemente incluir eso en cualquier hoja de cálculo o incluso herramienta básica. Tienes que repensar fundamentalmente tus herramientas, tus especificaciones y tus sistemas de contabilidad para hacerlo».

En Priceline, Reed ya está viendo discrepancias. Notó problemas entre el uso informado por un proveedor y los datos internos de Priceline.

«Comencé mi carrera en la gestión de gastos de telecomunicaciones y veo los mismos paralelismos, desde las telecomunicaciones hasta la nube y la inteligencia artificial», dijo. «Cada vez que se introduce algo nuevo, es propicio para errores de facturación y oportunidades de auditoría y optimización».

Está empezando a formarse un mercado en torno a este problema. Están las empresas exclusivas, como Pay-i, que rastrea, mide y optimiza los costos y el rendimiento de las inversiones en GenAI. Mientras tanto, el pago permite a los desarrolladores realizar un seguimiento de los costos, medir el uso y facturar a los usuarios en función del valor real en lugar de las tarifas de suscripción.

Luego están empresas como Jellyfish, Waydev y Faros AI, que proporcionan monitoreo de agentes de IA para demostrar el retorno de la inversión de las herramientas de desarrollo. Storment dice que la mayoría de los 180 proveedores dentro de la Fundación FinOps se inclinan hacia este espacio.

Las empresas con distribución existente también están agregando nuevas características para capitalizar este nuevo mercado. Ramp se ha pasado recientemente a la gestión de gastos en IA; Datadog y New Relic han añadido servicios como gestión de costos en la nube, observabilidad a nivel de token y monitoreo de GPU. En la conferencia FinOps X de la próxima semana, se espera que AWS presente nuevas funciones de gestión financiera orientadas al gasto empresarial en IA.

Tiffany Luck, socia de NEA, cree que la eficiencia y la observabilidad de los tokens probablemente se agregarán en la «capa de arnés o aplicación». Señaló a Factory, una startup que fabrica agentes de inteligencia artificial para empresas, que esta semana lanzó un modelo de enrutador que selecciona automáticamente el modelo correcto para cada tarea.

Gordon espera que los laboratorios fronterizos y otros proveedores de modelos adopten una optimización al estilo OpenRouter para dirigir las consultas a los modelos más baratos, una tendencia que ya se muestra en las facturas empresariales de Claude.

«El informe financiero de cuánto gasta en Anthropic, incluso si llama al modelo Opus, parte del gasto será en Sonnet o Haiku, porque son lo suficientemente inteligentes como para hacerlo», dijo Gordon. «Creo que esto será cada vez más común».

Pero todas estas herramientas se están creando sin un lenguaje común ni definiciones compartidas sobre cuánto cuesta un token, qué produce y cómo comparar el gasto entre proveedores. Ahí es donde la Fundación Tokenomics espera resultar útil.

La Fundación está elaborando una definición canónica y un marco para la «tokenomía»; estándares abiertos, especificaciones y métricas para el uso y facturación de tokens de IA; así como nuevas métricas para la economía de la IA, como el costo por inteligencia o los tokens por vatio. También planea definir métricas sobre la efectividad de la fábrica de tokens y la eficiencia del consumo. El grupo está planeando un lanzamiento formal en julio y está a punto de anunciar más miembros en la conferencia FinOps X la próxima semana.

«La economía de tokens es fundamentalmente más abstracta y opaca que cualquier cosa que hayamos manejado antes a esta escala», dijo en un comunicado Nishant Gupta, director de disponibilidad de Salesforce. «Requiere un músculo operativo diferente al que la industria creó para la nube».

Dicho esto, Goldman Sachs proyecta que el uso global de tokens se multiplicará por 24 para 2030. Las empresas que ya superan el presupuesto necesitan soluciones ahora, y aún faltan meses para el primer resultado de la fundación.

«Tal vez creamos una máquina de vapor, pero aún no hemos descubierto la línea de montaje», dijo Gordon.

Según Arcolano, la medida inteligente es una adopción amplia y moderada.

“El mejor retorno de la inversión proviene de mover el uso medio amplio de bajo a moderado, sin impulsar a los usuarios habituales a subir más”, dijo.

Russell Brandom y Tim Fernholz contribuyeron a este informe.

Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here