La creciente demanda de computadoras para ejecutar modelos de IA no ha hecho más que acelerarse, pero hay dos obstáculos importantes que cualquier persona en el negocio debe superar: conseguir los chips adecuados y llevarlos a los centros de datos donde puedan empezar a generar ingresos.
General Compute, una nueva neonube de inferencia (una empresa que alquila potencia de procesamiento de IA, especializándose en la fase en la que los modelos se ejecutan y responden a los usuarios en lugar de recibir capacitación) tiene respuestas a esas preguntas que iluminan hacia dónde se dirige el ecosistema de IA. Esas respuestas le ayudaron a recaudar una ronda inicial de 15 millones de dólares con una valoración posterior al dinero de 60 millones de dólares, liderada por FUSE VC con la participación de Carya Venture Partners y Village Global Ventures.
Primero, ¿cuál es el chip correcto? La demanda de GPU se ha disparado, pero se está convirtiendo en una opinión generalizada que no son los chips más adecuados para ejecutar modelos de IA una vez que han sido entrenados. La fase de la IA en la que un modelo genera respuestas activamente tiene requisitos computacionales diferentes a los del entrenamiento, y se está diseñando una nueva clase de chips específicamente para ella. La transacción Groq de Nvidia por 20 mil millones de dólares en diciembre y la oferta pública inicial de 57 mil millones de dólares de Cerebras la semana pasada señalan el camino.
Con la capacidad limitada en ambas empresas, los cofundadores de General Compute, el director ejecutivo Finn Puklowski y el director de tecnología Jason Goodison, encontraron otra opción. Están recurriendo a chips especializados construidos por SambaNova, un fabricante de chips respaldado por Intel centrado en la inferencia que ha quedado un poco fuera de la conversación de Silicon Valley.
Eso puede cambiar cuando SambaNova lance sus nuevos chips este año. La arquitectura es más flexible y utiliza más memoria para almacenar contexto durante los cálculos de inferencia, y SambaNova afirma que supera no sólo a las GPU sino también a otros chips especializados construidos por empresas como Groq o Cerebras. Puklowski dice que los nuevos chips generarán entre 600 y 700 tokens por segundo, frente a los aproximadamente 250 tokens por segundo de las GPU.
General Compute tiene pedidos por 300 millones de dólares en chips SN50 de la compañía y dice que será la primera neocloud que los implemente.
Estos chips también ayudan a resolver el segundo gran problema (dónde colocarlos) para General Compute: están enfriados por aire, no por agua, y consumen menos energía, por lo que pueden instalarse en instalaciones de centros de datos existentes sin nuevas inversiones en infraestructura.
Puklowski está buscando acuerdos de colocación (acuerdos en los que General Compute instala su hardware en las instalaciones de otra persona) no solo con proveedores de centros de datos, sino también con criptomineros que buscan reutilizar su infraestructura, ya que el costo de producir un bitcoin a menudo ha excedido su precio.
General Compute lanzó su oferta en la nube la semana pasada, afirmando que ya es el más rápido en ejecutar MiniMax 2.7, un potente LLM de código abierto.
Joe Hasselmann es un inversor de riesgo que entró en la fase inicial del auge de la inferencia cuando invirtió en Groq en 2021. Este año, lanzó un nuevo fondo, Evercrest Capital Partners, centrado en el espacio de la inteligencia artificial e hizo de General Compute su primera inversión. Hassleman ve en la asociación de SambaNova con General Compute paralelos con la relación de Coreweave con Nvidia y con la combinación de la fabricación de chips de Groq con su anterior oferta de nube.
«Necesitan una combinación saludable de clientes que coloquen sus chips en entornos que tengan un alto crecimiento para ellos», dijo Hassleman. «Por mucho que General Compute esté apostando por SambaNova, SambaNova está apostando por General Compute».
La pregunta es qué tipo de arquitectura informática capturará el mayor valor en el futuro de la IA. Las nubes de inferencia son apuestas implícitas en un mundo de múltiples modelos y agentes, donde ningún proveedor domina y la velocidad y el costo de la inferencia se convierten en las variables competitivas clave. Considere los $113 millones de Serie B recaudados para OpenRouter esta semana, lo que refleja la capacidad de la compañía para ofrecer a los clientes acceso a múltiples modelos para optimizar su gasto en tokens.
La velocidad importa en ese cálculo, tanto por el precio como por la capacidad. Puklowski quiere convertir las cargas de trabajo de una hora para los agentes de codificación en tareas de cinco o diez minutos, y hacer que los agentes de audio para el servicio al cliente, que requieren una inferencia más rápida para conversar de manera efectiva, sean más económicos.
«Si usa ChatGPT y le proporciona 50 tokens por segundo, sigue siendo mucho más rápido de lo que podemos leer», dijo Puklowski a TechCrunch, «ahora que las cosas se han movido a agente a agente, donde los agentes están leyendo en nuestro nombre o haciendo ping a las bases de datos, necesitan ir más rápido».
Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



