Estos dos fundadores dejaron Goldman y Meta para crear inteligencia artificial de voz para mercados que todos los demás pasaban por alto.


La atención al cliente y el servicio se encuentran entre los sectores más populares de la IA de voz en este momento. Pero crear un producto que suene humano y responda sin demoras perceptibles resulta ser mucho más difícil en algunos mercados que en otros, y la mayoría de los principales actores no se crearon pensando en África y Medio Oriente.

AethexAI, una startup fundada el año pasado para cerrar esa brecha, ha recaudado 3 millones de dólares en financiación previa liderada por 4DX Ventures, con la participación de Enza Capital, Dorm Room Fund, Mojo Ventures y Stanford GSB 26 Fund. Los inversores individuales incluyen profesores de Stanford, ejecutivos de telecomunicaciones e investigadores de inteligencia artificial de Anthropic.

En lugar de utilizar herramientas de orquestación existentes como Vapi y LiveKit, la compañía creó su propio modelo pequeño y capa de orquestación desde cero para manejar los dialectos localizados de inglés, francés y árabe que se hablan en sus mercados objetivo, una decisión impulsada, como veremos, por las demandas particulares de operar en la región.

La compañía también está lanzando su plataforma para que las empresas prueben su tecnología y se registren en sus servicios, junto con API y SDK para que los desarrolladores experimenten con sus modelos.

La startup fue fundada por Mariama Diallo y Ayooluwa Odemuyiwa. El director ejecutivo, Diallo, trabajó en Goldman Sachs y luego se unió a ModelML, respaldado por YC, como empleado de crecimiento y producto. El CTO Odemuyiwa se graduó en Caltech, trabajó en Meta y se matriculó en la Stanford Business School antes de cofundar la empresa. La pareja quería construir algo para los mercados emergentes y empezó a buscar oportunidades.

Empresas de todo el mundo se apresuran a adoptar herramientas de inteligencia artificial para automatizar partes de sus operaciones. Pero eso no siempre funciona. En Egipto, un centro de llamadas automatizó una parte importante de sus llamadas, pero revirtió el sistema debido a los malos resultados, descubrieron los fundadores. Varios centros de soporte en África les dijeron que encontrar y contratar ingenieros para automatizar las llamadas al costo adecuado era un dolor de cabeza persistente.

«La latencia y la inquietud que vimos en las llamadas automatizadas en esta región fueron escandalosas. Si nos hubiéramos convertido en orquestadores, podríamos haber tenido que usar modelos grandes alojados fuera de la región, lo que resultó en una mayor latencia. Nos dimos cuenta de que para que esto funcione, tenemos que usar modelos muy pequeños y reducir la latencia en cada paso», dijo Odemuyiwa a TechCrunch sobre la decisión de construir los propios modelos y la capa de orquestación de la compañía.

Los laboratorios de IA que implementan sus últimos modelos suelen gastar millones en entrenarlos y adquirir datos. AethexAI encontró una solución para ambos. En lugar de perseguir los modelos más grandes posibles, decidió que los modelos pequeños son suficientes para abordar el problema de la latencia manteniendo la precisión y desarrolló su propia serie Kora, con parámetros que van desde 300 millones a 1,7 mil millones. Eso es una fracción del tamaño de los LLM, que es precisamente el punto.

Para entrenar estos modelos, la startup utilizó grabaciones anónimas de un socio del centro de llamadas. También envió discos duros a estaciones de radio de toda África para recopilar más datos de audio. Para mantener bajos los costos, creó una red de colaboradores de estudiantes universitarios para anotar datos y pronunciar nombres locales. Como resultado, afirma la startup, ahora atiende más de 17.000 llamadas al día.

En el aspecto comercial, la compañía se encarga de guiar a los clientes que son nuevos en la IA de voz a través del proceso, ofreciendo demostraciones y talleres en el sitio para ayudarlos a identificar los mejores casos de uso para la automatización.

«Siempre decimos a los clientes que no podemos ser todo para todos en este momento. Somos pequeños. Cuando empezamos a hablar con una empresa, les pedimos que elijan un caso de uso que sea más importante para ellos para comenzar». [with]”, dijo Diallo.

La startup está abierta a trabajar en todas las industrias, pero por el momento, una gran parte de sus casos de uso involucran llamadas para cobro de deudas, activación de clientes o verificación KYC (Conozca a su cliente), el proceso estándar de verificación de identidad utilizado por bancos y telecomunicaciones. La compañía está contratando ingenieros avanzados por contrato para atender los mercados locales y crear asociaciones de canales con proveedores de telecomunicaciones para manejar la telefonía para llamadas de voz con inteligencia artificial. Las soluciones plug-and-play, afirma, simplemente no funcionan aquí.

Walter Badoo, cofundador y socio gerente de 4DX Ventures, sostiene que el mercado de África y Medio Oriente es fundamentalmente diferente de los mercados para los que se crearon la mayoría de las empresas de inteligencia artificial de voz.

«Las empresas de África y Oriente Medio procesan aproximadamente tres veces el volumen de llamadas de sus homólogas occidentales, ya que la voz sigue siendo el canal dominante para la interacción con el cliente», afirmó. «Los sistemas existentes se crearon para los mercados occidentales caracterizados por una infraestructura de GPU de alta gama, entornos de habla estándar en inglés y europeo, y flujos de trabajo empresariales comunes en los EE. UU. y Europa. Eso crea brechas reales cuando las empresas necesitan sistemas que manejen dialectos, cambio de código y patrones de habla informales, y que funcionen dentro de su infraestructura telefónica existente y sus precios reales».

Dicho de otra manera, si bien empresas como ElevenLabs, Deepgram, Sierra y Cognigy se están expandiendo globalmente a un ritmo rápido, los mercados para los que fueron creadas y los mercados a los que ingresan no siempre son los mismos. Empresas emergentes como AethexAI están apostando a que las brechas (modelos especializados en dialectos locales, asociaciones sobre el terreno, infraestructura construida para la región) representan una apertura de mercado que los gigantes no tienen ni el incentivo ni la arquitectura para cerrar.

Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here