¿Cuántas P hay en Google? Según Google, hay dos.
También hay «exactamente 1 ‘r’ en la palabra ‘caca'», dice la descripción general de IA de Google, así como dos ‘d’s en la palabra periodismo, pero se escribe: periodismo. Google al menos identificó que hay una P en el apellido del presidente de Estados Unidos, pero la deletreó como trpum.
No hacía falta ser un profeta para predecir que la revisión de la búsqueda avanzada por IA de Google iba a tener una mala acogida. Hemos hecho esto antes. La primera vez que Google agregó descripciones generales de IA a la búsqueda, la función terminó citando publicaciones satíricas de The Onion y Reddit, que aconsejaban a las personas comer piedras y poner pegamento en su pizza.
Esta vez, mientras Google redobla su compromiso de hacer de la IA generativa la pieza central de su producto estrella de 29 años, no sorprende verlo tropezar.
«Contar dentro de palabras ha sido un desafío conocido para los LLM y estamos trabajando para solucionar este problema en particular», dijo Google a TechCrunch en un comunicado enviado por correo electrónico.
Estos errores ortográficos básicos pueden resultarle familiares. Los LLM, el tipo de inteligencia artificial que impulsa los chatbots y otros generadores de texto, no están diseñados para comprender la ortografía. Ha sido una broma corriente durante años que cada vez que una empresa presenta un nuevo modelo de IA, deberías preguntarle cuántas erres hay en la palabra fresa. Estos modelos de IA, que pueden codificar una aplicación en segundos o resolver problemas que han desconcertado a los matemáticos durante décadas, son tan buenos como un niño de jardín de infantes en ortografía.
Sin embargo, los problemas de la descripción general de la IA de Google van más allá de los errores tontos de ortografía. Google ya solucionó un problema de la semana pasada en el que al buscar la palabra «ignorar» se obtenía lo que parecía una definición de diccionario de la palabra, solo que la definición se mostraba como «Entendido. ¡Avíseme cada vez que tenga un nuevo mensaje o pregunta!». Pero estos errores de ortografía siguen siendo divertidos porque son muy difíciles de corregir.
Como los investigadores explicaron anteriormente cuando preguntamos sobre estos acertijos ortográficos, la IA no percibe las oraciones como unidades del lenguaje compuestas por palabras y letras. Muchos LLM se basan en modelos de transformadores, que descomponen el texto en tokens, que pueden ser palabras completas, sílabas o letras, según el modelo. En lugar de «leer» como lo haría un humano, la IA convierte el texto en representaciones numéricas de sí mismo, que luego se contextualizan para ayudar a la IA a encontrar una respuesta lógica.
«Los LLM se basan en esta arquitectura transformadora, que en realidad no lee texto. Lo que sucede cuando ingresas un mensaje es que se traduce a una codificación», dijo a TechCrunch Matthew Guzdial, investigador de inteligencia artificial y profesor asistente en la Universidad de Alberta. “Cuando ve la palabra ‘el’, tiene esta codificación de lo que significa ‘el’, pero no sabe acerca de ‘T’, ‘H’, ‘E’”.
La arquitectura basada en tokens que impulsa los LLM como la descripción general de IA de Google es inherentemente limitante, y los investigadores no se han mostrado optimistas de que puedan resolver el problema de ortografía.
«Es un poco difícil evitar la pregunta de qué debería ser exactamente una ‘palabra’ para un modelo de lenguaje, e incluso si consiguiéramos que expertos humanos se pusieran de acuerdo sobre un vocabulario simbólico perfecto, los modelos probablemente encontrarían útil ‘fragmentar’ las cosas aún más», dijo a TechCrunch Sheridan Feucht, estudiante de doctorado que estudia la interpretabilidad de modelos de lenguaje grandes en la Universidad Northeastern. «Mi conjetura sería que no existe un tokenizador perfecto debido a este tipo de confusión».
Esto no es necesariamente un problema urgente en la mente de los investigadores, ya que la utilidad de los LLM no radica en su capacidad de deletrear. Pero estos fracasos flagrantes nos ayudan a recordar que la IA no es perfecta, incluso si a veces puede parecer un poder omnisciente más allá de nuestra comprensión. No podemos confiar ciegamente en los resultados de la IA sin verificar su precisión.
Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



