Los sistemas de inteligencia artificial (IA) actuales están todavía lejos de replicar el razonamiento humano tal como lo entendemos, pero estamos apenas en las primeras etapas de un avance que promete mejorar de manera significativa. Un claro ejemplo es la evolución de modelos como ChatGPT desde su lanzamiento, lo que demuestra que estamos frente a un fenómeno cuyo crecimiento será exponencial. En este contexto, el reciente informe publicado por expertos de Apple, aunque aporta algunos puntos de interés, no revela nada que no se haya dicho ya: los modelos de lenguaje a gran escala aún tienen limitaciones importantes, especialmente en lo que se refiere a su capacidad de razonamiento formal. Sin embargo, esto no debería sorprendernos, ya que es un área en desarrollo. Lo que sí resulta más preocupante es el estado del mercado, que parece estar en una burbuja alrededor de la IA, con inversiones que no siempre tienen en cuenta las limitaciones técnicas actuales.
El informe, titulado “Evaluating GPT Models on Generalization to Formal Reasoning”, ofrece una revisión de cómo los modelos actuales, incluyendo el destacado GPT de OpenAI, abordan problemas de razonamiento formal. El equipo de investigación de Apple realizó diversos experimentos para evaluar si estos modelos pueden generalizar adecuadamente su razonamiento a problemas formales más complejos, utilizando para ello pruebas que incluyen lógica, matemáticas y otros dominios abstractos. Los resultados muestran que, aunque los modelos logran desempeños impresionantes en muchos campos de uso práctico, fallan de manera recurrente en tareas que requieren una lógica precisa y rigurosa.
Una de las conclusiones del informe es que, aunque los modelos actuales parecen comprender patrones y estructuras complejas, en realidad no están razonando en el sentido humano de la palabra. Los modelos de lenguaje como GPT siguen patrones en los datos con los que fueron entrenados, pero no “entienden” el contexto de la misma forma que lo haría una persona. Este es un punto que ya ha sido discutido en varias ocasiones en el ámbito académico, pero Apple lo aborda desde la perspectiva de los desafíos que esto implica para el desarrollo de sistemas capaces de realizar tareas más avanzadas.
En este sentido, el estudio utiliza el benchmark GSM8K, que incluye preguntas de matemáticas de nivel escolar, y propone una nueva evaluación mejorada llamada GSM-Symbolic. Esta metodología permite generar variantes de las preguntas para evaluar mejor las capacidades de razonamiento de los LLMs en diferentes contextos. A lo largo del análisis, los investigadores observaron que, aunque los modelos de lenguaje pueden seguir patrones abstractos en las preguntas, presentan caídas significativas en el rendimiento cuando las preguntas son mínimamente modificadas. Este enfoque resalta las limitaciones actuales de la IA en la comprensión y razonamiento simbólico.
El informe hace especial hincapié en los límites actuales de la IA y su incapacidad para razonar de manera profunda. Como señala el neurocientífico Jeff Hawkins en su libro “Mil Cerebros”, aún no comprendemos por completo cómo funciona el cerebro humano, lo que implica que replicar su capacidad para razonar está fuera del alcance de la tecnología actual. Si no hemos llegado a entender completamente la forma en que los seres humanos razonan y toman decisiones, parece lógico pensar que los modelos de IA aún están muy lejos de lograrlo.
Sin embargo, esto no significa que los avances en este campo no sean sorprendentes. La evolución de los modelos de lenguaje en los últimos años ha sido asombrosa, y hay razones para ser optimistas sobre el futuro. Pero este estudio de Apple subraya que debemos mantener una perspectiva realista sobre lo que la IA puede hacer hoy en día y lo que le falta por mejorar.
Uno de los aspectos más interesantes del estudio es su enfoque en la “generalización”, es decir, la capacidad de los modelos de IA para aplicar lo que han aprendido a nuevos contextos. Los modelos actuales son extraordinariamente buenos en ciertas tareas dentro de los dominios para los cuales han sido entrenados, pero luchan por generalizar sus habilidades cuando se les presentan nuevos desafíos que no están directamente alineados con su entrenamiento. Esto plantea un desafío considerable para aquellos que buscan aplicar la IA a problemas del mundo real que no están completamente cubiertos por los datos de entrenamiento.
Apple también subraya la importancia de los avances futuros y la necesidad de una visión más amplia sobre lo que estos sistemas podrán hacer a medida que evolucionen. Aunque la tecnología está avanzando, es claro que estamos solo en el principio. La capacidad de los modelos de IA para generalizar, aprender y mejorar con el tiempo será el motor de sus futuros éxitos.
Pero aquí entra un factor que no es técnico: la percepción del mercado y el ritmo de las inversiones. Mientras que la tecnología avanza a pasos agigantados, el entusiasmo por la IA ha generado una “burbuja” en torno a su potencial, con una ola de inversiones que no siempre considera estas limitaciones. La inversión masiva en IA genera expectativas sobre aplicaciones que pueden estar más allá de las capacidades actuales de los modelos, lo que podría llevar a decepciones a medida que las empresas descubran que estos sistemas no pueden, por el momento, reemplazar el razonamiento humano.