Tecnología y sociedad

Un microscopio inteligente descubre cómo funciona el cerebro de los modelos de lenguaje artificial

La IA avanzada posee un lenguaje universal de pensamiento que le permite razonar mediante representaciones abstractas

Recreación artística que representa a un microscopio inteligente escaneando un cerebro de IA, con hologramas y patrones misteriosos. / DALL·E 2025/T21

Madrid29 MAR 2025 8:51

Actualizada 29 MAR 2025 8:53

Un microscopio inteligente ha realizado un escáner del cerebro de la IA avanzada y descubierto que posee un "lenguaje universal de pensamiento" que le permite razonamientos consistentes, aunque todavía puede generar explicaciones erróneas sobre sus representaciones abstractas.

Anthropic ha presentado una herramienta llamada “microscopio de IA” para entender cómo funciona el "cerebro" de los modelos de lenguaje avanzados, como su propio modelo Claude 3.5. Este microscopio, inspirado en herramientas de neurociencia, ofrece una visión limitada pero intresante de las representaciones internas de estos sistemas, revelando cómo procesan información, razonan y toman decisiones complejas.

La investigación no solo abre la puerta a nuevas posibilidades tecnológicas, sino que también plantea interrogantes sobre el funcionamiento y la transparencia de la IA.

El microscopio desarrollado por Anthropic permite a los investigadores observar los componentes internos de un modelo de lenguaje desde una perspectiva única. Utilizando una técnica similar a un escáner cerebral, el equipo de Anthropic estudia las activaciones de las neuronas artificiales, los features (grupos de neuronas que representan conceptos) y los circuitos (algoritmos internos que conectan esos features para realizar tareas específicas). Para facilitar este análisis, se emplea una herramienta llamada Cross-Layer Transcoder (CLT), un modelo adicional que traduce las representaciones internas de Claude en términos más interpretables.

Este enfoque permite a los investigadores rastrear cada proceso que el modelo realiza al analizar un problema, desde su planificación inicial hasta la producción de respuestas. Por ejemplo, se ha descubierto que cuando el modelo genera poesía, primero selecciona las palabras para rimar y luego construye las frases necesarias para llegar a ese objetivo, revelando una forma de razonamiento anticipado que contradice la creencia de que los modelos solo predicen token (identificador) por token.

Lenguaje universal de pensamiento en la IA

Uno de los hallazgos más intrigantes obtenidos del microscopio es que Claude utiliza representaciones internas independientes del idioma para procesar información. Al trabajar con tareas multilingües, como proporcionar antónimos en diferentes lenguas, el modelo activa un concepto único y universal antes de generar la traducción en un idioma específico. Esto sugiere la existencia de un "lenguaje universal de pensamiento" en las IA avanzadas, una suerte de representación abstracta que permite razonamientos consistentes, independientemente del idioma.

Además, los modelos más grandes, como Claude 3.5, muestran mayor similitud en sus representaciones internas entre diferentes lenguajes, lo que apunta a una abstracción conceptual más profunda en los sistemas de mayor tamaño.

El microscopio también ha desvelado procesos complejos detrás del razonamiento del modelo. Cuando se enfrenta a tareas de varios pasos, como determinar la capital del Estado donde se encuentra Dallas, Claude activa representaciones consecutivas que le permiten razonar de manera lógica: primero reconoce que “Dallas está en Texas” y, luego, que “la capital de Texas es Austin”. Para cálculos matemáticos, el modelo utiliza múltiples vías simultáneamente, generando aproximaciones en paralelo con cálculos precisos, lo que refleja una forma estructurada de razonamiento.

Explicaciones erróneas

A pesar de su potencial transformador, el microscopio de IA tiene notables limitaciones. El análisis de una sola respuesta requiere horas de trabajo manual y solo captura una fracción de los procesos internos del modelo. Además, se ha observado que la IA puede generar explicaciones erróneas sobre su propio razonamiento, una problemática denominada “falsa alineación”, donde el modelo presenta una lógica convincente que no refleja su proceso real.

En problemas matemáticos con pistas falsas, Claude proporcionó explicaciones incorrectas en el 23% de los casos, lo que pone de manifiesto la necesidad de seguir perfeccionando esta tecnología para garantizar su transparencia y fiabilidad.

El microscopio de IA de Anthropic representa un paso crucial hacia la interpretabilidad de los modelos de lenguaje y podría ayudar a mejorar la seguridad y la confiabilidad de la inteligencia artificial. Al desentrañar cómo razonan estos sistemas, los investigadores pueden identificar errores, mejorar las capacidades de los modelos y garantizar que su comportamiento sea predecible y alineado con las expectativas humanas.

Aunque esta tecnología aún está en desarrollo, ofrece una visión de un futuro en el que la IA no solo sea poderosa, sino también completamente comprensible y segura. Anthropic define este proyecto como una apuesta de alto riesgo y alta recompensa, que podría revolucionar la forma en que interactuamos con la inteligencia artificial.