Una revolución silenciosa: esta empresa comprime la IA hasta un 95 % y la lleva a móviles y Raspberry Pi

La inteligencia artificial es el futuro de la tecnología, pero actualmente enfrentan grandes desafíos que impiden su despliegue masivo. Entre ellos, destaca la necesidad de grandes infraestructuras en la nube para operar modelos de lenguaje grande (LLM), como Gemini (Google) o ChatGPT (OpenAI). Para remediarlo, Multiverse Computing ha dado un paso clave con CompactifAI, una herramienta de compresión que abre la puerta al uso avanzado de la IA en dispositivos móviles y Raspberry Pi.
Multiverse Computing es una empresa está centrando todos sus esfuerzos en la compresión de modelos de IA de inspiración cuántica. Su objetivo es escalar CompactifAI, lo que permitiría reducir el tamaño de los LLM hasta un 95% sin que eso afecte al rendimiento. Los desarrolladores pronostican que su tecnología permitirá un procesamiento entre 4 y 12 veces más rápido y costos de interferencia entre un 50-80% más bajos. Según adelantan, CompactifAI hará posible ejecutar modelos de IA avanzados en smartphones y computadoras diminutas de bajo costo Raspberry Pi.
Desde que presentaron el proyecto, la firma afirma haber recaudado 189 millones de euros, con el apoyo de inversores top, como HP Tech Ventures, SETT, Forgepoint Capital International, Santander Climate VC, Toshiba, Capital Riesgo de Euskadi – Grupo SPRI, etc. Con esta financiación, acelerarán la creación de CompactifAI.

¿Por qué CompactifAI sería revolucionario en la IA?
Tal y como explica Multiverse Computing en una nota de prensa, los modelos LLM actuales se ejecutan en infraestructuras especializadas basadas en la nube. Eso supone un incremento de los costos de mantenimiento de los centros de datos (ya de por sí caro). Jensen Huang, CEO de Nvidia, itió hace unos años que la cantidad de computación necesaria para el entrenamiento y razonamiento de los agentes de IA era «fácilmente 100 veces mayor» de lo que pensaban en un inicio.
Las técnicas de compresión tradicionales son la cuantización y la poda. La primera aligera la precisión de una señal digital para reducir la memoria necesaria para la inferencia de IA. Mientras que la poda elimina componentes innecesarios para optimizar los modelos entrenados y reducir su tamaño y complejidad. El resultado de estos métodos de compresión que se utilizan actualmente son modelos con un rendimiento significativamente inferior al de los LLM originales.
Con CompactifAI, quieren comprimir sin sacrificar el rendimiento. De hecho, Multiverse cree que son capaces de reducir tanto los modelos que quepan en PC, móviles, coches, drones, e incluso Raspberry Pi. Su invento permitiría introducir IA avanzada en casi cualquier dispositivo que se te ocurra, lo que sería una auténtica revolución en el sector tech.
Enrique Lizaso Olmos, fundador y director ejecutivo de Multiverse Computing, explica que, en estos momentos, la opinión general es que reducir los LLM sale caro. Su compañía busca cambiar esta percepción: «Lo que comenzó como un avance en la compresión de modelos rápidamente resultó transformador, generando nuevas eficiencias en la implementación de IA y logrando una rápida adopción por su capacidad para reducir drásticamente los requisitos de hardware para ejecutar modelos de IA».
Así funcionará CompactifAI
El trabajo que hay detrás de CompactifAI es muy minucioso para lograr resultados favorables. El equipo de Multiverse detalla que usaron Redes Tensoriales, que es un enfoque inspirado en la forma en la que las partículas interactúan en los sistemas cuánticos. Del mismo modo que un tejido está formado por hilos entrelazados, las redes tensoriales cuentan con nodos (partículas) y enlaces (unión de los nodos). A diferencia de la cuantización o la poda, las Redes Tensoriales analizan la estructura profunda de la red neuronal. Eso permite identificar y borrar correlaciones redundantes o falsas y mantener solo las esenciales.
Román Orús, cofundador y director científico de Multiverse, quien está detrás de la utilización de Redes Tensionales para CompactifAI afirma que eso permitirá que «por primera vez en la historia» se analice «el funcionamiento interno de una red neuronal». El experto apunta que dicho análisis servirá para «eliminar miles de millones de correlaciones falsas«. De este modo, Multiverse logrará su objetivo de optimizar al máximo los modelos de IA sin grandes costes y permitiendo su utilización en dispositivos pequeños con un rendimiento prácticamente idéntico al de antes de la compresión.
De momento, CompactifAI ya ha publicado las versiones comprimidas de los principales modelos Llama, DeepSeek y Mistral AI. En su comunicado de prensa, especifica que «próximamente» añadirán más LLM. Por ejemplo, con la criba de ComactifAI, Llama 3.1 pasa de unos 16 GB a 8B, con una pérdida de rendimiento inferior al 2%. En el caso de DeepSeek-V2.5 se comprimiría el 94,9%, y la pérdida de rendimiento no llegaría ni al 3%.

Tuan Tran, presidente de Tecnología e Innovación de HP, compañía que forma parte del grupo de inversores del proyecto, se muestra positivo con CompactifAI. «Al hacer que las aplicaciones de IA sean más accesibles en el edge, el enfoque innovador de Multiverse tiene el potencial de hacer realidad los beneficios de la IA, como un mayor rendimiento, personalización, privacidad y rentabilidad, para empresas de cualquier tamaño», comenta.