El extraño caso de la IA menguante: cómo los modelos diminutos le están sacando los colores a los mastodontes de la IA

El extraño caso de la IA menguante: cómo los modelos diminutos le están sacando los colores a los mastodontes de la IA

La IA no parece avanzar mucho. Al menos la IA «grande». Los mejores modelos del mercado apenas logran ya dar saltos cualitativos relevantes, y eso a pesar de ser gigantescos y del dineral, tiempo y talento que las empresas invierten en crearlos. Lo hemos visto con Llama 4, Claude 4 o el reciente (y decepcionante) GPT-5. Pero mientras que esots modelos gigantescos cada vez sorprenden menos, los modelos de IA diminutos cada vez sorprenden más. Algo (pequeñito) se está moviendo.

Google mueve ficha fichita. La semana pasada Google nos sorprendía a todos con el lanzamiento de un modelo de IA pequeño. Bueno, pequeño no: diminuto. Casi podría decirse que es un «nanomodelo». Gemma 3 270M es una versión extremadamente compacta con tan solo 270 millones de parámetros. ¿Cómo de pequeño es eso? Es fácil entenderlo cuando comparamos ese modelo con alguno de los modelos Open Source más reputados:

Llama 4: en su versión Behemoth, 288B (1.066 veces más grande)
Qwen 3 235B (870 veces más grande)
DeepSeek R1 671B (2.485 veces más grande)

Un modelo hipereficiente. Los propios responsables de Google dejaban claro que este modelo no puede competir con los grandes modelos de IA, pero es que ese no era su objetivo. Su objetivo es ser hipereficiente y, atención, hiperespecífico. Lo que se persigue aquí es convertir a Gemma 3 270M en el pilar de muchísimos modelos adaptados a tareas muy específicas y concretas.

El secreto se llama ajuste fino. Gemma 3 270M, insistían estos ingenieros, es un modelo perfecto para procesos de ajuste fino (fine tuning) en tareas muy específicas. Una empresa (o desarrollador) cualquiera puede coger un modelo pequeño, como este, y entrenarlo con sus propios datos y afinarlo para una tarea concreta siguiendo las instrucciones de Google para Hugging Face. Por ejemplo, para generar cuentos que leer a los niños por la noche (código), para convertir texto confuso en datos estructurados, para personalizar mensajes, para clasificar correos electrónicos o tickets de soporte, o incluso para jugar al ajedrez de forma decente.

Modelos pequeños al poder. Google ya apostó por este tipo de modelos pequeños cuando presentó Gemma 3 en marzo. En aquel momento las versiones presentadas eran 1B, 4B, 12B y 27B, siendo la última la única realmente «grande» en términos absolutos. El resto podrían ejecutarse en local en máquinas con 16GB de memoria gráfica, como un Mac mini M4. Es precisamente lo que pudimos comprobar con gpt-oss-20B (la descarga es de unos 12 GB), el modelo Open Source recientemente lanzado por OpenAI que se comportó de forma notable. Pero incluso este último podría considerarse «grande», y en las últimas semanas y meses hemos visto más y más modelos «diminutos» que animan el mercado.

El rendimiento de Gemma 3 270M es sorprendente a pesar de su reducido tamaño. Y aun así, lo mejor de todo no es eso: es su capacidad de que lo adaptemos a una tarea concreta.

Ejemplos por doquier. Microsoft ya apostó por este tipo de modelos con Phi-3 y Phi-4 (14B), que en su lanzamiento competía con el modelo chino Qwen-2.5-14b, aunque de nuevo estos modelos trataban de plantear alternativas «mini» a grandes modelos como GPT-4o o Llama-3.3 70b. Podían ser utilizados para ajuste fino, pero ya venían entrenados para ajustarse a diversos escenarios. Otros, más desconocidos, han ido más allá: la startup Liquid lanzó un modelo dirigido a entornos visuales llamado LFM2 con tan solo 440M de parámetros, y NVIDIA acaba de lanzar Nemotron -Nano-9B, que logra mejorar el rendimiento de Qwen3-8B en diversos benchmarks.

Perfectos para móviles y relojes inteligentes. Otra ventaja de estos modelos es que gracias a su pequeño tamaño son capaces de correr en muchos más dispositivos, por modestos que sean. Son ideales para poder usarse por ejemplo en nuestros móviles, relojes inteligentes o productos incluso más limitados. Su eficiencia está a la orden del día: como destacó Google, en un Pixel 9 Pro una versión cuantizada (INT4) de Gemma 3 270M puede gestionar 25 «conversaciones» (chats) usando tan solo un 0,75% de la batería del móvil. Es tan pequeño que hasta puede ejecutarse en una pestaña de un navegador como si cargaramos un sitio web (pesado) más, como el ejemplo de la aplicación web que genera cuentos para dormir a los niños o esta otra que nos muestra cómo el modelo empieza a desvariar, pero de forma divertida, y cuyo código está disponible.

Un futuro prometedor. El modelo de Google, como otros similares, plantean esa otra vertiente de la que hablaba Google. Más que un modelo todoterreno, lo que ofrecen es una base sobre la que construir «la herramienta adecuada para el trabajo». Este tipo de pequeños modelos, bien afinados y entrenados, pueden ser la base del diseño de todo tipo de pequeñas aplicaciones y agentes de IA que luego acaben interconectándose y que funcionen de forma muy, muy eficiente. Quizás era cierto eso de que las mejores esencias se venden en frascos pequeños.

Imagen | Amanz

En Xataka | Si la pregunta es cuál de las grandes tecnológicas está ganando la carrera de la IA, la respuesta es: ninguna


La noticia

El extraño caso de la IA menguante: cómo los modelos diminutos le están sacando los colores a los mastodontes de la IA

fue publicada originalmente en

Xataka

por
Javier Pastor

.