¿Qué es un LLM?

¿Qué es?

Un LLM (Large Language Model, o modelo de lenguaje de gran escala) es un modelo de inteligencia artificial entrenado para entender y generar texto. Lo hace prediciendo qué viene después: dado un contexto, calcula qué token es el más probable que siga.

Eso que parece simple es lo que hace posible que un modelo responda preguntas, escriba código, traduzca idiomas, resuma documentos o mantenga una conversación coherente. Todo es predicción de texto a gran escala.

"Grande" no es un adorno — se refiere a la cantidad de parámetros (los valores numéricos que el modelo aprende durante el entrenamiento). Los modelos modernos tienen desde miles de millones hasta billones de parámetros. Esa escala es lo que les da capacidad de generalización: no memorizan respuestas, aprenden patrones del lenguaje humano.

Modelo mental

Imagina que tienes un sistema que ha leído prácticamente todo internet, todos los libros digitalizados, todo el código público de GitHub. No para memorizar, sino para aprender la estructura del lenguaje: qué palabras van juntas, cómo se construyen los argumentos, qué suele venir después de "el resultado fue".

Cuando le haces una pregunta, el modelo no "busca" la respuesta en una base de datos. La construye token por token, eligiendo en cada paso lo que tiene más sentido dado lo que ya escribió.

flowchart LR A[Prompt de entrada] --> B[Tokenización] B --> C[Cálculo de probabilidades\npor el transformer] C --> D[Selección del siguiente token] D --> E{¿Fin?} E -- No --> C E -- Sí --> F[Respuesta completa]

Un token no es una palabra — es un fragmento de texto. "desarrollador" puede ser 3 tokens. Un carácter especial puede ser 1. En promedio, un token equivale a unos 4 caracteres en inglés, un poco más en español. Esto importa porque los modelos tienen un límite de tokens que pueden procesar a la vez — la ventana de contexto.

¿Cómo se usa?

La forma más directa de usar un LLM es a través de una API. Mandas un mensaje, recibes una respuesta.

from anthropic import Anthropic
 
client = Anthropic()
 
respuesta = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Explica qué es la tokenización en una frase."}
    ]
)
 
print(respuesta.content[0].text)

Lo que mandas se llama prompt. Cómo lo construyes afecta directamente la calidad de la respuesta — de eso se ocupa el prompting.

Los LLMs también pueden usarse como base de sistemas más complejos: agentes que usan herramientas, pipelines de RAG que los combinan con bases de conocimiento, o flujos de trabajo donde varios modelos colaboran. Pero todo eso construye sobre este fundamento: un modelo que predice texto.

¿Cuándo usarlo / cuándo no?

Úsalo cuando:

Necesitas procesar o generar texto con flexibilidad: resumir, traducir, clasificar, extraer información.
La tarea requiere razonamiento sobre lenguaje natural.
El input puede ser ambiguo o estar en formatos no estructurados.
Quieres una interfaz conversacional para acceder a funcionalidad de tu sistema.

No lo uses cuando:

Necesitas precisión determinista. Los LLMs son probabilísticos — para cálculo exacto, usa código.
La tarea requiere información actualizada en tiempo real. El modelo tiene una fecha de corte.
Manejas datos sensibles que no pueden salir de tu infraestructura (salvo que uses modelos on-premise como Llama).
Necesitas auditabilidad completa de por qué tomó una decisión específica.

Conceptos relacionados

¿Qué es un token? — la unidad básica que procesan los LLMs
¿Qué es el contexto (context window)? — cuánta información puede "ver" el modelo a la vez
¿Qué es un embedding? — cómo los LLMs representan el significado numéricamente
Prompting — cómo instruir al modelo para obtener mejores resultados
¿Qué es un agente de IA? — cómo los LLMs se usan como motor de sistemas más complejos

Recursos externos

Los recursos se gestionan desde el panel admin.

Historia y evolución

Ver historia

Los modelos de lenguaje existen desde los años 90, pero eran estadísticos y limitados — predecían la siguiente palabra basándose en conteos de frecuencia.

El salto fundamental llegó en 2017 con el paper "Attention Is All You Need" de Google, que introdujo la arquitectura transformer. El mecanismo de atención permitió que los modelos relacionaran palabras distantes en un texto de forma eficiente, algo que las redes recurrentes (LSTM, GRU) hacían mal.

En 2018, OpenAI publicó GPT-1 y Google publicó BERT — los primeros modelos grandes pre-entrenados que se podían afinar (fine-tuning) para tareas específicas. Hasta entonces, cada tarea de NLP requería un modelo entrenado desde cero.

GPT-2 (2019) y GPT-3 (2020) mostraron que escalar el modelo y los datos producía capacidades emergentes que nadie había diseñado explícitamente — razonamiento, few-shot learning, traducción sin entrenamiento específico.

ChatGPT (2022) fue el momento en que todo esto llegó al público general. Usaba RLHF (Reinforcement Learning from Human Feedback) para alinear el modelo con preferencias humanas, haciéndolo más útil en conversación.

Hoy el ecosistema incluye modelos propietarios (GPT-4, Claude, Gemini) y modelos abiertos (Llama, Mistral, Gemma) con capacidades comparables en muchas tareas.