¿Qué es el contexto?

Hablando con la IA

A cualquiera que haya usado ChatGPT o un LLM en general, le habrá llamado la atención que los modelos carecen de cualquier percepción del momento: no saben qué día es, el tiempo que hace, ni siquiera cuál ha sido la última pregunta que les has hecho.

Esto se debe al funcionamiento intrínseco de estos modelos. Los LLMs realizan una predicción del siguiente token en base a un contexto de entrada (también llamado ventana de atención). Sin más datos que la pregunta que acaba de formular, el modelo seguramente se equivoque al intentar responder o dirá que no puede contestarte porque carece de acceso a información adicional. Por ende, para extraer el máximo partido de los LLMs es fundamental proporcionarle este contexto.

Peeker

Los tokens son la unidad mínima que usa un modelo de lenguaje. Originalmente se asociaban directamente con palabras, aunque los LLM modernos, como GPT-4o o Llama, usan BPE (Byte Pair Encoding), dividiendo las palabras en fragmentos más pequeños que una palabra completa.

Formas de contexto

Casi todas las técnicas de prompt engineering (o cómo escribir prompts) consisten en proporcionar el contexto adecuado al LLM para que la predicción de tokens de su respuesta sea útil.

RAG: Consiste en proporcionar fragmentos de documentos similares semánticamente a la pregunta del usuario, para tener contexto sobre el tema.
Ejemplos: Fundamental. Un único ejemplo de la tarea dada incrementa en gran medida el entendimiento del modelo. Entre 1 y 5 ejemplos son óptimos para obtener una respuesta adecuada.
Mensajes previos: Dado por las aplicaciones de IA, como ChatGPT. El recordar los mensajes previos ayuda en la generación, ya que estos modelos están entrenados específicamente para seguir esta forma de trabajo. Por el contrario, hablar de temas distintos puede alterar la precisión del modelo.

Contexto infinito?

Desde el lanzamiento inicial de ChatGPT, la capacidad de contexto se ha incrementado de forma exponencial. Originalmente, ChatGPT solo disponía de unos 8.000 tokens de contexto.

Este contexto incluía tanto la entrada (input) como su respuesta (output), lo que limitaba los textos que podía generar.

Actualmente, GPT-4.5, el modelo insignia de OpenAI, tiene un contexto total de 128.000 tokens. Otros modelos de vanguardia, como Llama 4 Maverick, lanzado a principios de mes, tienen una ventana de atención de 10 millones de tokens, siendo capaz de procesar películas y libros en una sola respuesta. Otros modelos como Gemini-2.5 Flash de Google también disponen de un contexto muy amplio.

Contexto y razonamiento

Los modelos de razonamiento, como o1 o o3-mini de OpenAI, emplean su propia ventana de contexto para razonar. El modelo "piensa en voz alta" antes de generar la respuesta final al usuario. Esto también se traduce en un costo mucho mayor de tokens si se usa la API para interactuar con el modelo.

Los límites del contexto

Aunque los modelos dispongan de ventanas de atención tan amplias, el estudio que acompaña al lanzamiento de estos modelos suele indicar una pérdida de precisión muy grande a partir de cierto número de tokens. Esto se da en modelos pequeños, llamados (SLMs), como Phi-4, que a pesar de tener una capacidad de contexto de 128.000 tokens, no se recomienda superar los 16.000 ni tampoco esta enfocado a uso de chat directo.

Conclusión

En este artículo hemos comenzado a explorar cómo funcionan los modelos de lenguaje y por qué es tan importante el contexto al interactuar con ellos, ya que los LLMs carecen de cualquier conocimiento intrínseco; por eso es necesario proporcionar datos adicionales para generar una respuesta verdaderamente útil.