Anthropic Lanza Claude Opus 4, Proclamándolo "Rey de la Programación IA" y Desafía a Google y OpenAI

Anthropic ha sacudido el panorama de la inteligencia artificial con el anuncio de sus modelos de nueva generación, Claude Opus 4 y Claude Sonnet 4, lanzados oficialmente el 22 de mayo de 2025. En un audaz desafío a gigantes establecidos como Google y OpenAI, la compañía ha proclamado a Claude Opus 4 como «el mejor modelo de programación del mundo», intensificando la ya feroz competencia en el sector.

Este movimiento estratégico de Anthropic, que coincide con recientes anuncios de avances por parte de Google con Gemini 2.5 Pro y las continuas innovaciones de OpenAI con modelos como GPT-4.1 y o3, subraya su ambición de liderar en el nicho crítico de la programación asistida por IA.

Claude Opus 4: La Nueva Referencia en Código IA

La contundente afirmación de Anthropic sobre la superioridad de Claude Opus 4 en programación se sustenta en su rendimiento sobresaliente en benchmarks clave de la industria. Destaca especialmente en el SWE-bench (Software Engineering Benchmark), una prueba diseñada para evaluar la capacidad de los LLM para resolver problemas reales de ingeniería de software extraídos de GitHub.

SWE-bench: Claude Opus 4 obtuvo un 72.5% en su configuración base y un impresionante 79.4% utilizando una metodología de «cómputo de prueba en paralelo», que implica un proceso más intensivo de muestreo y selección de soluciones.
Terminal-bench: También demostró liderazgo con un 43.2% (50.0% con cómputo alto), evaluando su razonamiento en entornos de línea de comandos, crucial para DevOps.

Además de los benchmarks, Opus 4 está diseñado para un «rendimiento sostenido en tareas complejas y de larga duración», como lo demostró al operar autónomamente durante siete horas en una tarea de refactorización de código para Rakuten. Esta capacidad es fundamental para potenciar agentes de IA más autónomos y sofisticados.

Claude Sonnet 4: Potencia y Eficiencia para el Uso Diario

Junto al modelo estrella, Anthropic presentó Claude Sonnet 4, una actualización significativa de su predecesor, diseñado para ofrecer un equilibrio óptimo entre rendimiento y coste. Sorprendentemente, Sonnet 4 muestra cifras en SWE-bench que rivalizan e incluso superan a Opus 4 en algunas configuraciones (72.7% base, 80.2% cómputo alto), posicionándolo como una opción de gran valor.

Sonnet 4 también presenta una reducción del 65% en el «reward hacking» comparado con Sonnet 3.7, mejorando su fiabilidad. Su capacidad ha llevado a GitHub a anunciar que potenciará el nuevo agente de codificación en GitHub Copilot.

Comparativa de Rendimiento en Programación:

Modelo	SWE-bench Verified (base)	SWE-bench Verified (cómputo alto)	Terminal-bench (base)
Claude Opus 4	72.5%	79.4%	43.2%
Claude Sonnet 4	72.7%	80.2%	35.5%
OpenAI GPT-4.1	54.6%	N/A	30.3%
OpenAI o3	69.1%	N/A	30.2%
Google Gemini 2.5 Pro	63.2%	N/A	25.3%

Innovaciones Clave en la Familia Claude 4

Ambos modelos introducen el concepto de «Pensamiento Extendido» y razonamiento híbrido, permitiendo alternar entre respuestas rápidas y un análisis más profundo para problemas complejos. Han mejorado el uso de herramientas (Tool Use), permitiendo el empleo de múltiples herramientas en paralelo como búsqueda web y ejecución de comandos. También se han implementado mejoras significativas en la memoria, con Opus 4 capaz de crear «archivos de memoria» para un mejor rendimiento en tareas de agentes a largo plazo. Todos operan con una ventana de contexto de 200,000 tokens.

Un Trono Disputado: Rendimiento en Otras Áreas

Si bien Claude Opus 4 brilla en programación, en otras áreas como el razonamiento multimodal (MMMU benchmark) y el razonamiento general de alto nivel (GPQA Diamond benchmark), modelos como OpenAI o3 y Google Gemini 2.5 Pro muestran un rendimiento competitivo o superior, sugiriendo que la especialización en codificación es una apuesta estratégica de Anthropic.

MMMU (Multimodal): Claude Opus 4 (76.5%), OpenAI o3 (82.9%), Google Gemini 2.5 Pro (79.6%/81.7%).
GPQA Diamond (Razonamiento): Claude Opus 4 (79.6% base / 83.3% extendido), OpenAI o3 (83.3%), Google Gemini 2.5 Pro (83.0%/84.0%).

Acceso y Costes

Los nuevos modelos están disponibles a través de la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud. Sonnet 4 potenciará el agente de codificación de GitHub Copilot, y Opus 4 estará en Copilot para planes Enterprise y Pro+. Ambos están en los planes de suscripción de Claude.ai, con Sonnet 4 disponible gratuitamente en el sitio.

Claude Opus 4: $15 USD por millón de tokens de entrada / $75 USD por millón de tokens de salida.
Claude Sonnet 4: $3 USD por millón de tokens de entrada / $15 USD por millón de tokens de salida.

Esto posiciona a Opus 4 en el segmento premium y a Sonnet 4 como una alternativa más económica, con un rendimiento en programación que lo hace muy atractivo.

El Futuro de la Programación y la IA

El lanzamiento de Claude Opus 4 y Sonnet 4 por Anthropic no solo eleva el listón en la IA para programación, sino que también promete acelerar la productividad de los desarrolladores y fomentar un ciclo de innovación aún más rápido. La competencia entre Anthropic, Google y OpenAI beneficia a los usuarios, ofreciendo herramientas cada vez más capaces que están transformando la forma de crear software, pasando de simples asistentes a colaboradores autónomos. Esto, a su vez, implica una adaptación necesaria por parte de los profesionales del software, quienes deberán enfocarse en tareas de mayor nivel y supervisión estratégica de estos potentes sistemas de IA.

Comparte este contenido: