Saltar al contenido principal

2 publicaciones etiquetados con "performance-analysis"

Ver Todas las Etiquetas

Haiku 4.5: 4 Days Later - Real Community Feedback & Deep Analysis

· 13 min de lectura
Claude Dev
Claude Dev

On October 15, Anthropic released Claude Haiku 4.5. Four days later, we've collected real feedback from Hacker News, technical blogs, and developer communities, along with performance data, to see if this model actually lives up to the hype.

Spoiler: This might be one of the most disruptive AI model releases this year.

Claude AI en noviembre de 2025: un mes de “razonamiento extremo”, Skills y uso del computador

· 3 min de lectura
Claude Dev
Claude Dev

Noviembre de 2025 llevó a Anthropic a mover la familia Claude de “chatbot servicial” a “colega agente”.
A continuación, los tres titulares que quizá te perdiste mientras cerrabas el Q4.


1. Llega “Extreme Reasoning” – Opus 4 y Sonnet 4 piensan más tiempo y programan mejor

  • Qué cambió

    • Claude Opus 4 se convierte en el modelo insignia para código, pensado para bucles de agente de varias horas.
    • Claude Sonnet 4 gana 2 × de velocidad y mayor fidelidad de instrucciones.
    • Ambos modelos llegan con dos modos:
      1. Fast (sub-segundo)
      2. Extended-thinking (hasta 5 minutos), permitiendo al modelo buscar, probar y depurar sus propias salidas.
  • Por qué importa
    En benchmarks internos sube 42 % en SWE-bench (issues reales de GitHub) vs. 3.5-Sonnet, con pass@1 por encima de 70 % cuando el agente puede iterar.
    Usuarios tempranos reportan sesiones autónomas de 7 horas que completan ramas de features sin intervención humana [^14^].

  • Cómo probarlo

    • Disponible ya en claude.ai (Max/Team/Enterprise) y en la API de Anthropic.
    • Activa “Extended thinking” en la UI o define thinking_budget_tokens en la API.

2. Skills en GA – convierte a Claude en el mini-empleado de tu empresa

  • Qué es
    Skills son carpetas portátiles que agrupan instrucciones, scripts de Python/R, guías de marca, consultas SQL—todo lo que Claude necesita para repetir un flujo.
    Piensa en “macro de Excel” + “GPT”, pero con control de versiones y compartible entre asientos.

  • Incluye 20 preconstruidos

    • “Parser de resultados trimestrales” (extrae tablas de PDFs y redacta el resumen del CEO)
    • “Brand-guard de Canva” (recorta al template y exporta 4 tamaños)
    • “Jira→Slack sprint digest”
  • Quién lo obtiene
    Planes Pro, Max, Team y Enterprise. Soporte de API y Agent SDK disponible desde el 18 de noviembre [^3^].


3. Computer-Use sale de beta – Claude ahora maneja tu escritorio

Presentada en octubre, la versión 3.5 que puede ver píxeles, mover el cursor y escribir alcanza nivel producción.

  • Novedades de noviembre

    • Flujos multi-app (p. ej., sacar datos de Snowflake, pegar gráfico en Google Slides, exportar a PDF).
    • Precisión de visión ↑ 18 % en el leaderboard de OSWorld.
    • Cumplimiento SOC-2 Tipo II ⇒ aprobado para industrias reguladas [^15^].
  • Precios
    $0.60 / tarea exitosa (éxito = el usuario hace clic en “Approve”). El plan gratis recibe 25 tareas/mes hasta que termine la promoción de enero de 2026.


Titulares rápidos que quizá pasaste por alto

  • Web-search sale de beta – ahora en todos los planes de pago, citas auto insertadas [^5^][^12^].
  • Caché de prompt por 1 hora – mantiene 1 M tokens de contexto en caliente por <$0.20, ideal para documentos del tamaño de un libro [^14^].
  • GitHub Actions para Claude Code – ejecuta bucles nocturnos de prueba-arreglo sin servidor [^14^].

Mirando hacia adelante

La diapositiva de roadmap filtrada el 29 de noviembre insinúa:

  • Memory v2 – recuerdo entre conversaciones para usuarios individuales gratuitos (dic.).
  • Claude 4 Haiku – 200 Hz, menos de $0.10 / 1 K tokens, orientado a dispositivos embebidos (Q1-26).
  • Región europea – endpoints conformes a GDPR en Irlanda (feb-26).

Conclusión

Noviembre marca el momento en que Claude dejó de pedirte prompts perfectos y empezó a traer su propio kit de herramientas al trabajo.
Si aún no probaste Extended-thinking o Skills, agenda un sandbox de 30 minutos antes de fin de año: tu yo de 2026 te lo agradecerá.

Happy building!