
AI ta Krajta #54 | Claude Opus 4.8, DeepSWE a proč coding agenti míří za hranice IDE
🔥 Další díl AI ta Krajta! 54. epizoda, kde řešíme Claude Opus 4.8, long-running coding agenty, DeepSWE, context engineering, spekulativní decoding a bezpečnost autonomních agentů.
V tomto díle začínáme čerstvě vydaným Claude Opus 4.8 a novinkami v Claude Code. Probíráme Dynamic Workflows, paralelní subagenty, dlouhý kontext a otázku, jestli se coding agenti posouvají od „lepšího editoru“ k prostředí, které samo plánuje, spouští a vyhodnocuje dlouhé vývojové úlohy.
Velkou část věnujeme benchmarkům pro agentické programování: DeepSWE, mini-SWE-agent, Terminal-Bench, kontaminaci dat, ruční verifikaci úloh a rozdílu mezi tím, co umí samotný model, a tím, co mu umožní dobrý harness. Zároveň řešíme Recursive Language Models, lokální modely, paralelizaci a možnost, že silný frontier model bude plánovat, zatímco dílčí subtasky poběží na levnějších specializovaných modelech.
Druhá tematická osa je context engineering. Mluvíme o správě kontextu v dlouhých bězích, sdílené KV cache, REPL přístupech, prohledávání codebase, MCP, skills, presetech, tool callingu a problému, že příliš mnoho nástrojů může modelu spíš sežrat pozornost než pomoct. Navazujeme spekulativním decodingem, EAGLE 3.1 a attention driftem: proč zrychlování inference funguje dobře u krátkých výstupů, ale může narážet u dlouhých editací a agentických workflow.
V závěru řešíme praktickou sílu i rizika agentů s terminálem. Coding agent v „YOLO módu“ umí instalovat knihovny, spouštět skripty, procházet web, analyzovat PDF, generovat výstupy a iterovat nad výsledkem. Právě schopnost psát a spouštět kód v loopu podle nás zásadně mění, co model dokáže. S tím ale přichází otázka bezpečnosti: sandboxy, omezené tokeny, vlastní GitHub účty pro agenty, auditovatelnost akcí, verzované databáze typu Dolt, vrstvená obrana a problém, zda příliš tvrdé bariéry nevytvářejí tlak na jejich obcházení.
Děkujeme sponzorům:
🚀 Promptbook: https://ptbk.io
🤖 AI supervize: https://ptbk.io/ai-supervize
Sítě, kde nás můžete sledovat:
➡️ LinkedIn: https://www.linkedin.com/company/aitakrajta
➡️ Spotify: https://open.spotify.com/show/31vLTHTV4vlCBeHpnbMKlK?si=1e51d95b9d3f46dd
➡️ Apple Podcasts: https://podcasts.apple.com/cz/podcast/ai-ta-krajta/id1813389353
Zdroje:
Claude Opus 4.8
https://www.anthropic.com/news/claude-opus-4-8
Claude Code Subagents
https://code.claude.com/docs/en/agent-sdk/subagents
DeepSWE
https://deepswe.net/
mini-SWE-agent
https://github.com/SWE-agent/mini-swe-agent
Terminal-Bench
https://www.tbench.ai/
Recursive Language Models
https://arxiv.org/abs/2512.24601
Attention Drift
https://arxiv.org/abs/2605.09992
EAGLE 3.1 ve vLLM
https://vllm.ai/blog/2026-05-26-eagle-3-1
Dolt
https://docs.dolthub.com/introduction/getting-started/git-for-data
Kapitoly:
00:00 - Úvod a Claude Opus 4.8
01:42 - Dynamic Workflows a subagenti v Claude Code
02:23 - Recursive Language Models a dlouhý kontext
04:10 - DeepSWE a long-running coding agenti
07:20 - mini-SWE-agent, benchmarky a kontaminace dat
08:31 - Model vs. harness: co vlastně měříme?
10:05 - Agentic compute a paralelizace úkolů
15:03 - Context engineering jako nové klíčové téma
16:53 - REPL, KV cache a správa kontextu
18:04 - Prohledávání codebase a pálení tokenů
21:24 - Spekulativní decoding a EAGLE 3.1
22:05 - Attention drift a dlouhé agentické běhy
25:01 - MCP, skills, presety a zahlcení nástroji
31:44 - Agent běžící na VPS a OpenClaw-like setup
33:20 - Agents SDK vs. YOLO mód
35:06 - Proč spouštění kódu mění schopnosti modelů
40:05 - Model, který programuje, získává superschopnost
43:28 - Dolt a verzované databáze pro agenty
44:15 - Bezpečnostní heuristiky a destruktivní příkazy
47:39 - Vlastní identita, tokeny a auditovatelnost agentů
49:55 - Sandboxy, vrstvená obrana a riziko obcházení bariér
51:30 - Never-ending agenti a limity dnešních modelů
52:34 - Závěr
