Am Rande des Kaninchenbaus: Lucas Meijer ueber Pi

Lucas Meijer zeigt in seinem Talk A love letter to Pi, wie er täglich mit Coding-Agents arbeitet. Kein Hype, kein Agent-Swarm-Magic, keine verrückten Dark Factories, nur praktische Tips und Workflows: Nicer HTML-Output statt Text-Terminal-Wüsten, Sessions analysieren um den Agent besser im Repo fliegen zu lassen, und eine kompromisslose Sicht aufs eigene Context-Fenster.

We're so early. We have no idea what an ergonomic AI assistant actually looks like, and that's why, in this phase, it's so important to just try endless and throw it against the wall and see what sticks.

Die Kernidee, die mich auch schon eine ganze Zeit umtreibt: Wenn ich Software mit KI Agenten baue, bin ich plötzlich das Bottleneck. Wenn ein Agent eine Stunde läuft, kostet mich das Review viel Zeit. Und genau dort skaliert das nicht mehr. Meijers Antwort sind sogenannte Evaluation Packs: Der Agent baut sich seine eigene Prüfung direkt mit, zum Beispiel inklusive eines Demo Video-Recordings, oder Screenshots alles eingebettet in ein schickes HTML-Slide-Deck, damit ich als Mensch in ein paar Minuten überblicken kann, ob das Ergebnis passt. Bonus: Der Agent kann sich schwerer durchmogeln, weil er z.B. echte Artefakte, wie so ein Video abliefern muss.

If I'm the bottleneck of my whole little software factory, [...] let's try to have the agent do more of it. And let's [...] make them present a beautiful package for you that makes it really efficient to evaluate.

Für meine eigenen Sessions mit Claude Code und Codex heisst das: weniger mit dem Agent reden, mehr über mein Repo nachdenken. Wenn ein Build jedes mal wieder 500 Warnings ausspuckt, nervt das meinen Agent genauso wie mich. Nur sind diese Nerven viel viel teurer. Also lieber gleich Boy-Scout Regel aufsetzen und mit wegräumen lassen.

Und die zweite Sache, die ich ab heute anders mache: nicht mehr rum diskutieren, wenn ein Ergebnis nicht passt. Statt „nein, ich wollte das anders” lieber im Context zurückspringen und die Stelle fixen, an der falsch abgebogen wurde.

über 50% Context-Window = Dumb Zone — Lucas wird nervös, wenn sein Coding-Agent über 50% des verfügbaren Context-Windows kommt. Side-Quests kosten mich nicht nur unnötig Token, sondern machen den Agent auch dümmer und die Ergebnisse schlechter.
Agents wollen wissen, wie sie evaluiert werden — genau wie Menschen — Wenn ich vorne im Prompt sage, woran ich das Ergebnis messe, gibt das dem Agent Klarheit darüber, wann er fertig ist. Lucas pointiert: „This is actually also a great tip for humans.“ Ich hatte das in der Form ehrlich gesagt noch nie klar in meinen Prompts formuliert.
Pi kann sich selbst erweitern, waehrend es laeuft — Lucas baut live eine Doom-Overlay-Extension für Pi, lädt dann mit `/reload` hot ein und spielt Doom während der laufenden Agent Aufagben beackert. Er nennt das „Barbapapa-Software“, die sich beim Benutzen in die passende Form morpht, finde ich als Idee einfach genial. Statt dem Projekt, das sich an den Harness anpassen muss, passt sich der Harness ans Projekt an.

Was mich überrascht hat