GPT 5.5 ist eine Maschine
AI mit Arnie · 2026-04-25
· 🇩🇪 Deutsch
· YouTube Playlist
https://www.youtube.com/watch?v=zvJKkSmEg8I
https://www.youtube.com/watch?v=zvJKkSmEg8I
📄 Zusammenfassung
Zum kompletten Kurs mit persönlicher Unterstützung: Kostenlose Unterlagen: Weitere Videos: Claude Code Kurs: OpenClaw Usecases: n8n Agenten Kurs: ComfyUI Basics: 0:00 Überblick 1:14 Test 1 Bilder 7:00 Test 2 10:00 Test 3 10:40 Test 4 11:50 Test 5 12:50 Test 6 17:45 Test 7 21:35 Infos und Benchmarks 28:00 OpenClaw Hermes 28:50 Probleme bei Anthropic 30:50 DeepSeek 31:30 Fazit: Claude VS GPT Meine Mail: arnio93 gmail.com Mein Instagram: Links Infos vom Video: Artikel GPT 5.5: Artikel ChatGPT Images 2: Zum kompletten Kurs mit persönlicher Unterstützung: chatgpt openai claudecode hermes openclaw anthropic ai opensource claude gpt aiagents n8n ki google llm diffusion
📚 Kapitel
🔗 Ressourcen
📝 Transkript
OPMI ist zurück und zwar mit GPT 5.5 und dem neuen Bildmodell und plötzlich ist Openmi wieder der Favorit und zwar beim besten LM und auch beim besten Bildmodell und zwar mit Abstand und gleichzeitig kippt die Stimmung bei Antropic. Cloud Nutzer beschweren sich über Rate Limits, Performance und auch die Verlässlichkeit von den Modellen ist unterirdisch schlecht. Dario hat scheinbar seine Mathtee Aufgaben nicht korrekt gemacht und zu wenig in Rechenleistung investiert. Und als ob das alles nicht genug wäre, zieht auch Deeps nach mit der Version 4. Ein Open Source Modell mit einer Million Kontextfenster, die Performance nahe den Topmodellen und die API ist 5 bis zehn mal günstiger als die amerikanische Konkurrenz. In diesem Video testen wir die OpenI Modelle, wir sehen uns die Benchmarks an und am Ende klären wir die Frage, ob man das an Tropicbo kündigen sollte. Das da ist der Artikel zu GPT 5.5. Den sehen wir uns später an. Ich denke, wir sollten mit Tests beginnen. Du kannst GPT 5.5 testen, entweder direkt in Chat GPT, einfach hier auf Thinking, dann hast du das Modell sofort oder aber du verwendest es in der Codex App. Wir werden in diesem Video beides testen. Ich starte aber in der Codex App. Es macht wenig Sinn dir zu zeigen, dass das Ding Mails schreiben kann oder ähnliches. Deshalb habe ich ein paar knifflige Tests rausgesucht. Ich bin hier in der Codex App. Die Codex App ist eigentlich das gleiche wie Cloud Code, aber eben von Open AI. Musst sichergehen, dass du auf der neuesten Version bist. Da sollte da oben irgende etwas blau sein, falls du nicht up to date bist. Und dann bekommst auch hier GPT 5.5. Und ich würde ganz spontan empfehlen, hier hoch zu verwenden. Wir sehen uns später noch an, warum. Extra hoch wirst du wahrscheinlich nicht brauchen. Ich bin hier gerade in einem Ordner, der Webseite 5.5 heißt. Und in diesem Ordner ist bisher nichts außer ein lausiges regeneriertes Bild von mir. Und unser Prompt sieht so aus. Nimm das Bild als Referenz und erstelle drei Variationen daraus aus verschiedenen Winkeln mit GBD Image 2. Jetzt müssen wir natürlich das Bild decken. Das kannst du entweder mit Add machen oder du klickst ganz einfach hier plus Fotos hinzufügen. Wir sind im Ordner und öffnen das Ding. GPD Image 2 ist übrigens das neue Bildmodell. Sehen wir uns vielleicht dann, während das generiert. Danach soll eine Webseite erstellt werden, die als Landing Page dient, um meine Produkte und Dienstleistungen anzubieten. Dann schreibe ich kurz ein paar Produkte und Dienstleistungen dazu, dass ich natürlich Kagenten und Automatisierungen anbiete für Unternehmen mit über 4 Millionen Umsatz, Schulungen und Workshops zu den Themen LMS Diffusion, ein Cloud Code Confie und so weiter. Und falls jemand selbst lernen möchte, sollte der Link auf meine Community zeigen. Die CTA sollen auf meine E-Mail verweisen, um ein Erstgespräch für meine Dienstleistungen zu vereinbaren und für alle, die selbst lernen wollen, auf meine Community. Und die Hero Section der Seite sollte so aussehen. Hier komme ich jetzt im Endeffekt auf 21st.def und ich kopiere mir ganz einfach diesen Style, weil ich den einbauen möchte. Also, Copy prompt, wir schmeißen das jetzt dazu. Das ist mittlerweile ein gigantischer Prompt. Also hier sind viele, viele Dinge mit dabei. Und wir schicken es los und sehen uns an. was Codex für uns alles machen kann. Du siehst, das wird der Bildskill genutzt. Das werden also erstmal Bilder erstellt. Das wird jetzt eine Weile dauern. Inzwischen zeige ich dir vielleicht ganz kurz das neue Bildmodell. Das neue Bildmodell nennt sich ChatGPD Images 2.0. Es ist das erste Modell, das auch Thinking mit dabei hat. Es kann auch das Websuchen. Es kann auch mehrere Bilder auf einmal erstellen, deshalb auch der Prompt. Und es ist natürlich viel präziser und du hast mehr Kontrolle. Und Bilder klappen übrigens bis zu 2K über die API. Verschiedene Sprachen funktionieren auch wunderbar. Natürlich auch Fotorealismus, Comics mit konsistenten Charakteren, verschiedene Seitenverhältnisse von 3:1 bis zu 1:3. Damit kannst du super timelaps machen. Sogar etwas intelligenz soll eingebaut sein für Infografiken, Mookups und es ist auch in der API verfügbar. Ich zeig dir vielleicht ein zwei Tests, die ich gemacht habe. Im Endeffekt wollte ich einen Haufen Reis haben und auf einem Reißkorn soll das Wort R I E S stehen und zwar genauso. Das Wort macht wenig Sinn, das ist super schwer zum Generieren, aber das hat wirklich perfekt gepasst. Dann wollte ich die Schwierigkeit erhöhen und es soll auf jedem Reisorn genau dieses Wort stehen und auch das scheint zu klappen. Als nächstes habe ich ein Buch generiert mit einem QRCode und teilweise kann man diese QRCodes sogar scannen. Die Idee dazu kam mir wegen diesem Video, dass ich auf X gefunden habe. Hier hat ein Typ ein Buch erstellt mit einem Barcode und der Barcode konnte gescannt werden und führt danach tatsächlich per Link zum Buch. Thumbnails werde ich ab jetzt mit diesem Modell machen. Es versteht auch relativ genau, wie man vielleicht einen Balkon aufbauen könnte und auch wie man eine JM Press ausführt, welche Muskelpartien beteiligt sind und welche Winkel die ganzen Gelenke haben. Lediglich mit dem Trizeps bin ich nicht ganz mit einverstanden. Der läuft nicht wirklich bis in die Hälfte vom Unterarm mit rein. Das neue Bildmodell von Openmii ist ein Riesensprung nach oben. Nano Banana war bisher an der Spitze mit 1271 Punkten und das neue GPD Modell kommt auf 157 Punkte. Das ist eine Weile her, dass wir einen solchen Sprung nach oben hatten. Die Top 10 dahinter, die dümpeln alle zwischen 1150 und 1250 in etwa. Also ein Riesensprung. Codex hat im Endeffekt schon einiges für uns gemacht. Es hat drei Bilder generiert. Die drei Bilder, die sehen auch relativ gut aus. Als nächstes hat Codex die App für uns erstellt und zwar in React, die ganzen Strukturen stehen und im Endeffekt will das Ding jetzt ein PM install laufen lassen. Das hat aber länger gebraucht. Also sieht sich Codex jetzt an, ob noch was zu prüfen ist. Codex ist zurück und fragt uns, ob wir die Webseite öffnen wollen. Und die Webseite sieht so aus, auf den ersten Blick alles ziemlich gut umgesetzt. Was mir persönlich am besten gefällt, ist, dass die drei Bilder tatsächlich zuerst von Chip Image 2 kreiert wurden. Die wurden super gut eingebaut. Der ganze Ziel, die Runde herum hat sich super gut angepasst, auch auf den Style der Bilder. Im Hintergrund haben wir auch diesen leichten Effekt. Ich weiß nicht, ob man das im Video sieht. Das ist genau dieser Effekt, den wir uns hier rausgesucht haben und es wurde auch perfekt so angepasst, dass es zu unseren Farben passt mit diesem Grün hier mit dabei. Bei der Webseite kann man natürlich scrollen, Erstgespräch vereinbaren, selbst lernen. Hier sollte man wohl den Link zur Community bekommen. Ja, natürlich, das klappt. Man landet sofort in der Community. Ich meine, vielleicht hätte ich den Link zur Rabout Page verwenden sollen. Übrigens genau diese Community ist unten verlinkt. Kannst du auch mal vorbeischauen. Insgesamt finde ich die Webseite ziemlich gut für Umsetzung, Training und Adoption. Ich baue Agenten, ich gebe Schulungen, Praxisnahe hier, was ich alles unterrichte. Ja, nein, sieht ziemlich gut aus. Daumen hoch. Am besten finde ich hier tatsächlich, dass auch das Bildmodell sofort mit integriert ist. Lasst uns zum nächsten Test gehen. Diesen Test machen wir direkt in chatpt. Ich will mir auch hier die kann was ansehen. Wichtig ist, dass du da links oben drauf klickst und auf Finking gehst, dann solltest du das GPT5 Modell haben und auch da unten kannst du Standard oder das Extended Thinking verwenden. In der Chat GPT App würde ich dir das Extended Thinking empfehlen. Ich erkläre euch später noch mal, warum. Der Prompt ist im Endeffekt relativ groß, relativ komplex aufgebaut. Es geht darum, einen Bienenstock zu simulieren und es soll in viele verschiedene Features eingebaut werden auf einem Niveau, wie ich diesen Prompt bisher noch nie getestet habe. Ähnliche und einfachere Sachen von diesem Prompt habe ich schon getestet. Alles soll in einer harte Melatei sein, damit wir das sofortenden kann was sehen können. Es soll ein wachsender Bienenstock sein mit Hexagonzellen, die dynamisch aufgebaut werden. Unterschiedliche Rollen für Bienen. Wir haben Arbeiterbienen, Sammlerbienen und Brutpflegebienen. Bienen sollen sichtbare Pfade zwischen Brutbereich, Honigspeicher, Eingang und Nahrungsquellen nutzen. Nektar, Bollen und Wasser sollen als getrennte Ressourcen existieren. Honig soll nur entstehen, wenn die nötigen Prozessschritte logisch durchlaufen werden. Die Brut muss sich entwickeln, die Kolonie muss auf die Umwelt reagieren, also auf Wetter und so weiter. Wir haben auch eine interaktive Skalierung mit Slidern und Buttons hier, wie es visualisiert werden soll und noch ein paar Anforderungen. Die Datei ist da. Ich kann die runterladen oder auch hier testen. Ich glaube, ich lade die einfach mal runter. Das Ganze sieht so aus. Die Bienen scheinen tatsächlich auf Pfaden zu laufen. Sie haben auch unterschiedliche Farben. Da unten ist die Rollenlogik mit dabei. Die Koloniegröße kann ich verkleinern, dann wird das wahrscheinlich langsamer gebaut. Ich kann die auch vergrößern, denke ich zumindest. Ja, es sieht so aus, als ob mehr Bienen dazu kommen würden. Ich pack mal die Ressourcen etwas nach oben. Man sieht da drüben den Honigvorrat nach oben gehen. Wir können sogar Krankheiten hochbacken, falls wir die Koloniegröße und die Ressourcen und das Wetter nicht stabil machen, dann scheinen die Dinger wirklich zu humpeln, sich langsamer vorzubewegen. Also auf den ersten Blick scheint das Ganze Sinn zu ergeben. Und man sieht sogar der Honigvorrat geht im Endeffekt nach unten, weil wir hier kranke Bienen haben, die nicht anständig arbeiten können. Noch mal gesunde Bienen, die voll arbeiten und Ressourcen haben mit einer großen Kolonie. So langsam erholen sich die Dinger wieder, glaube ich zumindest. Der Honig scheint wieder anzusteigen, steigt jetzt auch immer schneller und schneller. Auch die Effizienz geht nach oben. Ja, schon ziemlich beeindruckend, obwohl es natürlich immer noch nicht so 100% perfekt ist. Man könnte die Bienen vielleicht etwas hübscher markieren. Vielleicht hätte auch noch eine Biene in Königin mit dabei sein können, aber ich will hier nicht meckern. Als nächstes ein 3D Motorrad Rennspiel, auch ziemlich ausgereift Prompt mit ein paar speziellen Features. Das soll wohl die Steuerung sein, wir testen das einfach. So sieht das Ganze aus. Ich meine, ich muss R klicken, um neu zu starten. Und es scheint loszugehen. Okay, die anderen fahren schon wie wild drauf los. Ich kann auch den Boost einstellen. Oh je, zumindest scheint es irgendwie zu klappen. Ich verstehe aber nicht so 100%. Okay, jetzt bin ich wieder letzter, aber sieht auch gar nicht so schlecht aus für einen Prompt. Tatsächlich könnte man natürlich vielleicht noch optimieren und ich kann natürlich auch bremsen, falls ich mag. Als nächstes eine interaktive 2D Fabrik und Produktionssimulation. Ich will eine Fabrik, die Rohstoffe abbaut, transportiert und in höherwertige Produkte umwandelt. Danach noch ein paar Details. Sieht im Endeffekt so aus. Hier werden wohl die Rohstoffe abgebaut. Die gehen hier weiter. Man sieht auch die ganzen Fälder. Strommangel bremsproduktion. Okay, ich kann natürlich da drüben bei Bauen gewisse Dinger mit einbauen. Z.B. weitere meiner hier was dazu oder hier. Ich könnte Schmelzer mit einbauen, Dinge wieder entfernen. Da unten haben wir einen Generator, den ich auch entfernen kann. Ich kann pausieren oder auf vierfachen Speed hochgehen und Reset machen und dementsprechend haben wir hier sowas fast schon wie ein kleines Strategiespiel. Da unten bekommen wir die kritischen Warnungen, die wir wohl lösen sollten. Unser Ziel ist es 40 Zahnräder im Lager zu haben und das sollte im Optimalfall wohl schneller gehen und das geht natürlich auch schneller, falls man denn diese Probleme lösen würde. Als nächstes eine interaktive Verkehrssimulation an der kleinen Stadt mit Straßennetzwerk und Kreuzungen, Fahrzeuge, die ein Ziel anfahren, Ampeln, Staus, unterschiedliche Fahrzeugtypen, einfache Fußgänger und Buslogik. Und ich kann die Ampeln regeln und damit natürlich Quatsch machen. Sieht im Endeffekt so aus. Ich kann da drüben pausieren oder aber den Speed erhöhen, resetten. Ich kann auch in die Analyse reingehen, damit wir sehen, wo die Dinge hängen bleiben, was man optimieren könnte. Ich könnte die Ampeln umschalten, die Verkehrsdichte erhöhen und die Fahrzeuge und auch das wäre im Endeffekt ein kleines Strategiespiel. Schalten wir mal die Amblum. Jetzt haben die Leute alle rot. Jetzt haben die anderen Leute rot. Hier haben wir jetzt komplettes Chaos. Lassen wir mal ein paar durchfahren. Boom. Jetzt haben wir wieder Kollisionen. Also, das könnte man optimieren. Da müsste man schneller klicken. Jetzt will ich einen anderen interessanten Test machen. Ich bin hier in einem lokalen Ordner. Das ist meine Confallation. Confallationen sind meistens ziemlich groß mit vielen Dateien, mit Ordnern und in den Ordnern sind auch ganz ganz viele Dateien. Und hier öffne ich einfach mal einen Terminal und in diesem Terminal starte ich Codex. Ich gebe keinen Zugriff über das Model Context Protocoll über verschiedene Skills oder sonst was. Ich will nur irgendetwas testen. Der Prompt sieht im Endeffekt so aus. Das Ding hält sich in einer Conf Installation auf. Es muss mir einen Conf Workflow erstellen, der ein lokales Flachsmodell verwendet. Dementsprechend muss es natürlich erst suchen, welche Flagsmodelle ich habe. Hier ein paar weitere Details. Das Jason sollte danach gespeichert werden und war genau da, wo auch meine anderen Workflows liegen. Und danach müssen mir ein paar Dinge beschrieben werden. Schmeißen wir einfach mal rein, schicken es los. Das war schneller als erwartet. Was sagt mir Codex hier? Der neue Workflow liegt genau hier, da wo er eigentlich auch sein sollte. Verwendet haben wir ein Flux 2 klein Modell mit 4 Milliarden Parameter ein FP8, weil das Modell hier liegt. Quen als Text Encoder und als VI natürlich das Flux VI. Das macht Sinn hier gespeichert, weil Codex dachte, das passt schon so. Für die schnellere Generierung wurde das FP8 Flux Kleinmodell gewählt mit nur vier Steps. Auch das macht Sinn. Und das da sind die Einstellungen, die Einschränkungen. Wir haben keine Controlnet Gruppe eingefügt. Weil KFI nur die Platzhalter enthält. Ja, genau, das stimmt. Auch Controlnets habe ich gar keine rumliegen. Hier sehen wir uns einfach mal an, ob der Workflow da liegt, wo er liegen sollte und ob er klappt. Dementsprechend Confui sagt mir das Ding. Blueprints ist hier der Ordner und das Ding soll dein Test. Jason heißen und da ist der Workflow. Wir machen das so. Ich schmeiß das auf den Desktop raus. Wir starten confuy. Wir ziehen den Workflow mit rein. Der Workflow macht auf den ersten Blick Sinn. Wir haben schon einen Prompt mit dabei. Ja, ein paar Sachen sind etwas verschoben, aber das können wir glaube ich verzeihen, oder? Ich würde sagen, ich kümmere mich hier aktuell um nichts mehr. Ich klicke einfach nur run und wir sehen uns an, ob das klappt oder nicht. Es scheint zu laden. Dementsprechend ist das da der Prompt. Wir haben tatsächlich ein Flug 2 klein Modell mit 4 Milliarden Parameter, ein FP8, die richtigen Textcoder und das richtige VI. Danach läuft das Ding hier in den positiven Prompt. Wir haben auch einen negativen Prompt, wobei der eigentlich nicht beachtet werden sollte. Ich meine, der funktioniert nicht mal in diesem Modell. Diese Notes machen eigentlich auch alle Sinn und wir haben tatsächlich schon das Bild bekommen. Ja, das hat erstaunlich gut geklappt. Ich hatte noch nie so ein gutes Ergebnis beim Erstellen von ConfI Workflows. Man sieht auch da drüben, alles ist auf Anhieb durchgelaufen. Ich muss meinen Hut ziehen. Bestes Ergebnis, dass ich jemals hatte, als ich versucht habe einen Konfy Workflow zu erstellen. Bitte dran erinnern, wir haben keinen Zugriff auf Dokumentationen, MCB Server oder sonst was gegeben. Einfach nur gestartet im Comfy Ordner. Sehen wir uns dies Workflow noch mal kurz im Detail an. Diese Workflows, die sind natürlich immer als Jason gespeichert. Genau dieses Jason habe ich im Endeffekt hochgeladen in Chatchi Bed und gesagt, das ist ein Confia Workflow. Mache ein Bild, wie der Workflow aussehen würde in einem Confei Interface und sieht dir mal das da an. Das ist scheinbar laut Chat GPD der Workflow, wie aufgebaut sein sollte und das kommt unglaublich gut hin. Vergleichen wir das. Also, das ist der originale Workflow und falls ich hier das Bild dazu schmeiße, dann sieht man, wie mächtig das neue Bildmodell von Openia ist. Die Prompting Box wurde korrekt erkannt. Das Load Diffusion Modell hat er hier Unit Loader genannt. Diese Note würde auch funktionieren. Danach haben wir den Cliploader, der auch hier mit dabei ist. Den VI Loader ist auch mit dabei. Positiver und negativer Prompt, Random Noise Note, den GG WF Guider, K Sampler, eine Skeduler für Flag 2. Hier schmeißen wir alles in den Laten Space, genauso wie es auch unser Bild erkannt hat. Sogar die Auflösung ist genau gleich. Die Amplerne hat auch alle Wörter korrekt mit dabei, danach wie ID Code und der Output sieht im Endeffekt auch so aus wie der Output vom Flux. Lediglich die Auflösung nicht. Also, wir haben eine Auflösung von 1024 x 1024 und das da ist eher im Hochformat. Also das ist wirklich beeindruckend in diesem Fall für die Bildgenerierung von Chat GBD. Auch diesen Test habe ich ab und zu laufen lassen. Noch niemals hat ein Bildmodell das so gut hinbekommen. Das generierte Bild sieht so aus wie ein echtes Confi Interface und all die Notes stimmen. Das ist der Wahnsinn. Weil es Spaß macht, versuche ich das gleiche in einer lokalen N8N Instanz. Das heißt, ich bin hier in Nen und auch hier öffnen wir einen Terminal und wir starten Codex und auch hier schmeißen wir einen Prompt rein. Auch hier sind natürlich ein paar Workflows vorhanden, aber keinen Zugriff auf irgendeinen MCB Server oder Skills, die GPD 5.5 zeigen, wie man ein nach den bedienen muss. Als allererstes will ich dir vielleicht noch kurz mitgeben, dass man Slash Model machen sollte. Hier sollte man GPT 5.5 verwenden natürlich und auch hier wieder das gleiche. Extra High würde ich nicht verwenden, ich würde hier auf High gehen. Wir kommen gleich drauf zurück, warum. Im Prompt sagen wir wieder, dass wir in einer Einchtinstallation sind. Es soll ein Workflow erstellt werden. Immer wenn eine E-Mail über Gmail eingeht, soll die analysiert werden, entschieden, ob es sich um eine Sponsoringanfrage handelt oder nicht. Falls es ein Sponsoring ist, vielen Dank, aber nein, danke. Und wenn es kein Sponsoring ist, wird die Mail gelabelt. Und am Ende noch ein paar Fragen, damit man sofort weiß, was man machen soll. Schmeißen wir rein, schicken es los und sehen uns an, was passiert. Und da sind wir wieder. Erstellt und validiert. Unter Workflows, dein Test, Gmail Sponsoring, Workflow und so weiter. Gespeichert. Hier die Notes, die verwendet werden, die Logik hinter dem Sponsoring und noch wie ich die Credentials mit einfüge. Ich denke, wir schauen einfach mal rein, ob das alles stimmt. Cuser denn sind wir natürlich schon Workflows. Hier wurde wohl an Orellt und da ist das Ding drinnen. Ich öffne einfach mal eine komplett Lehre ein Instanz, die hier auf meinem Local Host läuft und importiere den Workflow. import from File, dein Test, Gmail und so weiter. Wie sieht das Ganze aus? Wir haben auf alle Fälle erstmal einen Gmail Trigger, das natürlich korrekt ist. Und beim Gmail Trigger prüfen wir jede Minute den Box. Das macht alles Sinn. Danach gehen wir in die erste Klassifizierung rein und das machen wir hier wohl mit einer Codenote. Es wird hardcoded nach Wordern gesucht, also Sponsor, Sponsorship, Partnership, Collaboration, Brand Deal. Ja, das sind schon so die typischen Wörter. Außerdem budget, paid, longterm, ja, macht eigentlich Sinn. Vielleicht hätte man hier ein LM verwenden können, aber falls die Klassifizierung über Code funktioniert, dann läuft das Ganze natürlich noch besser, weil es natürlich kostenlos ist. Danach die Switch Entscheidung mit drei verschiedenen Routen. Entweder einen Auto Reply und zwar genau hier das Label ändern und hier noch ein Dry Run. Auf den ersten Blick macht auch das alles Sinn. Dann antworten wir immer per Gmail und geantwortet werden natürlich die Hardcoded Antworten, die hier mit dabei sind. Vielen Dank für die Anfrage und so weiter. Alles Gute könnte man natürlich noch so ändern, dass es perfekt für einen Selbstest. Lock. Was wird hier genau gelogt? Ich denke, man könnte dem Workflow einfach mal eine Chance geben. Auch auf den ersten Blick bin ich hier von positiv beeindruckt. Ich hätte das wahrscheinlich anders aufgebaut mit einem LM. Falls das so mit dem Code wirklich funktioniert, dann könnte man dem eine Chance geben. Auch hier noch mal wirklich Hut ab vor dem neuen Chat GPD Modell. Das hat bisher noch nie so reibungslos funktioniert. Ohne MCB Server, ohne nichts, nur beschrieben in Codex. Eigentlich hätte ich noch so einige Tests hier drinnen rumliegen. Ich will das Video aber nicht 5 Stunden lang machen. Ich denke, wir sollten uns den Artikel ansehen. Was sagt uns Open AI zu GPD 5.5? Es ist natürlich der nächste Schritt, um anständig am Computer zu arbeiten. Das Modell versteht schneller, was du willst und kann mehr Arbeit für dich machen. Es schreibt Code, die debuged Code, kann online suchen, Daten analysieren, Dokumente und Spreadsheets erstellen. Das habe ich bisher noch gar nicht getestet. Ich habe aber einige Posts auf X gesehen, wo das Modell super gut darin ist und es kann auch Software bedienen. Du kannst GPT 5.5 ungenaue Anweisungen geben und das Ding arbeitet einfach. Auch hier [schnauben] habe ich unterschiedliche Meinungen gehört. Einige Leute sagen, du musst sehr präzise zu GPT 5.5 sein. Deshalb waren wir auch etwas präziser mit unseren Prompts. Besonders für agentisches Coding ist es gut Computeruse und Wissensarbeit und teilweise sogar für wissenschaftliche Recherchen und das Beste ohne Speedinbüßungen zu haben. Das Modell ist viel größer, aber dennoch gleich schnell wie GPT 5.4, weil es viel weniger Token verwendet. Es hat starke Safeguards, das heißt, es wurde etwas restriktiert, damit nicht das ganze Internet gehackt wird, wie es ja beim Mythos der Fall ist und es sollten im Optimalfall keine Biowaffen erstellt werden damit. 200 Partner haben das bereits getestet und für gut befunden. Müssen die wohl auch, wenn sie früher testen dürfen. Jeder ein Plus Pro Business und Enterprise Account Zugriff und zwar in Jet GPD und in Codex. Die API ist aktuell noch nicht verfügbar, weil da wohl die Safeguards noch nicht passen, aber die API kommt sehr, sehr bald. Hier haben wir jetzt natürlich haufenweise Benchmarks und ich muss gestehen, bei den Benchmarks suchen sich die Modellanbieter natürlich immer die Benchmarks raus, wo sie glänzen. Terminal Bench 2.0, das ist eine Benchmarke, die ich tatsächlich gerne mag. Da hat das Modell einen Riesenschritt nach oben gemacht und zwar auf 82,7 %. Opus 4.7 liegt da z.B. bei 69,4%, also eine riesige Verbesserung. Bei der Terminal Bench ist es sogar besser als das Mythos Modell von Antropic Software Engineering, das ist aber eine interne Benchmark, die kann man also nur vergleichen mit GPT 5.4. Auch hier etwas verbessert. Das da fällt übrigens auch auf die Cyber Jim Benchmark hier bei 81,8% fast auf dem Level von Mythos und Mythos wurde nicht veröffentlicht, weil Tropic behauptet, dass es für die Cyburity viel zu gefährlich ist. Also schon eine interessante Veröffentlichung und man sieht auch zumindest heute läuft das Internet noch. Artificializes Intelligenzindex, das ist auch eine recht interessante Benchmark. die Mist im MF, wie schlau die Modelle sind zu meinen, aber auch in Relation zu wie viel Token sie generieren. Man will im Endeffekt ein Modell haben, das ziemlich weit links oben ist, also sehr intelligent, aber dennoch einen geringen Tokenverbrauch und GPT 5.5 sieht man schon mal ist am weitesten oben und zudem sind die ganzen GPT 5.5 Modelle token effizienter als alle Konkurrenten. Und hier sieht man auch was Interessantes. Das GPD X Highmodell verbraucht um einiges mehr Token als das normale Highmodell, aber es ist nur geringfügig schlauer. Deshalb habe ich auch vorhin gesagt, es lohnt sich das normale High zu verwenden und nicht unbedingt das X High. Einfach um etwas Token zu sparen. Natürlich bringt auch Open Tests. Ich würde aber generell immer raten, einfach selbst ein zwei Tests laufen zu lassen und genau zu probieren, was man eben selbst machen muss. bringt einem Memffekt nicht wirklich viel, falls man hier ein perfektes Dungeon Spiel sieht. Aber selbst muss man entweder kein Dungeonspiel erstellen oder aber man erstellt andere Spiele, wo das Modell nicht so gut reagiert. Natürlich integrieren sie hier immer nur die besten Tests. Seniorentwickler waren sehr begeistert vom Modell. Das da fand ich auch interessant. Ein Entwickler bei Nvidia sagte, falls er keinen Zugriff mehr zu GPD 5.5 haben würde, würde er sich fast so fühlen, als ob er ein Bein verlieren würde. Natürlich loben die ganzen Freunde von Curser Lovable und Cognition das Modell auch und auch bei Standard Wissensarbeit soll das Modell super stark sein. Das Finanzteam bei OpenI hat z.B. ihr letztes Steuerformular gemacht, das 71 000 Seiten hatte und sie können damit 5 bis 10 Stunden pro Woche sparen. Hier noch ein zwei Beispiele, wie Sie die Finanzen analysieren, daraus Tabellen machen, um besseren Überblick zu bekommen. Die ganzen anderen Benchmarks schenken wir uns, wie gesagt, es werden immer nur die besten rausgesucht. Und falls man ganz genau suchen würde, dann würde man sogar die Standard Software Engineering Benchmark finden, wo das Modell sogar hinter Opus 4.7 liegt. Die letzte Benchmark, die ich noch reinbringen möchte, ist diese Vending Bench. Hier geht es darum, ein Automatenbsiness zu führen. GPT 5.5 ist mittlerweile mit Abstand das beste Modell, gefolgt von NPlus 4.7 und das, obwohl die Anthropic Modelle scheinbar versuchen, Lieferanten und Kunden zu betrügen. Es gab einen super Durchbruch bei der Infenz, deshalb ist das Modell so effizient und schnell. Die arbeiten natürlich mit Nvidia zusammen, die verwenden auch NV Link 72 und viele der Verbesserungen kamen wohl von Codex selbst. Sie haben ganz ganz viel Daten analysiert mit Kodex, damit rausgefunden, dass sie die Chunks besser balancieren könnten und Codex hat danach einen Algorithmus geschrieben, der den Speed um 20% verbessert hat. Natürlich ist Cyber Security ein Thema, wo alle zusammenarbeiten müssen. Deshalb gibt es auch diese Safeguards und sie arbeiten auch mit dem Start zusammen. Wo es das Modell gibt, haben wir schon besprochen. Die API kommt bald. Im Standard Interface haben wir 400.000 1000 Token als Kontextfenster und über die API haben wir später eine Million Token als Kontextfenster, aber die API wird teuer. 5$ für 1 Million Input Token und 30$ für 1 Million Output Token. Das ist im Endeffekt der doppelte Preis wie GPT 5.4. Hier muss man aber auch im Auge behalten, dass es token effizienter geworden ist. Müsste man tatsächlich nebeneinander testen, wie viel man mehr bezahlt für das Modell. Man muss sich natürlich auch immer Gedanken machen, ob es sich lohnt, ein super starkes Modell zu verwenden. Es kommt drauf an, was man genau machen muss für einfachen Kundensupport über ein API. Da reicht natürlich auch ein günstiges Modell, vielleicht sogar ein Minimodell oder ein Nanomodell, vielleicht auch ein Deeps Modell, denn Deeps Version 4 ist mittlerweile auch da. Ich will vielleicht noch ein W zum Hormer Agent und natürlich auch zu Open Claw verlieren. Ich denke, das Modell ist ziemlich gut geeignet für diese Agenten. Es kann natürlich alles, was GPT 5.4 konnte, vielleicht sogar noch etwas besser. Und mir ist auch aufgefallen, dass der Stil etwas besser ist. Das Modell, es lässt sich leichter mit dem Sprechen. Es antwortet etwas angenehmer, weniger abgehackt, weniger Open AI Stil. Probier das Modell also gerne auch aus in OpenClown Thmest. Bei OpenClore musst du updaten auf die neueste Bettervion. Sobald du das Video siehst, musst du wahrscheinlich noch nicht mal in die Better rein, sondern das normale neueste Update sollte klappen. Schauen wir uns noch ganz kurz an, was bei Tropic passiert. Das da war neulich ein Tweet, der absolut viral gegangen ist. Antropic schmeißt Cloud Code raus aus den günstigen Plänen für 20 €. Schaumper bekommen 2% der neue Nutzer von Antropic, falls einen Plan abschließend Cloud Code nicht mehr integriert. Die wollen natürlich Rechenleistung sparen und Tropic rückt sich hier in ein unglaublich schlechtes Licht. Sobald das Ganze mit OpenClore gestartet ist, haben sie über den OF Token OpenCor gebandt, den Hermes Agent und eigentlich alle anderen Applications außer Cloud Code selbst. Das hat schon viele Nutzerstutzig gemacht. Die ganze Kommunikation war absolut untransparent. Man hat nie ein anständiges Statement bekommen. Außerdem wurden die Anthrtropic Modelle absolut unzuverlässig. Falls man irgendwas mit Cloud Code macht, hat man eine gute Chance, dass man einen roten Tag erwischt und einfach nicht reinkommt. Stell dir mal vor, du hast ein großes Unternehmen, du setzt nur auf die Antropic Modelle und innerhalb von 90 Tagen fallen die Modelle 15 mal aus. Das ist absolute totalkatastrophe. Und woran liegt das? Dario meinte in einem Interview 2025, dass an Tropic nicht so viel in Rechenleistung investieren wird, wie z.B. Glauben, das war ein gewisser Schutzmechanismus, denn falls an Tropic nicht so stark gewachsen wäre, dann wären sie tatsächlich bleite gegangen. Allerdings beiß in diese Entscheidung jetzt ein klein wenig. Sie haben zu viele Nutzer und zu wenig Rechenleistung. Deshalb funktionieren ihre Server nicht mal so, wie sie sollen. Und die Nutzungslimits werden kleiner und kleiner. Das verärgert Kunden und Kunden wechseln dementsprechend auch. Aktuell scheint OPI Stärke aufgestellt zu sein, denn das Problem bei Rechenleistung ist, dass die nicht in zwei Tagen da ist, sondern das dauert teilweise bis zu 2 Jahre oder zumindest 6 Monate. So einige Bauernutzer sagen sogar, dass sie mittlerweile nicht mehr 8020 Cloud GPD sind, sondern komplett umgeswitcht auf 80 GPD und nur noch 20% der Anfragen an Cloud gehen. einfach, weil Chat GPD mittlerweile ziemlich stark ist, weil man höhere Rate Limits hat und weil sich die Modelle immer besser anfühlen. Vielleicht noch ein kleines Wort zu Diebsig. Insgesamt scheint das Modell auf den ersten Blick ziemlich gut auszusehen. Ich konnte mir von die Se noch nicht wirklich ein Bild machen. Ich denke, das ist vielleicht ein Thema für ein anderes Video. Das Modell ist zwar Open Source, es hat aber 1,6 Billionen Parameter und dementsprechend kann es sowieso kaum jemand laufen lassen. Sie haben auch ein kleines Modell, das für die meisten auch zu groß ist, lokal zu laufen, aber die API ist ziemlich günstig. Falls man eine günstige API sucht, könnte man der Dieps API mal eine Chance geben. Wir sehen uns vielleicht das ein oder andere Chinodell in einem anderen Video an. Sehen wir ein kleines Fazit. Clot gegen Openi. Muss man unbedingt eines derabo kündigen. Zum anderen wechseln. Wie sieht das ganze aus? Ein paar Vorteile vom Open AI Plan. Es hat tatsächlich die beste Bildintegrierung mit dabei. Es hat wahrscheinlich das beste LM. Hier streiten sich einige noch ein klein wenig darüber. Gerade auch Leute, die beides testen. Man muss immer selbst testen, um das rauszufinden. Man hat eine ziemlich flexible Codex. Terminal Users natürlich auch mit dabei. Man hat höhere Nutzungslimits als bei Cloud Code und es kann eigentlich auch fast alles, was Cloud Code kann. Und beim Cloud Abo hat man den Nachteil, dass im kleinen Plan tatsächlich getestet wird, ob Cloud Code überhaupt noch dabei bleiben sollte. Man hat geringere Limits, dafür hat man aber Loops, Remote Control und Scheduled Tasks, die sind ziemlich stark. Die Gespräche mit den Anschopic Modellen, die machen oft mehr Spaß, aber gleichzeitig hat man auch mehr Downtime. Mein Fazit ist dementsprechend, wenn ich nur ein Abo wählen müsste, wäre es wahrscheinlich das Open AI Abo. Die Dinge, die ich schon oft gesagt habe, sind aber, dass man sich niemals abhängig machen sollte von einem einzigen Anbieter. Ich werde absolut weiterhin beide Abos nutzen, denn gerade falls man häng bleibt, hilft oft das andere Modell weiter. Diese Modelle haben unterschiedliche Stärken und Schwächen. Und falls man beide Abos hat, kann man die super ausmerzen. Falls man irgendetwas bastelt, mit z.B. Cloud Code kann man ab und zu mal Codex drüber blicken lassen und umgekehrt. Das war übrigens auch die Kernthese von diesem Video. Fast alle nutzen KI falsch. Ich habe im Enterf gezeigt, wie man Codex, Cloud Code, OpenCode und auch lokale Modelle alle verwenden kann in einem einzigen Projekt. Es macht absolut Sinn, dass man sich nicht zu 100% abhängig macht, denn falls du an solchen Tagen z.B. Sp gar nichts machen kannst, sieht es doof aus. Schreib mir in die Kommentare, welches dein Lieblingsabo ist. Lass mich wissen, warum oder verwendest auch du beide. Und ich glaube, das war mehr oder weniger die Zusammenfassung von GPT 5.5. Schreib mir in die Kommentare, was du vom Modell hältst. Hast du es schon getestet? Bist du auch überrascht von den Tests gerade mit einer Den Conf UI? Denn das fand ich ziemlich beeindruckend. Und wo verwendest du das Modell? Und falls du alles zum Thema K lernen willst, schau gerne mal in der Premium Community vorbei. Da haben wir in Classroom auch einen Kurs zum Thema Wipe Coding. Und das Interessante ist, dass natürlich auch genau dieser Kurs so aufgebaut ist, wie ich es predige. Man soll sich nicht abhängig machen. Deshalb zeige ich die Gemini CLI, Codex, Curser und all die Anbieter, damit man auch mal wechseln kann, falls irgendetwas mit einem anderen Anbieter ist. Das Coolste ist übrigens auch, falls man nur eines Statools beherrscht, kann man es breit anwenden, auch falls du nur Cloud Code verstehst. Die Learnings, die du in Cloud Code gelernt hast, die bleiben bei allen anderen Modellen auch bestehen, aber du solltest dennoch wissen, wie du übergreifend arbeiten kannst. Zusätzlich haben wir hier natürlich eine tolle Community mit vielen Leuten, die sich austauschen, gegenseitig helfen und wir haben Challenges laufen und natürlich haben wir auch einen Kalender und wir treffen uns regelmäßig in Live Calls und wir wir sehen uns spätestens im nächsten Video. Ja.
📺 Ähnliche Videos
🔮 MiroFish simuliert die Zukunft mit tausenden Agents | Alles was du wissen musst!
Christoph Magnussen · 2026-05-11🇩🇪 DE
Ich habe das fortschrittlichste KI-Tool der aktuellen Zeit entdeckt… Das ist Hermes Agent 🔥
Der KI-Doktor · 2026-05-09🇩🇪 DE
Diese OpenClaw MasterClass Wird Deine Arbeitsweise Für Immer Verändern
Der KI-Doktor · 2026-05-08🇩🇪 DE
Paperclip Is Insane | Full Tutorial
Ferdy․com | Ferdy Korpershoek · 2026-05-06🇬🇧 EN