Eine neue Ära für Sprachagenten beginnt

Am 28. August 2025 hat OpenAI die Echtzeit-API offiziell allgemein verfügbar gemacht – und mit ihr ein Bündel an Neuerungen, das die Entwicklung professioneller Sprachagenten auf ein völlig neues Niveau hebt. Neben Bildeingaben, SIP-Anrufen und Remote-MCP-Servern präsentiert OpenAI das neue Modell gpt-realtime, das Audio direkt verarbeitet und generiert – ohne Umwege über Text. Das Ergebnis: natürliche, schnelle und ausdrucksstarke KI-Gespräche mit minimaler Latenz.

Was ist neu in der Echtzeit-API?

Die Echtzeit-API ist keine klassische Sprachschnittstelle mehr, sondern ein vollwertiges System für produktionsreife Sprachagenten. Statt mehrere Modelle für Sprache-zu-Text, Text-zu-Sprache und Tool-Anbindung zu verketten, vereint sie alle Schritte in einem einzigen, optimierten Prozess.

Neue Funktionen im Überblick:

  • Remote-MCP-Server-Support: Ermöglicht direkte Integration externer Tools und Services, ohne manuelles Verknüpfen.
  • Bildeingabe: Neben Audio und Text können jetzt auch Fotos und Screenshots in Echtzeit analysiert werden.
  • SIP-Unterstützung: Sprachagenten können mit dem öffentlichen Telefonnetz, PBX-Systemen und SIP-Endpunkten kommunizieren.
  • Wiederverwendbare Prompts: Entwickler können definierte Prompts mit Tools, Variablen und Beispielnachrichten dauerhaft speichern.

Diese Features machen die API zu einer der flexibelsten Echtzeit-Plattformen für KI-gestützte Kommunikation am Markt.

gpt-realtime: Das Herzstück der neuen Generation

Das neue Modell gpt-realtime ist OpenAIs bislang fortschrittlichstes Sprachmodell. Es wurde gezielt auf praxisnahe Szenarien wie Kundensupport, Training oder persönliche Assistenz trainiert – mit Fokus auf Natürlichkeit, Präzision und Steuerbarkeit.

Audioqualität

Stimmen klingen jetzt menschlicher, emotionaler und nuancierter. Das Modell kann Anweisungen wie „Sprich einfühlsam und mit französischem Akzent“ oder „Sprich schnell und professionell“ präzise umsetzen. Zudem wurden zwei neue Stimmen eingeführt: Cedar und Marin, exklusiv in der Echtzeit-API verfügbar.

Intelligenz & Verständnis

gpt-realtime erkennt nonverbale Hinweise wie Lachen oder Pausen, wechselt fließend zwischen Sprachen und interpretiert komplexe Anweisungen. Bei der Big Bench Audio-Bewertung erzielte das Modell 82,8 % Genauigkeit – ein deutlicher Fortschritt gegenüber den 65,6 % des Vorgängers.

Anweisungs- und Funktionsverständnis

Die KI reagiert präziser auf Entwickleranweisungen und kann Tools gezielter aufrufen. Bei der Messung der Funktionsaufruf-Genauigkeit (ComplexFuncBench) erreicht gpt-realtime 66,5 %, ebenfalls eine deutliche Steigerung gegenüber der vorherigen Generation.

Mehr als Sprache: Kontext durch Bilder und Tools

Dank der Bildeingabe-Funktion können Benutzer einer Sitzung visuelle Informationen hinzufügen – etwa einen Screenshot oder ein Produktfoto – und die KI daraufhin ansprechen („Was steht auf diesem Bild?“ oder „Welche Fehler siehst du?“). In Kombination mit MCP-Servern kann das Modell gleichzeitig kontextbasierte Tools aufrufen – zum Beispiel CRM-Daten abrufen oder eine Supportaktion auslösen.

Sicherheit, Datenschutz und Transparenz

OpenAI betont die Bedeutung von Verantwortung in der Echtzeitkommunikation. Das System verwendet aktive Klassifikatoren, um schädliche Inhalte zu verhindern, und verpflichtet Entwickler, KI-Interaktionen klar zu kennzeichnen.

Darüber hinaus:

  • EU-Datenresidenz für europäische Anwendungen
  • Enterprise-Datenschutzversprechen mit klaren Richtlinien
  • Voreingestellte Stimmen zur Vermeidung von Identitätsmissbrauch

Diese Maßnahmen schaffen Vertrauen und ermöglichen den Einsatz in sensiblen Branchen wie Gesundheitswesen, Bildung und öffentlicher Verwaltung.

Preisgestaltung und Verfügbarkeit

Mit der allgemeinen Verfügbarkeit senkt OpenAI die Preise um 20 % gegenüber dem Preview-Modell:

  • 32 USD / 1 M Audio-Input-Tokens
  • 64 USD / 1 M Audio-Output-Tokens Neue Kontrollmechanismen für Gesprächskontexte reduzieren zusätzlich die Kosten bei langen Sitzungen.

Die Echtzeit-API ist ab sofort für alle Entwickler verfügbar – inklusive Dokumentation, Playground und Prompt-Leitfaden.

Echtzeit-KI für die Praxis

Mit gpt-realtime und der neuen Echtzeit-API definiert OpenAI den Standard für moderne Sprachsysteme neu. Ob im Kundensupport, Call-Center, Training oder in Assistenzanwendungen – Sprachagenten können nun fließend, emotional und kontextbewusst mit Menschen interagieren.

Diese Veröffentlichung markiert nicht nur ein technisches Update, sondern den Beginn einer neuen Generation KI-gestützter Kommunikation: schneller, intelligenter und natürlicher als je zuvor.