OpenAIs neue Modelle verbessern die Fähigkeiten zur KI-Transkription und Bildgenerierung

OpenAI hat bedeutende Fortschritte bei der Verbesserung seiner Realtime-API mit der Einführung von drei neuen Modellsnapshots gemacht. Diese Updates konzentrieren sich auf die Verbesserung der Transkriptionsgenauigkeit, der Sprachsynthese und der Effizienz beim Funktionsaufruf.

Die gpt-4o-mini-transcribe-Variante reduziert bemerkenswerterweise Halluzinationen, während das gpt-4o-mini-tts eine bemerkenswerte Reduzierung der Wortfehlerraten um 35 Prozent bei Text-zu-Sprache-Aufgaben erreicht. Darüber hinaus erhöht das gpt-realtime-mini-Modell die Einhaltung von Anweisungen um 22 Prozent.

Die Fortschritte von OpenAI erstrecken sich auch auf die Fähigkeiten zur Bildgenerierung mit der Veröffentlichung von GPT Image 1.5, das die Interpretation von Eingaben verbessert und die Bildgenerierung beschleunigt. Dieses Update zielt darauf ab, OpenAIs Wettbewerbsvorteil gegenüber Googles Gemini-Modell zu stärken, das ebenfalls Verbesserungen bei der Bearbeitung von Sprachaufgaben und der Einhaltung von Benutzeranweisungen erfahren hat.

Beide Unternehmen setzen weiterhin die Grenzen der KI-Technologie, um überlegene Leistung und Benutzererfahrung zu erreichen.

TechCrunch

16. Dezember 2025 um 18:22

OpenAI setzt seinen 'Code Red'-Feldzug mit neuem Bildgenerierungsmodell fort

OpenAI hat eine neue Version von ChatGPT Images namens GPT Image 1.5 veröffentlicht, die eine verbesserte Anweisungsfolgung, präzisere Bearbeitung und schnellere Bildgenerierungsgeschwindigkeiten verspricht. Dies ist Teil der Bemühungen von OpenAI, seine Position als KI-Marktführer nach dem Markteintritt von Googles Gemini-Modell zurückzugewinnen. Das Update enthält auch neue Funktionen wie einen dedizierten Einstiegspunkt für Bilder in der ChatGPT-Seitenleiste und verbesserte Suchanfrage-Disp..

THE DECODER

16. Dezember 2025 um 17:30

OpenAI veröffentlicht neue Modelle für seine Realtime-API

OpenAI hat seine Realtime-API mit drei neuen Modellversionen aktualisiert, die die Transkription, Sprachsynthese und Funktionsaufrufe verbessern sollen. Laut Entwicklern reduziert die Variante gpt-4o-mini-transcribe Halluzinationen deutlich. Für Text-to-Speech-Aufgaben senkt gpt-4o-mini-tts die Wortfehlerquote um 35 Prozent. Das Modell gpt-realtime-mini, das auf Sprachassistenten ausgerichtet ist, befolgt Anweisungen 22 Prozent genauer und verbessert Funktionsaufrufe um 13 Prozent. OpenAI erwä..

THE DECODER

16. Dezember 2025 um 20:45

Googles aktualisiertes Gemini 2.5 Flash Native Audio bewältigt komplexere Sprachaufgaben besser

Google hat sein Gemini 2.5 Flash Native Audio aktualisiert, um die Fähigkeiten seines Sprachassistenten zu verbessern. Die neue Version bewältigt komplexere Arbeitsabläufe besser, folgt Benutzeranweisungen genauer und führt natürlichere Gespräche mit verbesserter Genauigkeit. Das Update erhöht die Einhaltung der Entwickleranweisungen von 84 auf 90 Prozent und übertrifft OpenAIs gpt-realtime im ComplexFuncBench-Benchmark mit einem Ergebnis von 71,5 Prozent.

THE DECODER

16. Dezember 2025 um 20:11

OpenAIs neue ChatGPT-Bildmodell entspricht dem Google Nano Banana Pro bei komplexen Aufforderungen

OpenAIs neues GPT-Image 1.5-Modell wurde veröffentlicht und bietet mehrere große Verbesserungen gegenüber seinem Vorgänger, darunter eine genauere Interpretation von Aufforderungen, eine bessere Detailerhaltung und deutlich schnellere Bildgenerierungszeiten. Das Modell kann Bilder bis zu viermal schneller als zuvor generieren und geht mit komplexen Aufforderungen mühelos um. Es überzeugt auch bei Fotobearbeitungen, virtuellen Anproben und Stilwandlungen und übertrifft in einigen Bereichen sogar..

Account

Warteliste für den personalisierten Bereich

Welcome!

infobud.news ist ein KI-betriebener Nachrichtenaggregator, der weltweite Nachrichten vereinfacht und individuell anpassbare Feeds in mehreren Sprachen für maßge- schneiderte Einblicke in Technologie, Finanzen, Politik und mehr bietet. Aufgrund der Diversität der Nachrichten- quellen bietet es präzise und relevante Nachrichtenaktualisierungen, wobei es sich voll und ganz auf die Fakten fokussiert ohne dabei die Meinung zu beeinflussen. Mehr erfahrenExpand

OpenAI setzt seinen 'Code Red'-Feldzug mit neuem Bildgenerierungsmodell fort

OpenAI veröffentlicht neue Modelle für seine Realtime-API

Googles aktualisiertes Gemini 2.5 Flash Native Audio bewältigt komplexere Sprachaufgaben besser

OpenAIs neue ChatGPT-Bildmodell entspricht dem Google Nano Banana Pro bei komplexen Aufforderungen

OpenAIs neue Modelle verbessern die Fähigkeiten zur KI-Transkription und Bildgenerierung

Account

Welcome!

Top Aktien in den News

Heute im Rampenlicht

Global Hotspots

News

About

Legal

Contact

OpenAIs neue Modelle verbessern die Fähigkeiten zur KI-Transkription und Bildgenerierung

Der Presse-Radar zum Thema:

OpenAI setzt seinen 'Code Red'-Feldzug mit neuem Bildgenerierungsmodell fort

OpenAI veröffentlicht neue Modelle für seine Realtime-API

Googles aktualisiertes Gemini 2.5 Flash Native Audio bewältigt komplexere Sprachaufgaben besser

OpenAIs neue ChatGPT-Bildmodell entspricht dem Google Nano Banana Pro bei komplexen Aufforderungen

Account

Welcome!

Top Aktien in den News

Heute im Rampenlicht

Global Hotspots

News

About

Legal

Contact