OpenAIs neue Modelle verbessern die Fähigkeiten zur KI-Transkription und Bildgenerierung
OpenAI hat bedeutende Fortschritte bei der Verbesserung seiner Realtime-API mit der Einführung von drei neuen Modellsnapshots gemacht. Diese Updates konzentrieren sich auf die Verbesserung der Transkriptionsgenauigkeit, der Sprachsynthese und der Effizienz beim Funktionsaufruf.
Die gpt-4o-mini-transcribe-Variante reduziert bemerkenswerterweise Halluzinationen, während das gpt-4o-mini-tts eine bemerkenswerte Reduzierung der Wortfehlerraten um 35 Prozent bei Text-zu-Sprache-Aufgaben erreicht. Darüber hinaus erhöht das gpt-realtime-mini-Modell die Einhaltung von Anweisungen um 22 Prozent.
Die Fortschritte von OpenAI erstrecken sich auch auf die Fähigkeiten zur Bildgenerierung mit der Veröffentlichung von GPT Image 1.5, das die Interpretation von Eingaben verbessert und die Bildgenerierung beschleunigt. Dieses Update zielt darauf ab, OpenAIs Wettbewerbsvorteil gegenüber Googles Gemini-Modell zu stärken, das ebenfalls Verbesserungen bei der Bearbeitung von Sprachaufgaben und der Einhaltung von Benutzeranweisungen erfahren hat.
Beide Unternehmen setzen weiterhin die Grenzen der KI-Technologie, um überlegene Leistung und Benutzererfahrung zu erreichen.
Der Presse-Radar zum Thema:
OpenAI veröffentlicht neue Modelle für seine Realtime-API
Googles aktualisiertes Gemini 2.5 Flash Native Audio bewältigt komplexere Sprachaufgaben besser
OpenAIs neue ChatGPT-Bildmodell entspricht dem Google Nano Banana Pro bei komplexen Aufforderungen
Welcome!

infobud.news ist ein KI-betriebener Nachrichtenaggregator, der weltweite Nachrichten vereinfacht und individuell anpassbare Feeds in mehreren Sprachen für maßge- schneiderte Einblicke in Technologie, Finanzen, Politik und mehr bietet. Aufgrund der Diversität der Nachrichten- quellen bietet es präzise und relevante Nachrichtenaktualisierungen, wobei es sich voll und ganz auf die Fakten fokussiert ohne dabei die Meinung zu beeinflussen. Mehr erfahrenExpand