2024-12-27 05:40:10
Künstliche Intelligenz
Technologie
Wissenschaft

DeepSeek-V3: Eine neue Ära in Open-Source-Modellen

DeepSeek-AI hat DeepSeek-V3 vorgestellt, ein beeindruckendes Sprachmodell mit 671 Milliarden Parametern, das 37 Milliarden Parameter pro Token aktiviert. Trainiert auf erstaunlichen 14,8 Billionen Tokens, nutzt dieses Modell Fortschritte in der maschinellen Lernarchitektur und erzielt bemerkenswerte Leistungen bei verschiedenen Benchmarks.

Mit Trainingskosten von nur 5,5 Millionen US-Dollar ist es ein ernstzunehmender Konkurrent zu proprietären Modellen wie den Angeboten von OpenAI und Meta. Bemerkenswert ist, dass DeepSeek-V3 in Programmieraufgaben herausragt und seine Überlegenheit in Wettbewerben zeigt.

Allerdings werden seine Antworten moderiert, um den chinesischen Regulierungsstandards zu entsprechen, was Diskussionen über sensible Themen einschränkt. Mit dieser Veröffentlichung bekräftigt DeepSeek-AI sein Engagement für die Open-Source-Entwicklung und fördert Innovationen innerhalb der Forschungsgemeinschaft.

TechCrunch
26. Dezember 2024 um 19:44

DeepSeeks neue KI-Modell scheint einer der besten 'offenen' Herausforderer zu sein

Technologie
Politik
DeepSeek, ein chinesisches KI-Unternehmen, hat DeepSeek V3 veröffentlicht, ein leistungsstarkes Open-Source-Sprachmodell, das geschlossene Modelle wie Meta's Llama 3.1 405B, OpenAI's GPT-4o und Alibaba's Qwen 2.5 72B bei Programmieraufgaben, einschließlich Wettbewerben auf Codeforces und dem Aider Polgyglot-Test, übertrifft. Das Modell wurde mit 14,8 Billionen Token trainiert und hat 685 Milliarden Parameter, was es zu einem der größten KI-Modelle aller Zeiten macht. DeepSeek konnte das Modell..
marktechpost.com
27. Dezember 2024 um 04:32

DeepSeek-AI veröffentlicht DeepSeek-V3: Ein starkes Mixture-of-Experts (MoE) Sprachmodell mit insgesamt 671 Milliarden Parametern und 37 Milliarden aktivierten Parametern pro Token - MarkTechPost

Technologie
Cryptocurrencies & blockchain
DeepSeek-V3 ist ein 671 Milliarden Parameter MoE-Sprachmodell mit 37 Milliarden aktivierten Parametern pro Token, das auf 14,8 Billionen hochqualitativen Token trainiert wurde. Es verwendet Innovationen wie lastausgleich ohne Hilfsverluste, Mehrtoken-Vorhersage, FP8-Mischgenauigkeit und DualPipe, um eine Inferenzgeschwindigkeit von 60 Token/s zu erreichen und andere Open-Source-Modelle in Benchmarks wie MMLU, MATH-500 und LiveCodeBench bei relativ geringen Trainingskosten von 5,576 Millionen U..
KW

Account

Warteliste für den personalisierten Bereich


Welcome!

InfoBud.news

infobud.news ist ein KI-betriebener Nachrichtenaggregator, der weltweite Nachrichten vereinfacht und individuell anpassbare Feeds in mehreren Sprachen für maßge- schneiderte Einblicke in Technologie, Finanzen, Politik und mehr bietet. Aufgrund der Diversität der Nachrichten- quellen bietet es präzise und relevante Nachrichtenaktualisierungen, wobei es sich voll und ganz auf die Fakten fokussiert ohne dabei die Meinung zu beeinflussen. Mehr erfahrenExpand