2024-12-27 05:40:10
Künstliche Intelligenz
Technologie
Wissenschaft
DeepSeek-V3: Eine neue Ära in Open-Source-Modellen
Verwandte Nachrichten zum Thema:
Der Presse-Radar zum Thema:
marktechpost.com
DeepSeek-AI veröffentlicht DeepSeek-V3: Ein starkes Mixture-of-Experts (MoE) Sprachmodell mit insgesamt 671 Milliarden Parametern und 37 Milliarden aktivierten Parametern pro Token - MarkTechPost
Technologie
Cryptocurrencies & blockchain
DeepSeek-V3 ist ein 671 Milliarden Parameter MoE-Sprachmodell mit 37 Milliarden aktivierten Parametern pro Token, das auf 14,8 Billionen hochqualitativen Token trainiert wurde. Es verwendet Innovationen wie lastausgleich ohne Hilfsverluste, Mehrtoken-Vorhersage, FP8-Mischgenauigkeit und DualPipe, um eine Inferenzgeschwindigkeit von 60 Token/s zu erreichen und andere Open-Source-Modelle in Benchmarks wie MMLU, MATH-500 und LiveCodeBench bei relativ geringen Trainingskosten von 5,576 Millionen U..
Welcome!
infobud.news ist ein KI-betriebener Nachrichtenaggregator, der weltweite Nachrichten vereinfacht und individuell anpassbare Feeds in mehreren Sprachen für maßge- schneiderte Einblicke in Technologie, Finanzen, Politik und mehr bietet. Aufgrund der Diversität der Nachrichten- quellen bietet es präzise und relevante Nachrichtenaktualisierungen, wobei es sich voll und ganz auf die Fakten fokussiert ohne dabei die Meinung zu beeinflussen. Mehr erfahrenExpand