DeepSeek-V3: Eine neue Ära in Open-Source-Modellen

DeepSeek-AI hat DeepSeek-V3 vorgestellt, ein beeindruckendes Sprachmodell mit 671 Milliarden Parametern, das 37 Milliarden Parameter pro Token aktiviert. Trainiert auf erstaunlichen 14,8 Billionen Tokens, nutzt dieses Modell Fortschritte in der maschinellen Lernarchitektur und erzielt bemerkenswerte Leistungen bei verschiedenen Benchmarks.

Mit Trainingskosten von nur 5,5 Millionen US-Dollar ist es ein ernstzunehmender Konkurrent zu proprietären Modellen wie den Angeboten von OpenAI und Meta. Bemerkenswert ist, dass DeepSeek-V3 in Programmieraufgaben herausragt und seine Überlegenheit in Wettbewerben zeigt.

Allerdings werden seine Antworten moderiert, um den chinesischen Regulierungsstandards zu entsprechen, was Diskussionen über sensible Themen einschränkt. Mit dieser Veröffentlichung bekräftigt DeepSeek-AI sein Engagement für die Open-Source-Entwicklung und fördert Innovationen innerhalb der Forschungsgemeinschaft.

Peking festigt seinen Ruf als Epizentrum des Marktes für generative KI (GenAI) in China, indem es kürzlich 11 zusätzliche große Sprachmodelle (LLMs) von innovativen Unternehmen wie Zhipu AI und Rigo Design genehmigt hat. Mit insgesamt 105 genehmigten LLMs beherbergt die Stadt prominente Akteure wie Baidu und Moonshot AI sowie führende Universitäten. Bis November haben landesweit über 309 GenAI-Produkte eine Genehmigung erhalten, wobei Peking für 96 dieser Lizenzen verantwortlich ist. Inzwischen ist das Start-up Deepseek als ernstzunehmender Konkurrent aufgetreten, indem es ein LLM auf den Markt gebracht hat, das die Angebote von Meta und OpenAI übertrifft. Dieser Erfolg unterstreicht das Potenzial für innovative KI-Entwicklungen ohne umfangreiche Ressourcen. Darüber hinaus strebt Shanghai an, bis 2027 ein globaler Führer im Bereich der medizinischen KI zu werden und Fortschritte in der klinischen Gesundheitsversorgung und der traditionellen chinesischen Medizin zu erzielen. Zur Unterstützung der Branche bieten verschiedene Städte erhebliche Subventionen zur Verbesserung der Rechenleistung an, die entscheidend für das Wirtschaftswachstum durch KI-Anwendungen ist.

Das chinesische Unternehmen DeepSeek hat DeepSeek V3 vorgestellt, ein fortschrittliches Open-Source-KI-Modell, das behauptet, ChatGPT zu emulieren. Dieses Modell zeigt beeindruckende Leistungskennzahlen, wirft jedoch Bedenken hinsichtlich seiner Trainingsmethoden auf, die möglicherweise gegen geistige Eigentumsrechte verstoßen. Experten äußern Besorgnis, da KI-Systeme sich zunehmend selbst falsch identifizieren, weil sie sich auf bestehende Modelle stützen. Unterdessen entwickelt sich die KI-Landschaft in China rasant weiter, wobei lokale Unternehmen ihr Angebot als Reaktion auf die Dominanz westlicher Technologie erweitern. Allerdings stellen US-Chipbeschränkungen erhebliche Hürden für diese Unternehmen dar. Da der Wettbewerb intensiver wird, bleibt das Gleichgewicht zwischen Innovation und ethischen Praktiken im globalen KI-Wettlauf von entscheidender Bedeutung.

TechCrunch

26. Dezember 2024 um 19:44

DeepSeeks neue KI-Modell scheint einer der besten 'offenen' Herausforderer zu sein

Technologie

Politik

DeepSeek, ein chinesisches KI-Unternehmen, hat DeepSeek V3 veröffentlicht, ein leistungsstarkes Open-Source-Sprachmodell, das geschlossene Modelle wie Meta's Llama 3.1 405B, OpenAI's GPT-4o und Alibaba's Qwen 2.5 72B bei Programmieraufgaben, einschließlich Wettbewerben auf Codeforces und dem Aider Polgyglot-Test, übertrifft. Das Modell wurde mit 14,8 Billionen Token trainiert und hat 685 Milliarden Parameter, was es zu einem der größten KI-Modelle aller Zeiten macht. DeepSeek konnte das Modell..

marktechpost.com

27. Dezember 2024 um 04:32

DeepSeek-AI veröffentlicht DeepSeek-V3: Ein starkes Mixture-of-Experts (MoE) Sprachmodell mit insgesamt 671 Milliarden Parametern und 37 Milliarden aktivierten Parametern pro Token - MarkTechPost

Technologie

Cryptocurrencies & blockchain

DeepSeek-V3 ist ein 671 Milliarden Parameter MoE-Sprachmodell mit 37 Milliarden aktivierten Parametern pro Token, das auf 14,8 Billionen hochqualitativen Token trainiert wurde. Es verwendet Innovationen wie lastausgleich ohne Hilfsverluste, Mehrtoken-Vorhersage, FP8-Mischgenauigkeit und DualPipe, um eine Inferenzgeschwindigkeit von 60 Token/s zu erreichen und andere Open-Source-Modelle in Benchmarks wie MMLU, MATH-500 und LiveCodeBench bei relativ geringen Trainingskosten von 5,576 Millionen U..

Account

Warteliste für den personalisierten Bereich

Welcome!

infobud.news ist ein KI-betriebener Nachrichtenaggregator, der weltweite Nachrichten vereinfacht und individuell anpassbare Feeds in mehreren Sprachen für maßge- schneiderte Einblicke in Technologie, Finanzen, Politik und mehr bietet. Aufgrund der Diversität der Nachrichten- quellen bietet es präzise und relevante Nachrichtenaktualisierungen, wobei es sich voll und ganz auf die Fakten fokussiert ohne dabei die Meinung zu beeinflussen. Mehr erfahrenExpand

DeepSeeks neue KI-Modell scheint einer der besten 'offenen' Herausforderer zu sein

DeepSeek-AI veröffentlicht DeepSeek-V3: Ein starkes Mixture-of-Experts (MoE) Sprachmodell mit insgesamt 671 Milliarden Parametern und 37 Milliarden aktivierten Parametern pro Token - MarkTechPost

DeepSeek-V3: Eine neue Ära in Open-Source-Modellen

Account

Welcome!

Top Aktien in den News

Heute im Rampenlicht

Global Hotspots

News

About

Legal

Contact

DeepSeek-V3: Eine neue Ära in Open-Source-Modellen

Verwandte Nachrichten zum Thema:

Pekings Vorherrschaft im GenAI-Bereich

Chinas schneller KI-Fortschritt

Der Presse-Radar zum Thema:

DeepSeeks neue KI-Modell scheint einer der besten 'offenen' Herausforderer zu sein

DeepSeek-AI veröffentlicht DeepSeek-V3: Ein starkes Mixture-of-Experts (MoE) Sprachmodell mit insgesamt 671 Milliarden Parametern und 37 Milliarden aktivierten Parametern pro Token - MarkTechPost

Account

Welcome!

Top Aktien in den News

Heute im Rampenlicht

Global Hotspots

News

About

Legal

Contact