Deepseek est devenu viral.
Deepseek du laboratoire de l’AI chinois a fait irruption dans la conscience dominante cette semaine après Son utility Chatbot a augmenté en haut des graphiques Apple App Retailer (et Google Play, aussi). Les modèles d’IA de Deepseek, qui ont été formés à l’aide de strategies économes en calcul, ont dirigé les analystes de Wall Road – et les technologues – se demander si les États-Unis peuvent maintenir son avance dans la course d’IA et si la demande de chips d’IA soutiendra.
Mais d’où vient Deepseek, et remark a-t-il atteint la renommée internationale si rapidement?
Les origines du commerçant de Deepseek
Deepseek est soutenu par Excessive Flyer Capital Administration, un fonds de couverture quantitatif chinois qui utilise l’IA pour éclairer ses décisions commerciales.
Enthousiaste de l’IA Liang Wenfeng a co-fondé Excessive-Flyer en 2015. Wenfeng, qui aurait commencé à se targner dans le commerce tandis qu’un étudiant à l’Université de Zhejiang, a lancé Excessive Flyer Capital Administration en tant que fonds spéculatif en 2019 axé sur le développement et le déploiement d’algorithmes d’IA.
En 2023, Excessive-Flyer a lancé Deepseek en tant que laboratoire dédié à la recherche d’outils d’IA séparés de son activité financière. Avec Excessive-Flyer comme l’un de ses investisseurs, le laboratoire s’est déroulé dans sa propre entreprise, également appelé Deepseek.
Dès le premier jour, Deepseek a construit ses propres grappes de centres de données pour la formation des modèles. Mais comme les autres sociétés d’IA en Chine, Deepseek a été affecté par les interdictions d’exportation américaines sur le matériel. Pour former l’un de ses modèles les plus récents, la société a été obligée d’utiliser des puces NVIDIA H800, une model moins puissante d’une puce, la H100, disponible pour les sociétés américaines.
L’équipe method de Deepseek est censée fausser jeune. L’entreprise recruterait de manière agressive Doctorat des chercheurs de l’IA des meilleures universités chinoises. Deepseek embauche également les gens sans expérience en informatique Pour aider sa technologie à mieux comprendre un massive éventail de sujets, selon le New York Instances.
Modèles forts de Deepseek
Deepseek a dévoilé sa première série de modèles – Deepseek Coder, Deepseek LLM et Deepseek CHAT – en novembre 2023. Mais ce n’est qu’au printemps dernier, lorsque la startup a publié sa famille de modèles Deepseek-V2 de nouvelle génération, que l’industrie de l’IA a commencé à prendre be aware.
Deepseek-V2, un système d’analyse de texte et d’picture à utilization général, a bien performé dans divers repères d’IA – et était beaucoup moins cher à fonctionner que les modèles comparables à l’époque. Cela a forcé la concurrence intérieure de Deepseek, y compris Bytedance et Alibaba, de réduire les prix d’utilisation de certains de leurs modèles et de rendre les autres complètement gratuits.
Deepseek-V3lancé en décembre 2024, seulement ajouté à la notoriété de Deepseek.
Selon les exams de référence internes de Deepseek, Deepseek V3 surpasse les modèles téléchargeables et ouvertement disponibles comme Meta Lama et des modèles «fermés» qui ne peuvent être accessibles que by way of une API, comme Openai GPT-4O.
Tout aussi impressionnant est le modèle de «raisonnement» R1 de Deepseek. Sorti en janvier, Deepseek réclame R1 effectue ainsi que le modèle O1 d’Openai sur les références clés.
Étant un modèle de raisonnement, R1 vérifie efficacement les faits, ce qui l’aide à éviter certains des pièges qui déclenchent normalement des modèles. Les modèles de raisonnement prennent un peu plus de temps – généralement des minutes à quelques minutes de plus – pour arriver à des options par rapport à un modèle typique de non-saison. L’avantage est qu’ils ont tendance à être plus fiables dans des domaines tels que la physique, les sciences et les mathématiques.
Cependant, il y a un inconvénient de R1, Deepseek V3 et des autres modèles de Deepseek. Étant une IA élaborée par le chinois, ils sont soumis à référence par le régulateur Web chinois pour s’assurer que ses réponses «incarnent les valeurs socialistes de base». Dans l’utility Chatbot de Deepseek, par exemple, R1 ne répondra pas aux questions sur Tiananmen Sq. ou l’autonomie de Taiwan.
Une approche perturbatrice
Si Deepseek a un modèle business, il n’est pas clair quel est ce modèle, exactement. L’entreprise évalue ses produits et companies bien en dessous de la valeur marchande – et en donne les autres gratuitement.
La façon dont Deepseek le dit, les percées d’efficacité lui ont permis de maintenir une compétitivité extrêmement des coûts. Certains specialists différend Les chiffres de la société ont cependant fourni.
Quoi qu’il en soit, les développeurs ont pris les modèles de Deepseek, qui ne sont pas open supply automotive la phrase est couramment comprise mais sont disponibles sous des licences permissives qui permettent une utilisation commerciale. Selon Clem Delangue, le PDG de Hugging Face, l’une des plates-formes hébergeant les modèles de Deepseek, Les développeurs sur les câlins Face ont créé plus de 500 modèles «dérivés» de R1 qui ont accumulé 2,5 hundreds of thousands de téléchargements combinés.
Le succès de Deepseek contre les rivaux plus grands et plus établis a été décrit comme «renversement d’IA» et « Sur-hypothèse. » Le succès de l’entreprise était au moins en partie responsable de provoquant une baisse du cours de l’motion de Nvidia de 18% lundiet pour provoquer une réponse du public du PDG d’Openai, Sam Altman.
Microsoft annoncé que Deepseek est disponible sur son service Azure AI FoundryLa plate-forme de Microsoft qui rassemble les companies d’IA pour les entreprises sous une seule bannière. Interrogé sur l’affect de Deepseek sur les dépenses de l’IA de Meta lors de son appel de résultats du premier trimestre, a déclaré le PDG Mark Zuckerberg Les dépenses en infrastructure d’IA continueront d’être un «avantage stratégique» Pour Meta.
Quant à ce que l’avenir de Deepseek pourrait tenir, ce n’est pas clair. Les modèles améliorés sont une donnée. Mais le gouvernement américain semble être se méfiant de ce qu’il perçoit comme une affect étrangère nuisible.
TechCrunch a une publication axée sur l’IA! Inscrivez-vous ici Pour l’obtenir dans votre boîte de réception tous les mercredis.
Cette histoire a été initialement publiée le 28 janvier et sera mise à jour en continu avec plus d’informations.