INNOVACION TECNOLÓGICA

¿Qué es DeepSeek y por qué ha hecho caer las acciones tecnológicas estadounidenses?

Published

1 año ago

2 de febrero de 2025

DeepSeek, una startup china, ha lanzado una potente y accesible herramienta de IA de código abierto, desafiando el dominio estadounidense.

DeepSeek, un chatbot impulsado por IA, se ha convertido rápidamente en la aplicación gratuita más descargada de la tienda de Apple, tras su lanzamiento en enero en Estados Unidos.

La empresa china DeepSeek se ha erigido como la mayor sorpresa en el campo de los modelos lingüísticos de código abierto (LLM) en 2025, pocos días después de que la firma causara sensación en la comunidad mundial de inteligencia artificial (IA) con su último lanzamiento.

Jim Fan, investigador científico sénior de Nvidia y director de su Iniciativa de Agentes de IA, hizo esta afirmación en un post publicado el día de Año Nuevo en la plataforma de redes sociales X, después de que la empresa con sede en Hangzhou lanzara la semana pasada su LLM homónimo, DeepSeek V3.

«El nuevo modelo de inteligencia artificial demuestra que la escasez de recursos te obliga a reinventarte de forma espectacular», escribió Fan, refiriéndose a cómo DeepSeek ha desarrollado el producto con una fracción del capital que otras empresas tecnológicas invierten en construir LLM.

DeepSeek V3 viene con 671.000 millones de parámetros y se entrenó en unos dos meses con un costo de 5,58 millones de dólares, utilizando muchos menos recursos informáticos que los modelos desarrollados por empresas tecnológicas más grandes, como Meta Platforms, matriz de Facebook, y OpenAI, creador de ChatGPT.

LLM es la tecnología en la que se basan servicios de IA generativa como ChatGPT. En IA, un elevado número de parámetros es fundamental para que un LLM pueda adaptarse a patrones de datos más complejos y hacer predicciones precisas. El código abierto da acceso público al código fuente de un programa informático, lo que permite a terceros desarrolladores modificar o compartir su diseño, corregir enlaces rotos o ampliar sus capacidades.

El desarrollo por parte de DeepSeek de un potente LLM a un costo inferior al que gastan las grandes empresas demuestra hasta qué punto han progresado las empresas chinas de IA, a pesar de las sanciones de EE.UU. que han bloqueado en gran medida su acceso a los semiconductores avanzados utilizados para entrenar modelos.

La aparición de DeepSeek se produce en un momento en el que EE.UU. está restringiendo la venta a China de la avanzada tecnología de chips que impulsa la IA.

Aprovechando una nueva arquitectura diseñada para conseguir un entrenamiento rentable, DeepSeek sólo necesitó 2,78 millones de horas de GPU -el tiempo total que se utiliza una unidad de procesamiento gráfico para entrenar un LLM- para su modelo V3. El proceso de entrenamiento de DeepSeek utilizó las GPU H800 de Nvidia adaptadas a China, según el informe técnico de la start-up publicado el 26 de diciembre, cuando se lanzó V3.

Ese proceso fue sustancialmente inferior a los 30,8 millones de horas de GPU que Meta necesitó para entrenar su modelo Llama 3.1 con los chips más avanzados H100 de Nvidia, cuya exportación a China está prohibida.

«DeepSeek V3 parece ser un modelo más sólido con sólo 2,8 millones de horas de GPU», afirmó el científico informático Andrej Karpathy -miembro del equipo fundador de OpenAI- en su publicación X del 27 de diciembre.

La observación de Karpathy llevó a Fan a responder ese mismo día en un post en X: «La limitación de recursos es algo hermoso. El instinto de supervivencia en un terreno competitivo y feroz para la IA es el principal motor de los avances».

«Llevo mucho tiempo siguiendo a DeepSeek. El año pasado tuvieron uno de los mejores modelos de código abierto», escribió Fan. «Los modelos superiores de OSS [software de código abierto] ejercen una enorme presión sobre las empresas comerciales y fronterizas de LLM para que avancen más rápido».

Jia Yangqing, fundador de la start-up de computación en nube Lepton AI, se hizo eco de la perspectiva de Fan en un post en X el 27 de diciembre. «Es simple inteligencia y pragmatismo en el trabajo: dado un límite de computación y mano de obra presente, producir el mejor resultado con la investigación inteligente», escribió Jia, quien anteriormente se desempeñó como vicepresidente de Alibaba Group Holding, propietario del South China Morning Post.

Al parecer, la empresa fue creada en 2023 por el gestor de fondos de alto riesgo High-Flyer Quant. La persona detrás de DeepSeek es el fundador de High-Flyer Quant, Liang Wenfeng, que estudió Inteligencia Artificial en la Universidad de Zhejiang.

En una entrevista concedida al medio de comunicación chino 36Kr en mayo de 2023, Liang declaró que High-Flyer Quant ya había comprado más de 10.000 GPU antes de que el gobierno estadounidense impusiera a China restricciones sobre los chips de IA. Esa inversión sentó las bases para que DeepSeek operara como desarrollador de LLM.

La mayoría de los desarrolladores de DeepSeek son recién licenciados o personas que se encuentran al principio de su carrera en el campo de la IA, siguiendo la preferencia de la empresa por la capacidad más que por la experiencia a la hora de contratar nuevos empleados.

El martes, el V1 LLM de DeepSeek seguía siendo el modelo de inteligencia artificial más popular en Hugging Face, la mayor comunidad de inteligencia artificial de código abierto y aprendizaje automático en línea del mundo.

¿Por qué DeepSeek está afectando a las BigTech estadounidenses como Nvidia?

Según se informa, DeepSeek se desarrolló por una fracción del costo de sus rivales estadounidenses (cientos de millones de dólares menos), lo que plantea preguntas sobre el futuro del dominio de la inteligencia artificial de Estados Unidos.

Los posibles costos más bajos de la compañía sacudieron los mercados financieros el 27 de enero, lo que llevó al Nasdaq, con gran peso tecnológico, a caer más del 3% en una amplia liquidación que incluyó a fabricantes de chips y centros de datos de todo el mundo.

Nvidia, una empresa con sede en Estados Unidos que fabrica los poderosos chips que ejecutan inteligencia artificial, parece haber sido la más afectada.

El lunes perdió casi 600.000 millones de dólares en valor de mercado (la mayor caída en un día para cualquier empresa en la historia de Estados Unidos), ya que el precio de sus acciones se desplomó un 17% en el transcurso del día.

Nvidia había sido la empresa más valiosa del mundo, cuando se mide por capitalización de mercado, pero cayó al tercer lugar después de Apple y Microsoft el lunes, cuando su valor de mercado se redujo de 3,5 billones de dólares a 2,9 billones de dólares, informó Forbes.

DeepSeek utiliza chips semiconductores menos avanzados que los creados por Nvidia.

Su éxito socava la creencia de que los presupuestos más grandes y los chips de primer nivel son las únicas formas de avanzar en la IA, una perspectiva que ha creado una enorme incertidumbre sobre la necesidad y el futuro de los chips de alto rendimiento.

Fuente: WET – Nvidia – Microsoft – Forbes

Por: bocadepozo

Spread the love

Boca de Pozo

¿Qué es DeepSeek y por qué ha hecho caer las acciones tecnológicas estadounidenses?

¿Por qué DeepSeek está afectando a las BigTech estadounidenses como Nvidia?

You may like