DeepSeek, el emergente modelo de lenguaje grande (LLM) chino que podría eclipsar a ChatGPT  

Vía Cultura de Red.- Hace unas semanas, hizo la defensa de su tesis doctoral, una de mis doctorandas (de origen chino y que, por tema de protección de datos, no incluyo su nombre) en la Universidad Complutense de Madrid. En las revisiones que se hacen en estos trabajos de investigación, llamó mi atención el uso de una de las herramientas de inteligencia artificial llamada DeepSeek, que ella describía como la competencia de ChatGPT.

Vemos en los últimos días, como la prensa y los medios especializados y científicos se hacen eco de dicha herramienta. De hecho, un reciente articulo publicado en la revista Science (por Dennis Normile), analiza como este modelo de lenguaje de IA es más rápido y, sobre todo, más económico que otros LLMs que está causando sensación en todo el mundo.    

Según el artículo, DeepSeek emerge como respuesta a la prohibición estadounidense de vender los chips informáticos de IA más avanzados a entidades chinas lo que ha sido un estímulo para la innovación por parte de pequeñas startups chinas. DeepSeek, fue lanzada en mayo de 2023 por un ex-estudiante de IA (convertido en gestor de fondos de cobertura), quien dice haber encontrado una forma de igualar el rendimiento de sus rivales estadounidenses en IA, utilizando unidades de procesamiento gráfico de segundo nivel y a una fracción pequeña de coste.

DeepSeek ya había llamado la atención con una serie de modelos de lenguaje grandes (LLM) ambiciosos y altamente eficientes similares, pero menos potentes que ChatGPT (de OpenAI). A diferencia de ChatGPT y la mayoría de sus rivales occidentales, los LLM de DeepSeek son de código abierto, lo que significa que los usuarios pueden ver y modificar el código fuente para mejorarlo o personalizarlo. Ahora, DeepSeek dice que ha dado un gran paso adelante con su último modelo, V3. Según un informe técnico publicado en diciembre de 2024, esta pequeña compañía, «supera a otros modelos de código abierto y logra un rendimiento comparable a los principales modelos de código cerrado». Y cada vez más observadores de la IA se toman en serio esta afirmación.

Según Science, el politólogo Jeffrey Ding de la Universidad George Washington, que estudia las tecnologías emergentes, afirma que DeepSeek ha “cerrado la brecha con algunos de los mejores [LLM] del mundo”, superando incluso al último modelo de OpenAI, GPT-4.0, en algunos puntos de referencia. Si DeepSeek V3 pasa más controles independientes, “será una demostración muy impresionante de investigación e ingeniería hecho con pocos recursos”, escribió en X (ex Twitter) el informático Andrej Karpathy, cofundador y ex trabajador de OpenAI.

Para DeepSeek, es haber creado algo con una eficiencia en el ahorro de dinero. Calcula que gastó solo 5,6 millones de dólares en entrenar a V3, cantidad menor comparada con los 78 millones de dólares que le costó a OpenAI entrenar a ChatGPT-4.0. más aun, Ding afirma que los usuarios pueden ejecutar el modelo «por costes mucho más bajos que otros modelos que ofrecen un rendimiento similar». La empresa afirma que las capacidades de análisis de datos, de reconocimiento de patrones y de modelado predictivo de V3 podrían ayudar a predecir los impactos climáticos, identificar biomarcadores de enfermedades y probar teorías cosmológicas, entre otros usos científicos. DeepSeek dice que parte de su enfoque implicó mejorar lo que se llama una arquitectura de mezcla de expertos. Reduce la potencia de procesamiento necesaria para entrenar el modelo y produce respuestas más eficientes a las consultas. Solo un subconjunto de las redes de expertos dentro del modelo se entrena para una tarea. Luego, una red de control envía consultas a las redes de expertos más adecuadas para responder.

El fundador y director ejecutivo de DeepSeek, es Liang Wenfeng quien estudió IA en la Universidad de Zhejiang. En 2015, ayudó a crear un fondo de cobertura, High-Flyer, empresa que lanzó DeepSeek al mercado de los LLM. Liang Wenfeng, según Science, afirma que “la investigación y la innovación tecnológica”, no las oportunidades de negocio , son la prioridad de la empresa. Su objetivo final, añade, es lograr la inteligencia artificial general (el santo grial de la IA) en la que los modelos coincidan con las capacidades cognitivas humanas. Ese ambicioso objetivo ha ayudado a la empresa a atraer a investigadores ambiciosos. Para Wenfeng “El mayor atractivo para los mejores talentos es definitivamente resolver los desafíos más difíciles del mundo”.

El contenido de este sitio está bajo una licencia Creative Commons Attribution 4.0 International. Difunde, cita y enlaza.

COMO CITAR (APA 7)

Flores-Vivar, J.M. (27 de enero de 2025) DeepSeek, el emergente modelo de lenguaje grande (LLM) chino que podría eclipsar a ChatGPT. Cultura de Red (Blogs Fundación para el Conocimiento Madrid+d),[https://bit.ly/4aHsszO]