Llama est la famille de modèles de langue open-source de Meta AI, devenue en 2026 la fondation de la majorité des écosystèmes IA open-source (Hugging Face, Together, Groq, Cerebras). Les modèles sont téléchargeables gratuitement sous une licence permettant un usage commercial jusqu'à 700M MAU.

La gamme Llama 4 (sortie début 2026) couvre Scout (rapide, 17B actifs), Maverick (400B paramètres, multimodal) et Behemoth (2T paramètres en preview). Tous les modèles supportent nativement le multimodal (texte + image) et un contexte de 10M tokens.

Llama est utilisé en mode self-hosted (Ollama, vLLM) pour la souveraineté des données, ou via des hébergeurs Groq/Together pour une inférence ultra-rapide (1000+ tokens/s).

Fonctionnalités

Fonctionnalités clés

Open weights sous licence Meta : usage commercial OK.
Multi-tailles : 8B (laptop), 70B (workstation), 405B (cluster).
Multimodal natif (Llama 4) : texte + image.
10M tokens de contexte sur les modèles 4.x.
Self-hosting facile via Ollama, vLLM, llama.cpp.
Hébergeurs ultra-rapides : Groq, Cerebras, Together.

Llama

Fonctionnalités

Fonctionnalités clés

Tarification

Catégories

Professions

Plateformes

Réseaux sociaux