En bref — Faire tourner de l’IA en local en 2026, c’est devenu accessible : un Mac M-series avec 16 Go de RAM unifiée ou un PC avec un GPU 8 Go+ suffit pour exécuter des modèles 7B-13B (Llama, Mistral, Qwen, DeepSeek) au quotidien. Cette sélection couvre 15 outils open-source qui résolvent les principaux cas d’usage : choix du modèle, libération d’Apple Intelligence, transcription vocale (STT), synthèse vocale (TTS), traitement d’image et de PDF, assistants agentiques avec mémoire et compression de contexte pour les LLMs.

Il y a plein de bonnes raisons de faire tourner de l’IA en local, sur son propre Mac, PC ou serveur : ne plus envoyer ses données chez OpenAI, Google ou Anthropic ; arrêter de payer un abonnement par mois ou payer des tokens ; pouvoir continuer à travaille sans connexion.

Voici les 15 outils relayés dans ma veille techno qui ont eu le plus d'engagement pour exécuter de l’IA strictement en local, classés par usage : choix du modèle, Apple Intelligence en CLI, voix, image et documents, assistants agentiques, et compression du contexte LLM.

Pour les alternatives non-IA, voir mon récap sur les alternatives open-source aux SaaS en 2026.

Choisir le bon modèle local pour son matériel (Mac, PC, GPU)

Avant d’installer un LLM, il faut savoir lequel ton matériel peut vraiment faire tourner — et lequel donnera les meilleurs résultats. Trois outils pour répondre à cette question, du navigateur à la CLI, en passant par le benchmark réel.

1. CanIRun.ai — détecter en un clic les modèles compatibles avec ton matériel

Détecte automatiquement ton matériel (GPU, CPU, RAM unifiée) directement depuis le navigateur et te liste les modèles IA que tu peux faire tourner en local, avec le niveau de quantization conseillé (Q4_K_M, Q5_K_M, Q8_0, F16). Couvre les modèles récents (Llama, Mistral, Qwen, DeepSeek, Phi) avec leurs spécifications complètes (taille, contexte, architecture, MoE ou dense). Idéal pour cadrer un setup avant même d’installer Ollama ou LM Studio.

Tableau comparatif de modèles d'IA classés par performance sur un Apple M2 Max avec 32 GB de RAM, montrant 30 cœurs disponibles et listant 14 modèles avec leurs capacités, vitesses et notes de compatibilité.
Can I Run AI locally?
Detect your hardware and find out which AI models you can run locally. GPU, CPU, and RAM analysis in your browser.

2. llmfit — la CLI Rust qui scanne et recommande des modèles

Outil CLI écrit en Rust qui scanne le système (RAM, CPU, GPU) et liste les modèles LLM compatibles. Interface TUI avec filtres, comparaison multi-modèles, et un mode inversé bien pratique : tu lui donnes un modèle et il te dit le hardware minimum requis. Utile pour benchmarker avant achat ou pour scripter le choix du modèle selon la machine cible (dev, CI, prod self-hosted).

Écran de terminal affichant l'interface de llmfit avec le message "Loading: Detecting system hardware..." sur fond sombre.
AlexsJones/llmfit: Hundreds of models & providers. One command to find what runs on your hardware.
Hundreds of models & providers. One command to find what runs on your hardware. - AlexsJones/llmfit

3. whichllm — classer les LLMs locaux par performances réelles, pas par taille

Là où CanIRun.ai et llmfit cadrent ce qui « tient » sur la machine, whichllm répond à une autre question : lequel donne vraiment les meilleurs résultats sur ton hardware. Détecte ton GPU/CPU/RAM, puis classe les LLMs open-source par benchmarks réels et récents (pas par nombre de paramètres, qui ne dit rien sur la qualité utile). Une commande, un classement actionnable.

Andyyyy64/whichllm: Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-aware benchmarks, not parameter count. One command, run it instantly.
Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-aware benchmarks, not parameter count. One command, run it instantly. - Andyyyy64/whichllm

Apple Intelligence en CLI : l’IA gratuite déjà sur ton Mac

Cas particulier qui mérite sa propre section : si tu es sur Apple Silicon avec macOS Tahoe, tu as déjà un LLM embarqué prêt à servir.

4. apfel — libérer Apple Intelligence depuis le terminal

apfel libère le LLM embarqué dans macOS (Apple Intelligence) et l’expose en trois interfaces : CLI, serveur compatible OpenAI, et chat interactif. 100 % on-device, zéro coût, zéro clé API, zéro abonnement. Le modèle est déjà installé sur la machine par Apple — apfel se contente de le rendre accessible aux apps tierces. Particulièrement intéressant pour scripter des tâches IA sans toucher à un service externe, ou pour brancher Apple Intelligence sur des outils qui parlent l’API OpenAI (Open WebUI, Chatbox, etc.). Requiert Apple Silicon et macOS Tahoe.

Show HN: Apfel – The free AI already on your Mac
Use Apple's built-in AI from the terminal. Free, private, 100% on-device. No API keys, no cloud, no subscriptions.

Voix : transcription (STT) et synthèse vocale (TTS) en local

Tout ce qui touche à la voix est particulièrement sensible côté privacy. Cinq apps qui font tourner reconnaissance et génération vocale strictement sur la machine, sans aucun appel cloud.

5. Murmure — speech-to-text offline en 25 langues européennes

Dictée vocale 100 % locale, open-source, propulsée par NVIDIA Parakeet. Aucune donnée ne quitte la machine, 25 langues européennes supportées dont un français très propre, mise en route en moins de 5 minutes. Pensé pour la dictée de notes et de comptes-rendus de réunion en temps réel. Nécessite un GPU décent pour une latence agréable. Disponible sur Mac, Windows et Linux.

Capture d'écran de l'application **Murmure** (v1.8.0), un logiciel de transcription vocale open source, affichant une visualisation audio en cours d'enregistrement et trois messages récents confirmant son caractère gratuit, sans télémétrie ni appels réseau.
Free Offline Speech-to-Text
A free, open-source, offline speech-to-text application powered by NVIDIA Parakeet. Privacy-first voice-to-text transcription running entirely on your machine with no internet required. Supports 25...

6. Scriberr — transcrire ses fichiers audio sans cloud

Application open-source de transcription audio/vidéo entièrement offline et auto-hébergée. Détection des locuteurs (diarisation), chat IA pour interroger un transcript, API pour automatiser l’ingestion de podcasts, conférences, cours, réunions enregistrées. Là où Murmure cible la dictée temps réel, Scriberr couvre le batch et l’archivage long terme. Combinés, ils couvrent l’essentiel des besoins speech-to-text sans qu’un fichier audio ne sorte de la machine.

Interface de l'application Scriberr montrant une liste d'enregistrements audio datés, incluant des cours Stanford CS336 et divers fichiers audio, affichée en version desktop et mobile côte à côte.
GitHub - rishikanthc/Scriberr: Self-hosted AI audio transcription
Self-hosted AI audio transcription. Contribute to rishikanthc/Scriberr development by creating an account on GitHub.

7. Petal — app menu bar macOS pour la transcription multi-moteurs

Application macOS native qui transcrit l’audio en local directement depuis la barre de menu. Supporte plusieurs moteurs au choix : Apple Speech, Qwen, Whisper, Voxtral. Pratique pour celles et ceux qui sont sur Mac et veulent une intégration système plus étroite que Murmure, ou qui veulent benchmarker plusieurs moteurs sur leur propre voix avant de choisir.

Interface d'enregistrement audio avec un bouton "REC" rouge et un indicateur de niveau sonore sur fond dégradé violet-rose, représentant l'application Petal pour macOS.
Aayush9029/petal: Petal is a native macOS menu bar app for fast, local-first audio transcription.
Petal is a native macOS menu bar app for fast, local-first audio transcription. - Aayush9029/petal

8. Ghost Pepper — dictée hold-to-talk 100 % locale sur macOS

Dictée macOS pensée pour le quotidien : tu maintiens la touche Control, tu parles, tu relâches, le texte est transcrit et collé à la position du curseur. Whisper (via WhisperKit) ou Parakeet pour la reconnaissance, et un petit LLM local — Qwen 3.5 — pour nettoyer les hésitations et la ponctuation. Workflow simple et rapide, qui remplace bien la dictée macOS d’origine sans perdre une seule donnée vers Apple ni un service tiers.

Capture d'écran des paramètres de l'application macOS **Ghost Pepper**, affichant la section **Models** où l'on peut configurer les modèles de reconnaissance vocale (Parakeet v3) et de nettoyage de texte (Qwen 3.5), ainsi que leur statut de chargement en local.
matthartman/ghost-pepper: Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste.
Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste. - matthartman/ghost-pepper

9. Voicebox — synthèse vocale (TTS) open-source en local

Studio TTS open-source basé sur Qwen3-TTS, qui tourne strictement sur la machine. Là où Murmure, Scriberr, Petal et Ghost Pepper couvrent la transcription (audio → texte), Voicebox couvre l’inverse (texte → voix). Génération illimitée sans facturation à la seconde comme chez ElevenLabs ou Murf, données qui restent locales. Utile pour podcasts, voix off, tutos vidéo et tout cas d’usage où on ne veut pas que sa voix synthétique soit générée par un service tiers.

Interface de l'application Voicebox montrant une bibliothèque de voix synthétiques avec des profils d'avatars, un lecteur audio avec forme d'onde en bas, et un historique de conversations générées sur le côté droit.
The open-source voice synthesis studio powered by Qwen3-TTS.
The open-source voice synthesis studio powered by Qwen3-TTS.

Image et documents en local : édition, OCR, parsing PDF

Deux outils complémentaires qui couvrent à peu près tous les besoins du quotidien sur images et documents, sans qu’un seul pixel ni une seule ligne ne passe par un cloud tiers.

10. Stirling-Image — 30+ outils image avec IA locale dans un container Docker

Stirling-PDF, mais pour les images. 30+ outils dans un seul container Docker : resize, compression, suppression de fond, upscale, OCR, conversion de format. Toute l’inférence IA se fait localement, pas de cloud, pas de télémétrie. Setup Docker compose en quelques minutes. Particulièrement utile quand on traite des screenshots ou des photos qu’on ne veut pas envoyer à des services tiers (RGPD, secret pro, données clients).

Capture d'écran de l'interface web de Stirling Image, une boîte à outils locale pour le traitement d'images, présentant plus de 30 fonctionnalités organisées en catégories : Essentiels, Optimisation, Ajustements, Outils IA, Filigrane, Utilitaires, Mise en page, Conversion et Automatisation.
stirling-image/stirling-image
Stirling-PDF but for images. 30+ tools and local AI in a single Docker container - resize, compress, remove backgrounds, upscale, OCR, and more. No cloud, no telemetry. Your images never leave your...

11. LiteParse — parser PDF en local par l’équipe LlamaIndex

Parser de documents open-source signé LlamaIndex : extrait le texte de PDF en local avec OCR, récupère les bounding boxes des éléments, et génère des screenshots des pages. Idéal pour bâtir un pipeline de RAG local (PDF → chunks → embeddings → vector store) sans que les documents originaux ne quittent la machine. Rare dans un paysage où la plupart des parsers PDF dignes de ce nom tournent en SaaS.

Terminal de commande affichant l'installation de la bibliothèque Python "liteparse" via pip, sur fond dégradé orange et rose.
run-llama/liteparse: A fast, helpful, and open-source document parser
A fast, helpful, and open-source document parser. Contribute to run-llama/liteparse development by creating an account on GitHub.

Assistants IA agentiques qui tournent sur ta machine

Trois assistants généralistes ou spécialisés qui privilégient l’inférence locale (via Ollama, LM Studio ou modèles embarqués) plutôt que les API cloud.

12. OpenHuman — l’assistant agentique privé avec mémoire persistante

Assistant agentique open-source qui tourne en local, se connecte en un clic à Gmail, Notion, Slack, GitHub et 115 autres services, et maintient une mémoire persistante dans un vault Obsidian sur ta machine. Combinaison rare : agent + intégrations + mémoire long terme, le tout sans envoyer les données du vault à un tiers. Top sur Product Hunt à son lancement.

Capture d'écran de l'application OpenHuman sur macOS, montrant un assistant IA personnifié par un personnage jaune kawaii, en train de lire les emails Gmail d'un utilisateur et d'en afficher un résumé dans une interface de chat.
tinyhumansai/openhuman
Your Personal AI super intelligence. Private, Simple and extremely powerful. - tinyhumansai/openhuman

13. Atomic — base de connaissances avec graphe sémantique local

Base de connaissances open-source et self-hosted qui connecte tes notes via un graphe sémantique : recherche vectorielle, auto-tagging, synthèse wiki par tag, intégration MCP pour Claude ou Cursor. Notes, articles, web clips et feeds sont automatiquement embarqués, étiquetés et reliés à des idées proches. Versions desktop, serveur et iOS. Tes données restent sur ta machine ou ton serveur.

Tool: Atomic
A personal knowledge base that turns freeform notes into a semantically-connected, AI-augmented knowledge graph.

14. JustHireMe — workbench local-first pour la recherche d’emploi

Outil local-first pour scraper des offres d’emploi, scorer sa compatibilité avec chacune et générer des candidatures personnalisées (CV, lettre de motivation, messages d’approche). Aucune donnée envoyée en dehors de la machine — utile vu la sensibilité d’un dossier de candidature qu’on ne veut pas voir indexé chez un tiers ou inclus dans un dataset d’entraînement.

Capture d'écran du tableau de bord de l'application open source **JustHireMe**, un outil d'intelligence d'emploi local-first affichant des métriques de recherche d'emploi (342 offres actives, 87 scorées, 24 prêtes, 9 candidatures envoyées) ainsi que des modules de pipeline, graphe de profil et matériaux personnalisés.
vasu-devs/JustHireMe
Local-first AI job intelligence workbench for scraping roles, ranking fit, and generating tailored application materials. - vasu-devs/JustHireMe

Bonus : optimiser le contexte de ses LLMs locaux

Les modèles locaux ont des fenêtres de contexte plus modestes que les modèles frontières (Claude Opus, GPT-5). Compresser intelligemment ce qu’on leur envoie change tout.

15. Headroom — compresser logs, outputs et chunks RAG avant le LLM

Headroom s’intercale entre tes outils (logs, outputs de scripts, fichiers, chunks RAG) et le LLM, et compresse le contenu avant qu’il arrive dans le contexte — 60 à 95 % de tokens en moins, sans perte de précision mesurable. Disponible en library, proxy HTTP ou serveur MCP, donc se branche aussi bien dans un agent Python qu’en couche transverse à un setup Claude Code ou Cursor. Particulièrement utile pour les modèles locaux dont la fenêtre de contexte est plus modeste que celle de Claude Opus ou GPT-5.

chopratejas/headroom
Compress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server. - chopratejas/headroom

Pourquoi faire tourner l’IA en local en 2026

Quatre raisons reviennent dans tous les choix de la liste :

  • Souveraineté — tes données (notes, audio, mails, code) ne sortent jamais de la machine. C’est devenu un argument commercial sérieux pour les apps locales, pas juste une posture militante.
  • Coût — un modèle 7B-13B sur ton matériel ne coûte rien à l’inférence. Sur un usage soutenu (transcription, embeddings, chat quotidien), l’économie face aux abonnements API se chiffre vite en centaines d’euros par an.
  • Latence — pas de round-trip réseau, pas de file d’attente côté provider, pas de rate limit imprévu. Pertinent pour la dictée temps réel ou les workflows automatisés.
  • Continuité — l’IA continue de marcher en avion, en train, en zone blanche, et le jour où l’API d’OpenAI plante.

L’inconvénient honnête : la qualité brute reste sous celle des modèles frontière (Claude Opus, GPT-5, Gemini 2). Pour de la rédaction généraliste, du code review pointu ou du raisonnement long, le cloud garde une longueur d’avance. Pour la transcription, l’OCR, l’embedding, le chat usuel et la majorité des tâches répétitives : le local est devenu suffisant.

Questions fréquentes

C’est quoi exactement « faire tourner l’IA en local » ? Exécuter le modèle d’IA sur sa propre machine au lieu d’envoyer la requête à un serveur distant. En 2026, ça couvre les LLMs (Llama, Mistral, Qwen, DeepSeek via Ollama ou LM Studio), la transcription vocale (Whisper, Parakeet, Voxtral), la synthèse vocale (Qwen3-TTS), le traitement d’image et l’OCR. Aucune donnée n’est envoyée à OpenAI, Google ou Anthropic — tout reste sur le disque local.

Quel matériel minimum pour faire tourner un LLM en local ? Pour un modèle 7B quantifié (Q4_K_M), 8-16 Go de RAM suffisent. Pour un 13B, 16-32 Go. Pour un 30B+, prévoir 64 Go ou plus, ou un GPU dédié avec assez de VRAM. Un Mac M1+ avec 16 Go de RAM unifiée ou un PC avec un GPU NVIDIA 8 Go+ couvrent la plupart des usages quotidiens en 2026.

Faut-il forcément un GPU ? Non. Sur Mac Apple Silicon, l’inférence passe par le GPU intégré et le Neural Engine, donc tout marche sans GPU dédié. Sur PC Windows ou Linux, un CPU récent suffit pour des modèles 7B en Q4, à condition d’accepter une latence plus haute (5-15 tokens/seconde au lieu de 30-60 avec un GPU). Pour Whisper et la transcription, un CPU moderne fait largement l’affaire.

Quelle différence entre Ollama et LM Studio ? Ollama est un runtime CLI/serveur orienté développeurs, qui expose une API compatible OpenAI sur localhost:11434. LM Studio est une app desktop avec interface graphique qui couvre les mêmes usages, plus un chat intégré et un catalogue de modèles à télécharger en un clic. Les deux savent faire tourner les modèles au format GGUF et MLX. Ollama pour scripter et brancher des agents, LM Studio pour découvrir et tester des modèles à la main.

Quel modèle local choisir en 2026 ? Pour du chat quotidien : Llama 3.3 70B (si tu as la RAM) ou Qwen 2.5 14B. Pour le code : Qwen 2.5 Coder 14B ou DeepSeek Coder V3. Pour le multilingue européen : Mistral Small 3 ou Llama 3.3. Pour les très petites machines : Phi 4 ou Llama 3.2 3B. Utilise whichllm, llmfit ou CanIRun.ai pour valider la compatibilité matériel avant.

Et si je veux brancher un modèle local sur un agent style Claude Code ou Cursor ? Plusieurs frameworks d’agents IA open-source (Goose, Accomplish, DeepAgents) sont model-agnostic et acceptent un endpoint Ollama, LM Studio ou apfel. Pour les workflows quotidiens en cloud, voir aussi mon guide Cursor. Côté formation, Human Coders propose Claude Code pour les bases et Créer des agents IA avec Claude pour construire des agents robustes avec Claude et MCP.

Pour aller plus loin

Pour rester à jour sur l’IA en local et les nouveaux modèles open-source qui sortent chaque mois, je publie ma veille tech chaque vendredi dans une newsletter (un seul mail, désinscription en un clic). Pour les outils non-IA, voir les alternatives open-source aux SaaS en 2026. Pour les capacités à charger dans Claude Code, voir mon récap sur les meilleures skills et plugins Claude Code en 2026.

Et pour monter en compétence de façon structurée, le catalogue formations IA de Human Coders couvre Claude Code, les agents IA et l’IA pour les devs.


Méthodologie — Cette sélection s’appuie sur l’engagement social cumulé (likes, partages, réponses sur X, Bluesky, Mastodon et LinkedIn) des liens partagés via la veille de camilleroux.com sur les 12 derniers mois. Le tri est manuel après agrégation automatique. Liste non exhaustive, point de vue éditorial assumé.