Top 15 outils open-source d'IA locale sur Mac et PC en 2026 Sélection des 15 meilleurs outils open-source pour exécuter LLMs, transcription, synthèse vocale, traitement d'image et agents IA sans cloud en 2026. 2026 En bref — Faire tourner de l’IA en local en 2026, c’est devenu accessible : un Mac M-series avec 16 Go de RAM unifiée ou un PC avec un GPU 8 Go+ suffit pour exécuter des modèles 7B-13B (Llama, Mistral, Qwen, DeepSeek) au quotidien. Cette sélection couvre 15 outils open-source qui résolvent les principaux cas d’usage : choix du modèle, libération d’Apple Intelligence, transcription vocale (STT), synthèse vocale (TTS), traitement d’image et de PDF, assistants agentiques avec mémoire et compression de contexte pour les LLMs.Il y a plein de bonnes raisons de faire tourner de l’IA en local, sur son propre Mac, PC ou serveur : ne plus envoyer ses données chez OpenAI, Google ou Anthropic ; arrêter de payer un abonnement par mois ou payer des tokens ; pouvoir continuer à travaille sans connexion. Voici les 15 outils relayés dans ma veille techno qui ont eu le plus d'engagement pour exécuter de l’IA strictement en local, classés par usage : choix du modèle, Apple Intelligence en CLI, voix, image et documents, assistants agentiques, et compression du contexte LLM.Pour les alternatives non-IA, voir mon récap sur les alternatives open-source aux SaaS en 2026.Choisir le bon modèle local pour son matériel (Mac, PC, GPU)Avant d’installer un LLM, il faut savoir lequel ton matériel peut vraiment faire tourner — et lequel donnera les meilleurs résultats. Trois outils pour répondre à cette question, du navigateur à la CLI, en passant par le benchmark réel.1. CanIRun.ai — détecter en un clic les modèles compatibles avec ton matérielDétecte automatiquement ton matériel (GPU, CPU, RAM unifiée) directement depuis le navigateur et te liste les modèles IA que tu peux faire tourner en local, avec le niveau de quantization conseillé (Q4_K_M, Q5_K_M, Q8_0, F16). Couvre les modèles récents (Llama, Mistral, Qwen, DeepSeek, Phi) avec leurs spécifications complètes (taille, contexte, architecture, MoE ou dense). Idéal pour cadrer un setup avant même d’installer Ollama ou LM Studio.Can I Run AI locally?Detect your hardware and find out which AI models you can run locally. GPU, CPU, and RAM analysis in your browser.CanIRun.ai2. llmfit — la CLI Rust qui scanne et recommande des modèlesOutil CLI écrit en Rust qui scanne le système (RAM, CPU, GPU) et liste les modèles LLM compatibles. Interface TUI avec filtres, comparaison multi-modèles, et un mode inversé bien pratique : tu lui donnes un modèle et il te dit le hardware minimum requis. Utile pour benchmarker avant achat ou pour scripter le choix du modèle selon la machine cible (dev, CI, prod self-hosted).AlexsJones/llmfit: Hundreds of models & providers. One command to find what runs on your hardware.Hundreds of models & providers. One command to find what runs on your hardware. - AlexsJones/llmfitGitHub3. whichllm — classer les LLMs locaux par performances réelles, pas par tailleLà où CanIRun.ai et llmfit cadrent ce qui « tient » sur la machine, whichllm répond à une autre question : lequel donne vraiment les meilleurs résultats sur ton hardware. Détecte ton GPU/CPU/RAM, puis classe les LLMs open-source par benchmarks réels et récents (pas par nombre de paramètres, qui ne dit rien sur la qualité utile). Une commande, un classement actionnable.Andyyyy64/whichllm: Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-aware benchmarks, not parameter count. One command, run it instantly.Find the local LLM that actually runs and performs best on your hardware. Ranked by real, recency-aware benchmarks, not parameter count. One command, run it instantly. - Andyyyy64/whichllmGitHubApple Intelligence en CLI : l’IA gratuite déjà sur ton MacCas particulier qui mérite sa propre section : si tu es sur Apple Silicon avec macOS Tahoe, tu as déjà un LLM embarqué prêt à servir.4. apfel — libérer Apple Intelligence depuis le terminalapfel libère le LLM embarqué dans macOS (Apple Intelligence) et l’expose en trois interfaces : CLI, serveur compatible OpenAI, et chat interactif. 100 % on-device, zéro coût, zéro clé API, zéro abonnement. Le modèle est déjà installé sur la machine par Apple — apfel se contente de le rendre accessible aux apps tierces. Particulièrement intéressant pour scripter des tâches IA sans toucher à un service externe, ou pour brancher Apple Intelligence sur des outils qui parlent l’API OpenAI (Open WebUI, Chatbox, etc.). Requiert Apple Silicon et macOS Tahoe.Show HN: Apfel – The free AI already on your MacUse Apple's built-in AI from the terminal. Free, private, 100% on-device. No API keys, no cloud, no subscriptions.apfelVoix : transcription (STT) et synthèse vocale (TTS) en localTout ce qui touche à la voix est particulièrement sensible côté privacy. Cinq apps qui font tourner reconnaissance et génération vocale strictement sur la machine, sans aucun appel cloud.5. Murmure — speech-to-text offline en 25 langues européennesDictée vocale 100 % locale, open-source, propulsée par NVIDIA Parakeet. Aucune donnée ne quitte la machine, 25 langues européennes supportées dont un français très propre, mise en route en moins de 5 minutes. Pensé pour la dictée de notes et de comptes-rendus de réunion en temps réel. Nécessite un GPU décent pour une latence agréable. Disponible sur Mac, Windows et Linux.Free Offline Speech-to-TextA free, open-source, offline speech-to-text application powered by NVIDIA Parakeet. Privacy-first voice-to-text transcription running entirely on your machine with no internet required. Supports 25...Murmure6. Scriberr — transcrire ses fichiers audio sans cloudApplication open-source de transcription audio/vidéo entièrement offline et auto-hébergée. Détection des locuteurs (diarisation), chat IA pour interroger un transcript, API pour automatiser l’ingestion de podcasts, conférences, cours, réunions enregistrées. Là où Murmure cible la dictée temps réel, Scriberr couvre le batch et l’archivage long terme. Combinés, ils couvrent l’essentiel des besoins speech-to-text sans qu’un fichier audio ne sorte de la machine.GitHub - rishikanthc/Scriberr: Self-hosted AI audio transcriptionSelf-hosted AI audio transcription. Contribute to rishikanthc/Scriberr development by creating an account on GitHub.GitHub7. Petal — app menu bar macOS pour la transcription multi-moteursApplication macOS native qui transcrit l’audio en local directement depuis la barre de menu. Supporte plusieurs moteurs au choix : Apple Speech, Qwen, Whisper, Voxtral. Pratique pour celles et ceux qui sont sur Mac et veulent une intégration système plus étroite que Murmure, ou qui veulent benchmarker plusieurs moteurs sur leur propre voix avant de choisir.Aayush9029/petal: Petal is a native macOS menu bar app for fast, local-first audio transcription.Petal is a native macOS menu bar app for fast, local-first audio transcription. - Aayush9029/petalGitHub8. Ghost Pepper — dictée hold-to-talk 100 % locale sur macOSDictée macOS pensée pour le quotidien : tu maintiens la touche Control, tu parles, tu relâches, le texte est transcrit et collé à la position du curseur. Whisper (via WhisperKit) ou Parakeet pour la reconnaissance, et un petit LLM local — Qwen 3.5 — pour nettoyer les hésitations et la ponctuation. Workflow simple et rapide, qui remplace bien la dictée macOS d’origine sans perdre une seule donnée vers Apple ni un service tiers.matthartman/ghost-pepper: Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste.Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste. - matthartman/ghost-pepperGitHub9. Voicebox — synthèse vocale (TTS) open-source en localStudio TTS open-source basé sur Qwen3-TTS, qui tourne strictement sur la machine. Là où Murmure, Scriberr, Petal et Ghost Pepper couvrent la transcription (audio → texte), Voicebox couvre l’inverse (texte → voix). Génération illimitée sans facturation à la seconde comme chez ElevenLabs ou Murf, données qui restent locales. Utile pour podcasts, voix off, tutos vidéo et tout cas d’usage où on ne veut pas que sa voix synthétique soit générée par un service tiers.The open-source voice synthesis studio powered by Qwen3-TTS.The open-source voice synthesis studio powered by Qwen3-TTS.Open-source ProjectsImage et documents en local : édition, OCR, parsing PDFDeux outils complémentaires qui couvrent à peu près tous les besoins du quotidien sur images et documents, sans qu’un seul pixel ni une seule ligne ne passe par un cloud tiers.10. Stirling-Image — 30+ outils image avec IA locale dans un container DockerStirling-PDF, mais pour les images. 30+ outils dans un seul container Docker : resize, compression, suppression de fond, upscale, OCR, conversion de format. Toute l’inférence IA se fait localement, pas de cloud, pas de télémétrie. Setup Docker compose en quelques minutes. Particulièrement utile quand on traite des screenshots ou des photos qu’on ne veut pas envoyer à des services tiers (RGPD, secret pro, données clients).stirling-image/stirling-imageStirling-PDF but for images. 30+ tools and local AI in a single Docker container - resize, compress, remove backgrounds, upscale, OCR, and more. No cloud, no telemetry. Your images never leave your...GitHub11. LiteParse — parser PDF en local par l’équipe LlamaIndexParser de documents open-source signé LlamaIndex : extrait le texte de PDF en local avec OCR, récupère les bounding boxes des éléments, et génère des screenshots des pages. Idéal pour bâtir un pipeline de RAG local (PDF → chunks → embeddings → vector store) sans que les documents originaux ne quittent la machine. Rare dans un paysage où la plupart des parsers PDF dignes de ce nom tournent en SaaS.run-llama/liteparse: A fast, helpful, and open-source document parserA fast, helpful, and open-source document parser. Contribute to run-llama/liteparse development by creating an account on GitHub.GitHubAssistants IA agentiques qui tournent sur ta machineTrois assistants généralistes ou spécialisés qui privilégient l’inférence locale (via Ollama, LM Studio ou modèles embarqués) plutôt que les API cloud.12. OpenHuman — l’assistant agentique privé avec mémoire persistanteAssistant agentique open-source qui tourne en local, se connecte en un clic à Gmail, Notion, Slack, GitHub et 115 autres services, et maintient une mémoire persistante dans un vault Obsidian sur ta machine. Combinaison rare : agent + intégrations + mémoire long terme, le tout sans envoyer les données du vault à un tiers. Top sur Product Hunt à son lancement.tinyhumansai/openhumanYour Personal AI super intelligence. Private, Simple and extremely powerful. - tinyhumansai/openhumanGitHub13. Atomic — base de connaissances avec graphe sémantique localBase de connaissances open-source et self-hosted qui connecte tes notes via un graphe sémantique : recherche vectorielle, auto-tagging, synthèse wiki par tag, intégration MCP pour Claude ou Cursor. Notes, articles, web clips et feeds sont automatiquement embarqués, étiquetés et reliés à des idées proches. Versions desktop, serveur et iOS. Tes données restent sur ta machine ou ton serveur.Tool: AtomicA personal knowledge base that turns freeform notes into a semantically-connected, AI-augmented knowledge graph.atomicapp.ai14. JustHireMe — workbench local-first pour la recherche d’emploiOutil local-first pour scraper des offres d’emploi, scorer sa compatibilité avec chacune et générer des candidatures personnalisées (CV, lettre de motivation, messages d’approche). Aucune donnée envoyée en dehors de la machine — utile vu la sensibilité d’un dossier de candidature qu’on ne veut pas voir indexé chez un tiers ou inclus dans un dataset d’entraînement.vasu-devs/JustHireMeLocal-first AI job intelligence workbench for scraping roles, ranking fit, and generating tailored application materials. - vasu-devs/JustHireMeGitHubBonus : optimiser le contexte de ses LLMs locauxLes modèles locaux ont des fenêtres de contexte plus modestes que les modèles frontières (Claude Opus, GPT-5). Compresser intelligemment ce qu’on leur envoie change tout.15. Headroom — compresser logs, outputs et chunks RAG avant le LLMHeadroom s’intercale entre tes outils (logs, outputs de scripts, fichiers, chunks RAG) et le LLM, et compresse le contenu avant qu’il arrive dans le contexte — 60 à 95 % de tokens en moins, sans perte de précision mesurable. Disponible en library, proxy HTTP ou serveur MCP, donc se branche aussi bien dans un agent Python qu’en couche transverse à un setup Claude Code ou Cursor. Particulièrement utile pour les modèles locaux dont la fenêtre de contexte est plus modeste que celle de Claude Opus ou GPT-5.chopratejas/headroomCompress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server. - chopratejas/headroomGitHubPourquoi faire tourner l’IA en local en 2026Quatre raisons reviennent dans tous les choix de la liste :Souveraineté — tes données (notes, audio, mails, code) ne sortent jamais de la machine. C’est devenu un argument commercial sérieux pour les apps locales, pas juste une posture militante.Coût — un modèle 7B-13B sur ton matériel ne coûte rien à l’inférence. Sur un usage soutenu (transcription, embeddings, chat quotidien), l’économie face aux abonnements API se chiffre vite en centaines d’euros par an.Latence — pas de round-trip réseau, pas de file d’attente côté provider, pas de rate limit imprévu. Pertinent pour la dictée temps réel ou les workflows automatisés.Continuité — l’IA continue de marcher en avion, en train, en zone blanche, et le jour où l’API d’OpenAI plante.L’inconvénient honnête : la qualité brute reste sous celle des modèles frontière (Claude Opus, GPT-5, Gemini 2). Pour de la rédaction généraliste, du code review pointu ou du raisonnement long, le cloud garde une longueur d’avance. Pour la transcription, l’OCR, l’embedding, le chat usuel et la majorité des tâches répétitives : le local est devenu suffisant.Questions fréquentesC’est quoi exactement « faire tourner l’IA en local » ? Exécuter le modèle d’IA sur sa propre machine au lieu d’envoyer la requête à un serveur distant. En 2026, ça couvre les LLMs (Llama, Mistral, Qwen, DeepSeek via Ollama ou LM Studio), la transcription vocale (Whisper, Parakeet, Voxtral), la synthèse vocale (Qwen3-TTS), le traitement d’image et l’OCR. Aucune donnée n’est envoyée à OpenAI, Google ou Anthropic — tout reste sur le disque local.Quel matériel minimum pour faire tourner un LLM en local ? Pour un modèle 7B quantifié (Q4_K_M), 8-16 Go de RAM suffisent. Pour un 13B, 16-32 Go. Pour un 30B+, prévoir 64 Go ou plus, ou un GPU dédié avec assez de VRAM. Un Mac M1+ avec 16 Go de RAM unifiée ou un PC avec un GPU NVIDIA 8 Go+ couvrent la plupart des usages quotidiens en 2026.Faut-il forcément un GPU ? Non. Sur Mac Apple Silicon, l’inférence passe par le GPU intégré et le Neural Engine, donc tout marche sans GPU dédié. Sur PC Windows ou Linux, un CPU récent suffit pour des modèles 7B en Q4, à condition d’accepter une latence plus haute (5-15 tokens/seconde au lieu de 30-60 avec un GPU). Pour Whisper et la transcription, un CPU moderne fait largement l’affaire.Quelle différence entre Ollama et LM Studio ? Ollama est un runtime CLI/serveur orienté développeurs, qui expose une API compatible OpenAI sur localhost:11434. LM Studio est une app desktop avec interface graphique qui couvre les mêmes usages, plus un chat intégré et un catalogue de modèles à télécharger en un clic. Les deux savent faire tourner les modèles au format GGUF et MLX. Ollama pour scripter et brancher des agents, LM Studio pour découvrir et tester des modèles à la main.Quel modèle local choisir en 2026 ? Pour du chat quotidien : Llama 3.3 70B (si tu as la RAM) ou Qwen 2.5 14B. Pour le code : Qwen 2.5 Coder 14B ou DeepSeek Coder V3. Pour le multilingue européen : Mistral Small 3 ou Llama 3.3. Pour les très petites machines : Phi 4 ou Llama 3.2 3B. Utilise whichllm, llmfit ou CanIRun.ai pour valider la compatibilité matériel avant.Et si je veux brancher un modèle local sur un agent style Claude Code ou Cursor ? Plusieurs frameworks d’agents IA open-source (Goose, Accomplish, DeepAgents) sont model-agnostic et acceptent un endpoint Ollama, LM Studio ou apfel. Pour les workflows quotidiens en cloud, voir aussi mon guide Cursor. Côté formation, Human Coders propose Claude Code pour les bases et Créer des agents IA avec Claude pour construire des agents robustes avec Claude et MCP.Pour aller plus loinPour rester à jour sur l’IA en local et les nouveaux modèles open-source qui sortent chaque mois, je publie ma veille tech chaque vendredi dans une newsletter (un seul mail, désinscription en un clic). Pour les outils non-IA, voir les alternatives open-source aux SaaS en 2026. Pour les capacités à charger dans Claude Code, voir mon récap sur les meilleures skills et plugins Claude Code en 2026. Et pour monter en compétence de façon structurée, le catalogue formations IA de Human Coders couvre Claude Code, les agents IA et l’IA pour les devs.Méthodologie — Cette sélection s’appuie sur l’engagement social cumulé (likes, partages, réponses sur X, Bluesky, Mastodon et LinkedIn) des liens partagés via la veille de camilleroux.com sur les 12 derniers mois. Le tri est manuel après agrégation automatique. Liste non exhaustive, point de vue éditorial assumé. Vous aimez cette veille ? Rejoignez les lecteur·ice·s qui la reçoivent chaque vendredi dans leur boîte mail. S’abonner Merci ! Vérifiez votre boîte mail pour confirmer. Une seule newsletter par semaine, désabonnement en un clic. Commentaires Vous pourriez être intéressé·e 13 avr., 2026 /veille et /digest : faire sa veille techno directement dans Claude Code Lire 7 avr., 2026 Claude Code, MCP et Rails : j'ai vibe codé un agent IA qui cherche un appart à ma place Lire Charger plus
7 avr., 2026 Claude Code, MCP et Rails : j'ai vibe codé un agent IA qui cherche un appart à ma place Lire