Pourquoi une IA locale ?
Par décision de la Direction, les données sensibles au sens de la LPD ne doivent pas passer par le cloud. Les IA commerciales (ChatGPT, Claude, Gemini) envoient vos fichiers vers des serveurs externes. Avec LM Studio, tout reste sur votre machine.
- Confidentielle. Aucune donnée envoyée. Le modèle fonctionne hors ligne.
- Pour les données sensibles (LPD) et le secret de fonction, en complément de Microsoft Copilot Chat institutionnel.
Soyons honnêtes. Sur Artificial Analysis, Gemma 4 obtient environ 19 à 20 sur 100 et Qwen3.5 9B environ 25. Les meilleurs modèles cloud sont vers 57 à 61. Ce sont avant tout de petits modèles locaux, faits pour tourner sur un ordinateur personnel. Sa valeur : confidentialité, gratuité et hors-ligne. C’est suffisant pour résumer, traduire, reformuler ou analyser des documents.
Installer LM Studio
Vérifiez d’abord votre machine. Sur Mac, LM Studio exige une puce Apple Silicon (M1 à M4), donc un Mac de fin 2020 ou plus récent. Les Mac Intel ne sont pas pris en charge. Sur PC, la plupart des ordinateurs des dernières années conviennent, idéalement avec 16 Go de mémoire vive.
- Téléchargez l’application gratuite sur lmstudio.ai.
- Installez puis ouvrez LM Studio. Aucun compte requis.
L’interface évolue et diffère entre Windows et Mac. Les noms de boutons cités ici sont indicatifs. Fiez-vous à la fonction décrite.
Quel modèle choisir ?
Les trois sont recommandés pour les usages courants. Qwen3.5 9B (chinois, par Alibaba) est le plus performant ; Gemma 4 (de Google) reste une valeur sûre, plus légère en E4B ou un peu plus fine en 12B. Le choix dépend de votre machine.
| Qwen3.5 9B | Gemma 4 E4B | Gemma 4 12B | |
|---|---|---|---|
| Atout | Le plus performant | Léger et rapide | Qualité un peu supérieure |
| Mémoire | Moyenne | Modeste | Plus élevée |
| Longs PDF | Très à l’aise (grand contexte) | Très à l’aise | Lent sur petite machine |
| À choisir si | Vous cherchez la meilleure qualité | Machine modeste ou longs PDF | Machine bien dotée |
En cas de doute, prenez Gemma 4 E4B. Au chargement, LM Studio affiche une estimation de la mémoire et vous avertit si c’est trop lourd. Vous pouvez garder plusieurs modèles installés.
Télécharger le modèle
- Ouvrez la recherche de modèles (la loupe, souvent appelée « Discover »).
- Tapez le nom du modèle choisi (qwen3.5 ou gemma 4).
- Lancez le téléchargement de la version proposée par défaut. Le logiciel choisit la bonne version pour votre ordinateur.
- Une fois téléchargé, ouvrez une conversation avec ce modèle.

Augmenter la taille du contexte
Le contexte est le texte que le modèle lit en une fois. Plus de contexte égale plus de mémoire. Par défaut il est trop petit pour un PDF entier. Visez environ 32 000 pour les longs documents. Pour un document exceptionnellement long, vous pouvez monter plus haut (par exemple 64 000) si la mémoire suit ; la réponse sera alors plus lente.
- Au chargement du modèle, réglez la longueur de contexte (souvent « Context Length ») sur environ 32 000.
- C’est aussi modifiable ensuite via la petite molette (un bouton de type « recharger » apparaît).
- Si LM Studio avertit que c’est trop lourd, baissez la valeur ou passez à Gemma 4 E4B.

Symptôme utile. Si le contexte est trop petit, le modèle répond souvent comme si aucun document n’était joint (« je ne vois aucun document »). Ce n’est pas une panne. Augmentez le contexte puis renvoyez votre demande.
Travailler en confidentialité
Glissez votre document dans la conversation (formats .pdf, .docx, .txt). Tapez votre demande, par exemple « Résume ce rapport en 5 points ». Rien ne sort de votre ordinateur.

Le modèle réfléchit avant de répondre. Sur une machine modeste, comptez parfois plusieurs minutes. C’est normal. Pour aller plus vite sur les tâches simples, coupez la réflexion avec le bouton « Think » (sous la zone de saisie).
Pourquoi ces modèles ?
- Parmi les plus puissants des petits modèles locaux. Ce sont des modèles ouverts qui tournent sur une machine personnelle.
- Pensé pour votre ordinateur. Une carte graphique dédiée aide mais n’est pas indispensable.
- Open source (licence Apache 2.0) et multilingues. Détails officiels (Gemma 4) et Qwen3.5 9B.
Alternatives
D’autres outils existent : Ollama, GPT4All ou Hugging Face. Pour débuter, LM Studio reste le plus accessible. Avec beaucoup de mémoire, des modèles plus gros deviennent envisageables. Le Centre informatique peut aussi mettre des modèles locaux à disposition.
Local n’est pas forcément plus sobre
Contre-intuitif. Sans carte graphique dédiée, l’IA locale ne consomme pas moins qu’une requête à un LLM commercial (ChatGPT et autres). Un processeur (CPU) est lent pour l’IA : résumer un document peut lui demander plusieurs minutes à 30 W, soit autant d’énergie que les quelques secondes du matériel optimisé de ces services. Sur un ordinateur grand public, l’intérêt de l’IA locale reste la confidentialité. En revanche, avec une carte graphique (GPU) dédiée et un modèle bien choisi, l’IA locale peut devenir 10 à 1000 fois moins énergivore pour une qualité de réponse satisfaisante.
