Guide pratique N-Gage
LLM en local
Open WebUI + Ollama
Votre propre ChatGPT, 100% local. Aucune donnée ne quitte votre machine.
lock
Confidentialité totale
Vos données restent sur votre machine. Idéal pour les secteurs sensibles.
download
Open Source & Gratuit
Ollama et Open WebUI sont open source. Aucun abonnement, aucune limite.
record_voice_over
Transcription vocale
Dictez vos messages ou transcrivez vos fichiers audio avec Whisper.
group
Multi-utilisateurs
Déployez sur un serveur pour toute une équipe ou un cabinet.
C'est quoi un LLM local ?
Un LLM (Large Language Model) est un modèle d'intelligence artificielle capable de comprendre et de générer du texte. C'est le cerveau derrière des outils comme ChatGPT, Claude ou Gemini. Ces modèles ont été entraînés sur des milliards de pages de texte et peuvent répondre à des questions, rédiger des documents, analyser des données, écrire du code, et bien plus encore.
La différence avec ce guide, c'est le mot "local". Quand vous utilisez ChatGPT, votre texte — vos questions, vos documents, vos données — est envoyé sur les serveurs d'OpenAI, aux États-Unis. C'est là que le modèle tourne, et c'est de là que vous recevez la réponse. Ce qui pose une question simple : êtes-vous à l'aise avec ça pour vos données professionnelles sensibles ?
Avec un LLM local, le modèle tourne directement sur votre ordinateur ou votre serveur. Rien ne sort de votre réseau. Ni vos questions, ni vos fichiers, ni vos réponses. C'est particulièrement pertinent pour des secteurs comme la comptabilité, le droit, la médecine, la prévention au travail — partout où la confidentialité des données n'est pas une option.
La contrepartie ? La qualité des modèles locaux est légèrement inférieure à celle des grands modèles cloud (GPT-4o, Claude 3.5). Mais sur des tâches du quotidien — rédaction, synthèse, reformulation, questions-réponses sur un document — la différence est souvent imperceptible, surtout avec les modèles récents comme Mistral ou Llama 3.
En résumé : vous avez un ChatGPT qui tourne chez vous. Vos questions, vos documents, vos réponses — rien ne quitte votre réseau.
C'est quoi Ollama ?
Ollama est l'outil qui fait tourner les modèles sur votre machine. Imaginez-le comme un gestionnaire de modèles : il sait où les télécharger, comment les installer, comment les démarrer et comment les exposer à d'autres applications. Une fois installé, Ollama tourne discrètement en arrière-plan — vous voyez juste une petite icône dans la barre de menu.
Pour télécharger un modèle, une seule commande suffit dans le Terminal :
ollama pull mistral
Ollama gère ensuite tout : stockage du modèle, chargement en mémoire, communication avec les autres applications. Il expose une API locale sur le port 11434, ce qu'Open WebUI utilise pour lui parler.
C'est quoi Open WebUI ?
Si Ollama est le moteur sous le capot, Open WebUI est le tableau de bord — l'interface que vous voyez dans votre navigateur. Vous accédez à localhost:3000 et vous retrouvez une interface très proche de ChatGPT : une zone de chat, un historique des conversations, la possibilité d'uploader des fichiers, et bien plus.
Open WebUI ne fait pas tourner les modèles lui-même — il délègue ça à Ollama. Son rôle, c'est de rendre l'expérience agréable et puissante : gestion multi-utilisateurs, mémoire persistante, prompts enregistrés, transcription vocale, connexion à des bases de documents...
| Critère |
ChatGPT |
Claude |
LLM local (Ollama + Open WebUI) |
| Données envoyées sur internet |
Oui (serveurs OpenAI) |
Oui (serveurs Anthropic) |
Non — tout reste chez vous |
| Coût mensuel |
20-200 $/mois |
20-200 $/mois |
Gratuit (hors matériel) |
| Confidentialité |
Limitée |
Bonne mais cloud |
Totale |
| Personnalisation |
Partielle |
Partielle |
Totale (prompts, modèles, tools) |
| Qualité des réponses |
Excellente |
Excellente |
Très bonne (légèrement inférieure) |
1. Installer Ollama
Ollama est disponible gratuitement sur ollama.com. C'est une application native pour Mac, Windows et Linux. Sur Mac Apple Silicon (puce M1, M2, M3...), le téléchargement et l'installation sont identiques à n'importe quelle application.
- Allez sur ollama.com et cliquez sur le bouton Download.
- Sélectionnez la version pour macOS (Apple Silicon) si vous avez une puce M1/M2/M3, ou macOS Intel sinon.
- Ouvrez le fichier
.dmg téléchargé et glissez Ollama dans le dossier Applications.
- Lancez Ollama depuis le dossier Applications. Une icône en forme de lama apparaît dans la barre de menu en haut à droite. C'est votre confirmation qu'Ollama tourne.
info L'icône Ollama dans la barre de menu en haut à droite = Ollama est actif et prêt à recevoir des commandes. Si elle n'apparaît pas, relancez l'application depuis le dossier Applications.
Ollama ne nécessite aucun compte, aucune clé API, aucun abonnement. Il tourne entièrement en local. Au premier lancement, il ne télécharge aucun modèle — vous choisirez vous-même lesquels installer à l'étape 5.
2. Installer Docker Desktop
Docker est l'outil qui va nous permettre de lancer Open WebUI en quelques secondes, sans installation complexe. Pour faire simple : Docker est comme une boîte hermétique qui contient une application avec tout ce dont elle a besoin — son code, ses bibliothèques, sa configuration — sans polluer votre système.
- Allez sur docker.com/products/docker-desktop et téléchargez la version Mac Apple Silicon (ou Intel selon votre machine).
- Ouvrez le fichier
.dmg et installez Docker Desktop comme une application classique.
- Au premier lancement, Docker vous propose de créer un compte Docker Hub. Cliquez sur Skip — vous n'en avez pas besoin pour notre usage.
- Attendez que Docker démarre complètement. Une icône baleine apparaît dans la barre de menu — Docker est prêt.
Pour bien comprendre Docker, voici les 4 concepts que vous croiserez dans ce guide :
Image
La recette
Le modèle de l'application. On la télécharge une fois depuis un registre.
Conteneur
Le plat cuisiné
Une instance qui tourne. On peut en créer plusieurs depuis la même image.
Volume
Le frigo
Le stockage persistant. Vos données survivent aux redémarrages du conteneur.
Port
La fenêtre de service
La porte d'entrée pour accéder à l'application depuis votre navigateur.
3. Lancer Open WebUI
On va maintenant lancer Open WebUI avec une seule commande. Cette commande va télécharger automatiquement l'image Open WebUI depuis Internet et démarrer un conteneur qui tournera en arrière-plan. C'est la seule fois où vous aurez besoin du Terminal pour cette étape.
Ouvrez le Terminal (Spotlight → tapez "Terminal") et collez cette commande :
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Voici ce que fait chaque option :
| Option |
Rôle |
-d |
Lance le conteneur en arrière-plan (détaché). Votre Terminal reste libre. |
-p 3000:8080 |
Redirige le port 3000 de votre Mac vers le port 8080 du conteneur. Vous accéderez à Open WebUI sur localhost:3000. |
--add-host=host.docker.internal:host-gateway |
Permet au conteneur de communiquer avec Ollama qui tourne sur votre Mac (hors conteneur). |
-v open-webui:/app/backend/data |
Crée un volume nommé pour stocker vos données (conversations, comptes, paramètres). Elles persistent même si vous supprimez et recréez le conteneur. |
--name open-webui |
Donne un nom au conteneur pour le retrouver facilement dans Docker Desktop. |
--restart always |
Redémarre automatiquement Open WebUI à chaque démarrage de Docker Desktop — vous n'avez rien à faire. |
La première exécution prend 1 à 3 minutes le temps de télécharger l'image (~1,5 Go). Une fois la commande terminée, ouvrez votre navigateur et allez sur :
http://localhost:3000
check_circle Si vous voyez un écran de bienvenue Open WebUI avec un formulaire de création de compte, l'installation est réussie.
4. Créer son compte administrateur
À la première ouverture, Open WebUI vous invite à créer un compte. Ce compte est 100% local — aucune information n'est envoyée sur Internet. Il est stocké dans le volume Docker que nous avons créé à l'étape précédente.
Quelques points importants à retenir :
- Le premier compte créé devient automatiquement administrateur. Il a accès à tous les paramètres, peut créer d'autres utilisateurs, gérer les modèles, etc.
- Utilisez une adresse email et un mot de passe que vous vous rappellerez — même une adresse fictive fonctionne, l'email n'est pas vérifié.
- Si vous perdez ce mot de passe, la récupération nécessite d'accéder directement à la base de données du conteneur. Notez-le quelque part.
- Si vous déployez Open WebUI pour une équipe, créez votre compte admin en premier, puis vous pourrez ajouter les autres utilisateurs depuis les paramètres d'administration.
5. Choisir et télécharger un modèle
Sans modèle, Open WebUI ne peut pas répondre. Il faut maintenant choisir et télécharger au moins un LLM. Le choix dépend de votre machine et de votre usage. Plus un modèle est grand (en nombre de paramètres), plus il est capable — mais plus il demande de RAM et de puissance.
| Modèle |
Taille |
Usage recommandé |
RAM minimum |
llama3.2:3b |
2 Go |
Tests rapides, machine peu puissante |
8 Go |
mistral:7b |
4,4 Go |
Usage quotidien, excellent en français |
8 Go |
qwen2.5:7b |
4,4 Go |
Bilingue FR/EN, fort en raisonnement |
8 Go |
mistral:7b |
4,4 Go |
Recommandé pour commencer |
8 Go |
Option 1 — Via le Terminal (plus rapide, affiche la progression) :
ollama pull mistral
Option 2 — Depuis Open WebUI (sans Terminal) :
- Connectez-vous à Open WebUI (
localhost:3000).
- Cliquez sur votre avatar en bas à gauche → Paramètres d'administration.
- Allez dans Connexions → section Ollama.
- Dans le champ "Télécharger un modèle", tapez
mistral et appuyez sur Entrée.
- Le téléchargement démarre. Une barre de progression s'affiche.
Mistral est développé par une société française (Mistral AI, Paris). Le modèle est excellent en français, très polyvalent, et disponible sous licence ouverte. C'est notre recommandation pour démarrer — bon équilibre entre qualité et légèreté.
6. L'interface expliquée
Open WebUI ressemble à ChatGPT, mais avec des fonctionnalités supplémentaires. Voici un plan des différentes zones pour s'y retrouver dès la première connexion :
Sidebar gauche
L'historique de toutes vos conversations, organisées par date. Vous pouvez créer des dossiers pour classer vos échanges par projet ou par client. Accès aussi aux paramètres utilisateur en bas.
Sélecteur de modèle (en haut)
Menu déroulant pour choisir quel modèle Ollama utiliser pour cette conversation. Tapez @ dans la zone de texte pour changer de modèle en cours de discussion sans quitter le chat.
Zone de chat (centre)
La zone principale d'échange. Vous pouvez y glisser-déposer des fichiers (PDF, images, texte), cliquer sur l'icône micro pour dicter, et utiliser le bouton d'envoi pour envoyer votre message.
Panneau Contrôles (droite)
Accessible via l'icône glissières. Permet de définir un prompt système propre à cette conversation et de régler des paramètres techniques comme la température (créativité du modèle).
Espace de travail (icône crayon)
L'endroit où vous gérez tout ce qui est réutilisable : modèles personnalisés (vos assistants), collections de documents, et prompts enregistrés accessibles avec un slash.
tips_and_updates Conseil de départ : avant votre première vraie conversation, allez dans Paramètres → Personnalisation et renseignez votre prénom, votre métier et vos préférences de réponse. Le modèle s'adaptera automatiquement à votre contexte.
7. Gérer ses conversations
La sidebar gauche peut vite devenir un bazar si vous n'avez pas de méthode d'organisation. Voici les fonctionnalités disponibles et comment les utiliser efficacement.
Créer des dossiers
Cliquez droit sur n'importe quelle conversation dans la sidebar → Déplacer dans un dossier. Vous pouvez créer un nouveau dossier à la volée. Idéal pour organiser vos échanges par projet, par client ou par thème.
Tags et recherche
Open WebUI étiquette automatiquement vos conversations avec des tags thématiques. Vous pouvez aussi ajouter vos propres tags et les utiliser pour filtrer : dans la barre de recherche de la sidebar, tapez tag:nom-du-tag pour retrouver toutes les conversations sur un sujet.
Épingler une conversation
Cliquez droit → Épingler. La conversation remonte en haut de la sidebar et y reste, quelle que soit la date. Pratique pour les contextes récurrents (votre prompt de référence, un client important...).
Exporter une conversation
Cliquez sur l'icône ⋮ (trois points) à droite de la conversation → Exporter. Trois formats disponibles : JSON (pour réimporter), PDF (pour partager) ou TXT (pour archiver dans un document).
Conseil pratique : créez des dossiers dès le début — un par projet actif, un par client. Déplacez chaque conversation dans son dossier avant de passer à la suivante. 30 secondes d'organisation maintenant vous évitera 10 minutes de recherche dans 3 mois.
8. Les prompts slash
Les prompts slash sont l'une des fonctionnalités les plus puissantes d'Open WebUI. Le principe est simple : vous créez une fois un prompt réutilisable, vous lui donnez un nom court commençant par /, et vous pouvez le rappeler en quelques caractères dans n'importe quelle conversation.
Créer un prompt slash
- Allez dans Espace de travail (icône crayon en haut à gauche) → Prompts.
- Cliquez sur + pour créer un nouveau prompt.
- Renseignez un titre descriptif (ex : "Email de relance client").
- Renseignez la commande slash (ex :
relance — sans le /).
- Écrivez le contenu du prompt dans la zone principale. Enregistrez.
Utiliser un prompt slash
Dans n'importe quelle conversation, dans la zone de saisie de message, tapez simplement /relance. Open WebUI affiche une suggestion — appuyez sur Entrée ou cliquez dessus. Le texte complet du prompt apparaît dans le champ, que vous pouvez compléter avant d'envoyer.
Variables dynamiques
Dans vos prompts, vous pouvez utiliser des variables entre double accolades que le modèle remplacera ou que vous compléterez manuellement : {{nom_client}}, {{sujet}}, {{date}}...
edit_note Exemple concret : créez un prompt /relance avec ce contenu :
Rédige un email de relance professionnel pour {{NOM_CLIENT}}
concernant {{SUJET}}.
Ton : cordial mais direct. Maximum 5 lignes.
Signature : {{TON_NOM}}, N-Gage.
Il suffit ensuite de taper /relance, de remplacer les variables par les vraies valeurs, et d'envoyer. En quelques secondes, vous avez un email de relance propre et professionnel.
9. La mémoire persistante
Open WebUI peut mémoriser des informations sur vous et vos préférences, et les injecter automatiquement dans chaque conversation. C'est une fonctionnalité qui change radicalement l'expérience : le modèle vous connaît et n'a plus besoin qu'on lui répète le contexte à chaque session.
Activer la mémoire
- Cliquez sur votre avatar en bas à gauche → Paramètres.
- Allez dans Personnalisation → section Mémoire.
- Activez le toggle. Un champ apparaît pour ajouter vos premières mémorisons.
Exemples de mémorisations utiles
- Votre prénom et votre métier : "Je m'appelle Nicolas. Je suis formateur IA indépendant."
- Votre ton préféré : "Réponds toujours en français. Sois concis. Évite le jargon technique inutile."
- Votre contexte professionnel : "Je travaille principalement avec des PME et des SPSTI. Mes clients ne sont pas développeurs."
- Le nom de votre entreprise et vos outils habituels : "Mon entreprise s'appelle N-Gage. J'utilise n8n pour l'automatisation et Notion comme QG."
Mémoire vs prompt système
Il est important de comprendre la différence entre les deux :
| Fonctionnalité |
Portée |
Usage idéal |
| Mémoire persistante |
Toutes les conversations, tous les modèles |
Infos générales sur vous : prénom, métier, préférences de réponse, outils utilisés |
| Prompt système d'un modèle personnalisé |
Uniquement ce modèle, toutes ses conversations |
Rôle spécifique : "Tu es mon assistant comptable. Tu analyses uniquement des données financières." |
| Prompt système de conversation |
Uniquement cette conversation |
Contexte ponctuel : "Dans cette conversation, on rédige un cahier des charges pour le client X." |
psychology Astuce avancée : vous pouvez demander au modèle de mémoriser quelque chose en cours de conversation en tapant simplement : "Mémorise que je préfère les réponses en moins de 5 points." Open WebUI détecte l'intention et l'enregistre dans votre mémoire persistante.
3
description
Documents & RAG
Connectez vos documents — l'IA répond à partir de vos fichiers
C'est quoi le RAG ?
RAG signifie Retrieval-Augmented Generation — ce qui, traduit en français humain, donne : génération augmentée par la recherche. En pratique, c'est simple : vous donnez des documents à l'IA, elle les lit, et quand vous lui posez une question, elle cherche la réponse dans vos documents plutôt que dans sa mémoire générale.
L'analogie qui fonctionne le mieux : c'est comme donner un classeur à un assistant et lui dire "réponds uniquement à partir de ce que tu trouves dans ce classeur". L'assistant ne devine pas, ne fabrique pas — il consulte.
Pourquoi c'est puissant
verified
Réponses précises et sourcées
L'IA vous cite les passages exacts utilisés pour répondre. Vous pouvez vérifier.
lock
Vos docs restent locaux
Avec Open WebUI + Ollama, rien ne sort de votre machine. Parfait pour les données sensibles.
upload_file
N'importe quel PDF
Contrats, procédures, réglementations, rapports — uploadez et interrogez.
memory
Dépasse la limite de contexte
Un document de 200 pages ne tient pas dans une conversation. Le RAG résout ça en cherchant uniquement les passages pertinents.
Le RAG transforme Open WebUI en assistant expert de vos propres documents.
10. Uploader un document dans le chat Débutant
La façon la plus rapide de donner un document à l'IA : l'uploader directement dans la conversation en cours.
3 méthodes d'upload
-
Glisser-déposer — faites glisser un PDF depuis votre bureau ou votre Finder directement dans la zone de chat. Le fichier apparaît en aperçu avant envoi.
-
Bouton + (trombone) — cliquez sur l'icône + dans la barre de saisie du message → Sélectionner un fichier → choisissez votre document.
-
Raccourci # dans le chat — tapez
# dans la barre de message pour rechercher un document déjà indexé dans vos collections. Open WebUI l'injecte dans la conversation sans avoir à re-uploader.
Formats supportés
PDF
DOCX
TXT
HTML
MD
CSV
Ce qui se passe en coulisses
Quand vous uploadez un document, Open WebUI effectue automatiquement 3 opérations :
- Découpage (chunking) — le document est découpé en morceaux de quelques centaines de mots, avec un léger chevauchement entre chaque morceau pour ne pas perdre de contexte aux jointures.
- Vectorisation — chaque morceau est transformé en une représentation mathématique (un vecteur) qui capture son sens sémantique.
- Indexation — les vecteurs sont stockés dans une base locale, prêts à être interrogés.
Exemple concret
Situation : vous uploadez un contrat de prestation de 18 pages en PDF.
Question : "Quelles sont les clauses de résiliation et les délais de préavis ?"
Résultat : Open WebUI localise les passages pertinents et répond avec les citations exactes — sans lire l'intégralité du document à chaque fois.
Le document est analysé uniquement pour cette conversation. Pour le réutiliser dans d'autres conversations sans avoir à le ré-uploader à chaque fois, créez une Collection (voir section suivante).
11. Collections de documents Intermédiaire
Une collection, c'est une bibliothèque permanente de documents que vous constituez une fois et que vous pouvez appeler dans n'importe quelle conversation. Contrairement à un upload ponctuel, la collection persiste entre les sessions.
Créer une collection
- Aller dans Espace de travail (icône en haut à gauche) → Knowledge
- Cliquer sur + Nouvelle collection
- Donner un nom explicite (ex : "Contrats types 2025", "Procédures RH", "RGPD")
- Uploader vos documents — vous pouvez en ajouter plusieurs d'un coup
- Attendre l'indexation (barre de progression)
Utiliser une collection dans le chat
#Contrats types → sélectionner la collection dans la liste déroulante
Attacher une collection à un modèle personnalisé
Pour qu'un assistant dispose toujours de ses documents, sans avoir à taper # à chaque fois :
- Espace de travail → Modèles → modifier votre modèle
- Faire défiler jusqu'à la section Knowledge
- Sélectionner une ou plusieurs collections
- Sauvegarder — le modèle consulte désormais ces documents par défaut
Exemples de collections utiles
gavelContrats types
CGV, contrats de prestation, accords de confidentialité
folder_sharedProcédures internes
Onboarding, processus qualité, fiches de poste
menu_bookDocumentation produit
Notices, guides utilisateur, FAQ techniques
privacy_tipRéglementation RGPD
Textes officiels, délibérations CNIL, modèles de registre
12. Indexer une page web ou une vidéo YouTube Intermédiaire
Open WebUI ne se limite pas aux fichiers locaux. Vous pouvez indexer du contenu directement depuis une URL — page web ou vidéo YouTube.
Indexer une page web
Dans le chat, collez une URL précédée du signe # :
#https://docs.monoutil.com/guide-installation
Indexer une vidéo YouTube
Même principe avec une URL YouTube. Open WebUI récupère la transcription automatique de la vidéo et l'indexe :
#https://www.youtube.com/watch?v=xxxxxxxxxxx
Cas d'usage concrets
- Veille sectorielle : indexer des articles de référence et interroger leur contenu
- Documentation technique : analyser une doc en ligne sans copier-coller
- Résumer une conférence YouTube : "Quels sont les 3 points clés de cette présentation ?"
- Comparer deux ressources : indexer deux pages et demander à l'IA de les comparer
Conseil : cette fonctionnalité fonctionne mieux sur les pages à forte densité textuelle (articles, docs, blogs). Les sites très visuels, les apps SPA sans contenu HTML visible, ou les pages protégées par login donnent des résultats décevants.
13. Citations et sources Débutant
Quand Open WebUI utilise le RAG pour répondre, il ne se contente pas de donner une réponse : il affiche les sources utilisées en bas de chaque réponse.
Lire les citations
- Repérez la section Sources (ou Citations) sous la réponse de l'IA
- Chaque source affiche le nom du document et un pourcentage de pertinence — plus il est élevé, plus le passage était jugé pertinent pour votre question
- Cliquez sur une citation pour voir l'extrait exact qui a été utilisé — vous pouvez ainsi vérifier que l'IA n'a pas mal interprété le passage
Que faire si les sources ne sont pas pertinentes ?
- Reformuler la question : une question plus précise = une recherche vectorielle plus ciblée
- Vérifier le contenu de la collection : si les documents n'ont pas été correctement indexés, les résultats seront mauvais
- Réduire la portée : au lieu d'interroger toute une collection, uploader uniquement le document pertinent dans la conversation
Ne faites jamais confiance à une réponse RAG sans vérifier les citations. L'IA peut parfois faire des liens incorrects entre des passages de documents différents — particulièrement si les documents parlent de sujets proches. La citation est votre garde-fou.
4
smart_toy
Modèles personnalisés
Créez des assistants dédiés à vos usages
Pourquoi personnaliser un modèle ?
Un modèle brut — Mistral, LLaMA, Gemma — répond à tout, sans contexte. Il ne sait pas pour qui il travaille, dans quel secteur, ni quel style de réponse vous attendez. Il fait ce qu'il peut avec ce que vous lui donnez à chaque fois.
Un modèle personnalisé, c'est un assistant qui connaît son rôle dès le départ, parle dans le bon style, et peut être configuré pour refuser de répondre en dehors de son périmètre.
L'analogie : c'est la différence entre "quelqu'un qui connaît tout en général" et "votre assistant comptable qui connaît vos procédures, votre logiciel, et vos clients".
Cas d'usage typiques
balanceAssistant juridique
Connaît les contrats types du cabinet, répond en langage accessible aux clients
storefrontAssistant commercial
Connaît l'offre, les tarifs, les objections fréquentes, rédige des emails de suivi
peopleAssistant RH
Maîtrise les procédures internes, aide à rédiger les offres d'emploi et les comptes-rendus d'entretien
health_and_safetyAssistant SPSTI
Connaît les fiches INRS, les protocoles de prévention, rédige les fiches d'entretien
14. Créer un assistant personnalisé Intermédiaire
- Aller dans Espace de travail → Modèles → cliquer sur +
- Remplir les champs de base : nom, modèle de base, description, photo de profil
- Rédiger le prompt système — c'est le plus important
- Configurer les options avancées si nécessaire (température, knowledge, tools)
- Sauvegarder
Structure d'un bon prompt système
Un prompt système efficace répond à 5 questions dans l'ordre :
badge1. Rôle et identité
Qui es-tu ? Quel est ton nom ? Pour qui travailles-tu ?
domain2. Contexte organisation
Secteur, taille, clients types, vocabulaire spécifique
record_voice_over3. Style de communication
Ton, niveau de langue, longueur des réponses, format préféré
check_circle4. Ce qu'il DOIT faire
Missions, types de tâches, comportements attendus
block5. Ce qu'il ne DOIT PAS faire
Hors périmètre, sujets à éviter, limites de responsabilité
Exemple complet — Cabinet comptable
Tu es l'assistant virtuel du Cabinet Dupont, expert-comptable à Lyon.
Tu t'appelles "Léo" et tu assistes les collaborateurs du cabinet au quotidien.
Le cabinet accompagne des TPE et PME (5 à 50 salariés) dans les secteurs
du commerce, de l'artisanat et des services. Tes interlocuteurs sont des
collaborateurs comptables (niveau bac+2 à bac+5), pas des débutants.
- Réponses concises, structurées avec des listes quand c'est approprié
- Français professionnel, pas de jargon inutile
- Si tu cites un texte réglementaire, précise toujours la source (CGI, BOFiP, etc.)
- Longueur : adapte-toi à la complexité de la question
- Aider à rédiger des emails clients, des notes internes, des synthèses
- Répondre aux questions fiscales et comptables courantes
- Aider à structurer des dossiers et des analyses
- Proposer des formulations claires pour expliquer des points techniques aux clients
- Ne jamais signer de documents ni prendre de décisions à la place du cabinet
- Ne pas répondre sur des sujets hors comptabilité/fiscalité/droit des affaires
- Ne pas inventer des règles fiscales : si tu n'es pas sûr, dis-le
- Ne pas donner de conseil fiscal définitif sans recommander une validation humaine
Le prompt système, c'est la fiche de poste de votre assistant. Plus elle est précise — rôle, périmètre, style, interdits — plus l'assistant est prévisible et utile. Un prompt vague donne un assistant vague.
15. Attacher des documents au modèle Intermédiaire
Un assistant personnalisé devient vraiment puissant quand on lui donne accès à des documents de référence dès la création, sans que l'utilisateur ait besoin d'y penser à chaque conversation.
Comment faire
- Créez d'abord vos collections de documents (voir section 11)
- Dans le formulaire de création (ou de modification) du modèle, faire défiler jusqu'à la section Knowledge
- Sélectionner une ou plusieurs collections dans la liste déroulante
- Sauvegarder — le modèle consultera automatiquement ces documents pour chaque réponse
Exemple combiné — Assistant Prévention SPSTI
Modèle : "Assistant Prévention"
Modèle de base : mistral:latest
Collections attachées :
- Collection "Fiches INRS" (200+ fiches ED téléchargées en PDF)
- Collection "Procédures internes service prévention"
- Collection "Réglementation Code du Travail — Santé"
Résultat : l'assistant peut répondre aux questions de prévention en citant les fiches INRS pertinentes, les procédures internes applicables, et les articles du Code du Travail — sans aucune configuration par l'utilisateur à chaque conversation.
Conseil : ne pas attacher trop de collections à un seul modèle. La qualité RAG diminue quand le corpus est trop hétérogène. Préférez plusieurs modèles spécialisés plutôt qu'un seul modèle généraliste surchargé. Règle pratique : maximum 3 collections par modèle.
Les outils (Tools) sont des capacités supplémentaires que vous pouvez donner à un modèle — au-delà de la simple génération de texte.
Les outils natifs principaux
travel_explore
Web Search
Le modèle peut interroger un moteur de recherche en temps réel. Utile pour l'actualité, les prix du marché, les textes de loi récents.
code
Code Interpreter
Exécute du code Python directement dans le navigateur. Calculs complexes, traitement de données, graphiques.
image
Image Generation
Si un modèle de génération d'image est configuré (Stable Diffusion, DALL-E), le modèle peut créer des images à la demande.
Activer les outils sur un modèle
- Espace de travail → Modèles → modifier le modèle cible
- Faire défiler jusqu'à la section Tools
- Cocher les outils souhaités
- Sauvegarder
Les outils communautaires
La communauté Open WebUI publie des outils additionnels sur openwebui.com/tools : météo en temps réel, conversion de devises, appels vers des APIs tierces (Notion, Airtable, etc.), calculs spécialisés. Pour importer un outil communautaire :
Attention — confidentialité : Web Search envoie votre requête à un moteur de recherche externe (Brave, DuckDuckGo, SearXNG selon votre configuration). Si vous travaillez avec des données sensibles ou sous contrainte de confidentialité stricte, désactivez Web Search sur les modèles dédiés à ces usages.
17. Comparer plusieurs modèles Intermédiaire
Avant de déployer un assistant chez un client ou de le mettre en production, il est utile de comparer objectivement les modèles disponibles sur votre usage précis.
Mode multi-modèles
La même question, posée à deux modèles en même temps, côte à côte :
- Dans le sélecteur de modèle (en haut du chat), cliquez sur le + à droite du modèle actif
- Ajoutez un second modèle dans la liste déroulante
- Posez votre question — les deux réponses arrivent simultanément, en colonnes parallèles
- Comparez la qualité, la précision, le style et la vitesse
Mode Arena (évaluation aveugle)
Un mode plus rigoureux pour construire un classement objectif :
- Activer le mode Arena dans les paramètres du chat
- Deux modèles vous répondent de manière anonyme (vous ne savez pas lequel est lequel)
- Vous votez pour la meilleure réponse à chaque échange
- Open WebUI construit automatiquement un classement ELO (comme aux échecs) en fonction de vos votes
- Consultez le classement dans Espace de travail → Arena pour voir quel modèle performe le mieux sur vos questions réelles
Utilité pratique : ce n'est pas parce qu'un modèle a de bons benchmarks en ligne qu'il sera le meilleur pour votre usage précis. Un modèle de 7B spécialisé peut surpasser un modèle de 13B généraliste sur des questions métier spécifiques. Testez avant de déployer.
5
mic
Voix & Audio
Dictez, transcrivez, écoutez — 100% en local
Whisper — le moteur de transcription local
Whisper est le modèle de reconnaissance vocale open source développé par OpenAI et publié librement. Open WebUI l'intègre nativement — ce qui signifie qu'aucune installation supplémentaire n'est nécessaire, et surtout : tout se passe en local. Votre voix ne quitte jamais votre machine.
C'est une différence fondamentale avec les services de transcription cloud (Google Speech, Azure, Whisper API) où vos enregistrements transitent par des serveurs distants.
Les modèles Whisper disponibles
| Modèle |
Taille |
Qualité |
Vitesse |
Pour quel usage |
tiny |
75 Mo |
Basique |
Très rapide |
Tests uniquement |
base |
145 Mo |
Correct |
Rapide |
Dictée quotidienne légère |
small |
460 Mo |
Bon |
Moyen |
Bon équilibre qualité/vitesse |
medium |
1,5 Go |
Très bon |
Lent |
Documents importants |
large-v3 |
3 Go |
Excellent |
Lent |
Qualité professionnelle |
Pour un usage professionnel en français — comptes-rendus de réunion, entretiens, formations — choisissez large-v3. La qualité de transcription est remarquable, y compris avec des accents régionaux et du vocabulaire technique. Le temps de traitement supplémentaire vaut largement la différence de qualité.
18. Activer la transcription vocale (micro) Débutant
Configuration (réservée à l'admin)
- Aller dans Réglages d'administration (icône ⚙️ en bas à gauche) → Audio
- Dans la section Speech-to-Text, laisser le champ Engine VIDE pour utiliser Whisper local
- Choisir le modèle Whisper dans le menu déroulant (recommandé :
large-v3)
- Sauvegarder
Piège classique : ne pas écrire "whisper" dans le champ Engine. Si ce champ contient du texte, Open WebUI cherche un moteur externe. Laissez-le vide pour forcer l'utilisation locale.
Utilisation au quotidien
- Dans le chat, cliquer sur l'icône micro dans la barre de saisie
- Parler — un indicateur visuel montre que l'enregistrement est actif
- Cliquer à nouveau sur le micro pour arrêter l'enregistrement
- Whisper transcrit l'audio — le texte apparaît dans la barre de message
- Vérifier, corriger si besoin, puis envoyer
Premier lancement : au premier usage, le modèle Whisper sélectionné se télécharge automatiquement (de 145 Mo à 3 Go selon le modèle). Patience — cette opération ne se fait qu'une seule fois.
Conseil : activez l'option "Envoi automatique après transcription" dans vos paramètres personnels (Paramètres → Audio) pour un usage entièrement mains libres. Vous parlez → le message part automatiquement → l'IA répond.
19. Transcrire un fichier audio (MP3, M4A, WAV) Intermédiaire
Au-delà du micro en direct, Open WebUI permet d'uploader un fichier audio enregistré au préalable et de le faire transcrire par Whisper — toujours en local.
Formats supportés
MP3
M4A
WAV
WEBM
OGG
Comment faire
- Dans la barre de message, cliquer sur l'icône +
- Sélectionner votre fichier audio
- Open WebUI l'envoie à Whisper pour transcription (durée dépend de la longueur du fichier et du modèle choisi)
- Le texte transcrit apparaît dans le chat
- Posez vos questions sur la transcription : résumé, extraction de points clés, rédaction de compte-rendu…
Cas d'usage concrets
meeting_room
Réunion enregistrée
Enregistrez votre réunion Teams/Zoom en local → uploadez le fichier → demandez un compte-rendu structuré avec décisions et actions.
people
Entretien RH
Transcription complète de l'entretien → extraction des compétences mentionnées → rédaction des notes d'évaluation.
health_and_safety
SPSTI — Entretien de prévention
Enregistrez l'entretien avec le salarié → transcription locale → génération de la fiche de prévention. Zéro donnée médicale sur internet.
school
Formation — replay audio
Replay d'une session de formation → transcription → génération du support écrit, des quiz, des points clés.
Ce flux de travail est particulièrement puissant pour les professionnels de santé au travail : enregistrez vos entretiens de prévention, transcrivez en local avec Whisper large-v3, générez la fiche de prévention avec l'assistant dédié — sans qu'aucune donnée médicale ne circule sur internet. C'est la promesse du 100% local tenue dans un cas concret à haute valeur.
20. Synthèse vocale — faire parler l'IA Débutant
L'IA peut lire ses réponses à voix haute — ce qu'on appelle la synthèse vocale (Text-to-Speech, TTS). Utile en mode mains libres, en voiture, ou pour les personnes qui préfèrent écouter.
Activer la synthèse vocale
- Aller dans Paramètres (icône ⚙️ de votre compte) → Audio
- Dans la section Text-to-Speech, sélectionner une voix dans le menu déroulant
Exemple : "Eddy (français France)" — voix masculine naturelle
- Ajuster la vitesse de lecture selon votre confort (0.75x à 2x)
- Activer l'option "Lire automatiquement les réponses" pour un mode entièrement mains libres
Mode appel
Open WebUI propose une interface simplifiée spécialement conçue pour le mode vocal, accessible via l'icône téléphone dans le chat ou par une URL dédiée. L'interface est épurée, adaptée aux grands écrans comme aux mobiles, avec des boutons larges pour micro/pause/stop.
Usage mobile : le mode appel fonctionne sur smartphone via le navigateur mobile. Vous pouvez dicter → écouter les réponses → dicter à nouveau, sans jamais toucher un clavier. Idéal pour les déplacements ou les moments où les mains sont occupées.
À propos des voix disponibles
Les voix proposées par défaut sont les voix système de votre Mac ou navigateur — celles que vous utilisez déjà dans VoiceOver ou en lecture d'écran. Elles sont gratuites, locales, et ne nécessitent aucune connexion internet.
Pour aller plus loin, Open WebUI peut se connecter à des moteurs TTS externes (OpenAI TTS, ElevenLabs) pour des voix plus naturelles — mais cela sort du périmètre du 100% local.
La combinaison micro + TTS permet un usage conversationnel complet : vous parlez, l'IA répond à voix haute. Sur une machine locale, avec des données sensibles, sans abonnement. C'est la promesse complète de l'IA en local.
manage_accounts
6
Administration
Gérer les utilisateurs, les droits et la collaboration
21. Gérer les utilisateurs Intermédiaire
Open WebUI intègre un système de gestion des utilisateurs complet, directement accessible depuis l'interface. Pour y accéder, cliquez sur l'icône Admin en bas à gauche de la barre latérale, puis ouvrez l'onglet Utilisateurs.
Les 3 rôles disponibles
| Rôle |
Ce que ça signifie |
Cas d'usage |
| Pending |
En attente d'approbation. L'utilisateur a créé un compte mais ne peut pas encore se connecter. |
Inscription libre avec validation manuelle |
| User |
Accès standard. Peut chatter, créer des collections, utiliser les modèles autorisés. |
Tous les collaborateurs |
| Admin |
Tous les droits : gestion des utilisateurs, des modèles, des paramètres globaux. |
Responsable IT, administrateur |
Important : Le premier compte créé sur une instance Open WebUI est automatiquement Admin. Commencez donc par créer votre compte administrateur avant d'inviter d'autres personnes.
Créer un compte manuellement
Plutôt que d'attendre que les collaborateurs s'inscrivent eux-mêmes, vous pouvez créer leurs comptes à l'avance :
Allez dans Admin → Utilisateurs
Cliquez sur + Nouvel utilisateur
Renseignez le prénom, nom, email et un mot de passe temporaire
Choisissez le rôle (User ou Admin)
Transmettez les identifiants à votre collaborateur
Import en masse (CSV)
Pour déployer Open WebUI auprès d'une équipe entière en une seule opération, vous pouvez importer un fichier CSV contenant les colonnes email, nom, et mot_de_passe. L'import est disponible dans l'onglet Utilisateurs via le bouton d'import.
Conseil pour les PME : Créez d'abord les comptes administrateurs (2 ou 3 personnes maximum), puis importez ou invitez les collaborateurs. Evitez de donner le rôle Admin à tout le monde — un ou deux admins suffisent pour gérer sereinement une équipe de 20 personnes.
22. Permissions et groupes Intermédiaire
Les groupes permettent de définir précisément ce que chaque type d'utilisateur peut faire dans Open WebUI. C'est l'équivalent des "rôles métier" : l'équipe commerciale n'a pas besoin des mêmes accès que les RH ou la direction.
Créer un groupe
Admin → Groupes → + Nouveau groupe
Donnez un nom explicite (ex: "Équipe commerciale", "RH", "Direction", "Support")
Ajoutez les utilisateurs membres du groupe
Configurez les permissions ci-dessous
Les 5 catégories de permissions
| Catégorie |
Ce qu'elle contrôle |
| Workspace |
Accès aux modèles disponibles, aux collections RAG, aux prompts partagés, aux outils (tools) |
| Sharing |
Autorisation de partager ses propres conversations avec d'autres membres |
| Chat |
Upload de fichiers dans le chat, suppression de messages, édition des messages |
| Features |
Génération d'images (Stable Diffusion / DALL·E), recherche web, appels vocaux |
| Settings |
Possibilité de modifier ses propres paramètres (thème, langue, paramètres de modèle) |
Whitelist de modèles
Pour chaque groupe, vous pouvez définir une liste blanche de modèles : seuls les modèles cochés seront accessibles aux membres du groupe. Les autres modèles n'apparaîtront pas dans leur interface.
Exemple concret — Cabinet comptable :
Groupe "Cabinet" configuré ainsi :
- Modèles autorisés : uniquement "Assistant Cabinet" (llama3 avec prompt système juridique)
- Collections accessibles : "Procédures internes", "Modèles de courriers"
- Features désactivées : génération d'images (inutile pour ce métier), appels vocaux
- Sharing : activé (pour partager des analyses entre associés)
Résultat : l'interface des collaborateurs est
simple, ciblée, sans distraction.
23. Channels collaboratifs Intermédiaire
Les Channels sont des salons de discussion partagés, dans l'esprit de Slack ou Teams. La différence avec Slack : dans un Channel Open WebUI, vous pouvez non seulement discuter entre humains, mais aussi interpeller un modèle IA directement dans la conversation.
Comment fonctionnent les Channels ?
- Un Channel contient des membres humains (votre équipe) et des modèles IA (vos assistants)
- L'historique des messages est partagé et visible par tous les membres
- Pour appeler un modèle : tapez
@nom-du-modèle dans le channel — il répond dans le fil de discussion
- Plusieurs modèles peuvent coexister dans le même channel
Créer un Channel
Admin → Channels → + Nouveau channel
Donnez un nom et une description (ex: "Support client", "Rédaction", "Veille juridique")
Ajoutez les membres humains
Ajoutez les modèles IA que ce channel peut utiliser
Définissez les droits de lecture/écriture si nécessaire
Exemple terrain : Un channel "Support client" pour une PME.
L'équipe support discute entre elle des cas complexes. Quand ils ont besoin d'une suggestion de réponse professionnelle, ils tapent @assistant-commercial Voici la demande du client : [texte]. Rédige une réponse courtoise.
Le modèle répond directement dans le fil. Toute l'équipe voit la réponse, peut la corriger ou la valider avant de l'envoyer. Gain de temps + qualité constante + montée en compétence collective.
cloud_upload
7
Déploiement client
Installer Open WebUI sur un serveur pour une équipe entière
Pourquoi déployer sur un serveur ?
Sur votre Mac personnel, Open WebUI est accessible uniquement depuis votre réseau local (localhost:3000). Dès que vous fermez votre ordinateur ou que vous quittez la maison, plus rien. Pour une équipe, ce n'est pas viable.
Un VPS (serveur cloud) change tout : Open WebUI tourne 24h/24, accessible depuis n'importe quel navigateur, par tous vos collaborateurs, depuis n'importe où. Le coût d'un VPS adapté : 15 à 30€/mois (Hostinger, OVH, Hetzner). C'est souvent moins cher qu'un seul abonnement ChatGPT Plus.
|
Mac local |
VPS |
| Accès |
Réseau local uniquement |
Partout dans le monde |
| Utilisateurs simultanés |
1 à la fois (pratiquement) |
Illimité |
| Disponibilité |
Quand le Mac est allumé |
24h/24, 7j/7 |
| Coût mensuel |
0€ (matériel existant) |
~15-30€/mois |
| Modèles GPU |
Oui (Apple Silicon natif) |
Non (CPU uniquement en standard) |
| Maintenance |
Aucune |
Mises à jour à faire manuellement |
24. Déployer sur un VPS Intermédiaire
La procédure est similaire à l'installation sur Mac, mais sur une machine Linux distante. Prérequis : un VPS sous Ubuntu 22.04 ou 24.04, avec un accès SSH.
Installer Docker sur le VPS
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
# Déconnectez-vous et reconnectez-vous pour appliquer
Installer Ollama sur le VPS
curl -fsSL https://ollama.com/install.sh | sh
# Puis télécharger un premier modèle léger
ollama pull llama3.2:3b
Lancer Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Ouvrir les ports dans le pare-feu
# Port temporaire pour vérifier que ça fonctionne
sudo ufw allow 3000
# Après configuration HTTPS, on fermera le 3000 et on ouvrira 443
sudo ufw allow 443
Attention performances : Sur un VPS sans GPU, les modèles tournent sur CPU — c'est 3 à 10 fois plus lent que sur un Mac M2 ou M3. Pour un usage fluide en équipe, choisissez des modèles 7B maximum (llama3.2:7b, mistral:7b). Les modèles plus lourds (13B, 70B) seront trop lents pour un usage quotidien.
25. HTTPS avec Nginx + Let's Encrypt Intermédiaire
Laisser Open WebUI accessible sur le port 3000 en HTTP n'est pas sécurisé pour un usage professionnel : les mots de passe et les conversations transiteraient en clair sur le réseau. La solution standard : Nginx comme reverse proxy + Let's Encrypt pour le certificat SSL gratuit.
Concrètement : vous accédez à https://ia.votre-domaine.fr, Nginx reçoit la connexion HTTPS sécurisée, puis la transmet à Open WebUI qui écoute sur le port 3000 en local. L'utilisateur final ne voit que l'URL sécurisée.
Installer Nginx et Certbot
sudo apt update
sudo apt install -y nginx certbot python3-certbot-nginx
Créer la configuration Nginx
# Fichier : /etc/nginx/sites-available/openwebui
server {
listen 80;
server_name ia.votre-domaine.fr;
location / {
proxy_pass http://localhost:3000;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection "upgrade";
}
}
# Activer le site
sudo ln -s /etc/nginx/sites-available/openwebui /etc/nginx/sites-enabled/
sudo nginx -t && sudo systemctl reload nginx
Obtenir le certificat SSL Let's Encrypt
# Certbot modifie automatiquement la config Nginx pour HTTPS
sudo certbot --nginx -d ia.votre-domaine.fr
# Renouvellement automatique (déjà configuré par Certbot) :
sudo certbot renew --dry-run
Fermer le port 3000 (plus nécessaire)
sudo ufw delete allow 3000
sudo ufw reload
Prérequis indispensable : Votre nom de domaine doit pointer vers l'IP de votre VPS via un enregistrement DNS de type A avant de lancer Certbot. Let's Encrypt vérifie que le domaine répond bien sur votre serveur pour délivrer le certificat.
26. Sauvegardes et mises à jour Intermédiaire
Toutes vos données Open WebUI (conversations, collections RAG, utilisateurs, modèles personnalisés, prompts) sont stockées dans un volume Docker nommé open-webui. Ce volume est indépendant du conteneur — même si vous supprimez et relancez le conteneur, les données sont préservées.
Sauvegarder le volume
# Cette commande crée une archive tar.gz de tout le volume dans le dossier courant
docker run --rm \
-v open-webui:/data \
-v $(pwd):/backup \
ubuntu tar czf /backup/openwebui-backup-$(date +%Y%m%d).tar.gz /data
# Résultat : un fichier openwebui-backup-20260320.tar.gz dans votre dossier courant
Restaurer depuis une sauvegarde
# Arrêter Open WebUI avant la restauration
docker stop open-webui
# Restaurer le volume depuis l'archive
docker run --rm \
-v open-webui:/data \
-v $(pwd):/backup \
ubuntu tar xzf /backup/openwebui-backup-20260320.tar.gz -C /
# Relancer Open WebUI
docker start open-webui
Mettre à jour Open WebUI
docker stop open-webui — arrêter le conteneur
docker rm open-webui — supprimer le conteneur (les données dans le volume sont préservées)
docker pull ghcr.io/open-webui/open-webui:main — télécharger la dernière image
Relancer avec la même commande docker run qu'à l'installation
Règle d'or : faites toujours une sauvegarde du volume AVANT une mise à jour. Les mises à jour d'Open WebUI sont fréquentes (parfois plusieurs par semaine). En cas de migration de base de données ratée, vous pourrez restaurer en quelques minutes.
integration_instructions
8
Intégrations
Connecter Open WebUI à vos autres outils
27. Connecter n8n à Ollama Avancé
Si vous utilisez n8n pour automatiser vos workflows (emails, CRM, formulaires...), bonne nouvelle : vous pouvez brancher Ollama directement dans vos scénarios n8n. Ollama expose une API entièrement compatible avec l'API OpenAI — n8n n'y verra que du feu.
Configuration dans n8n
Dans votre workflow n8n, ajoutez un nœud OpenAI Chat Model (ou "OpenAI")
Créez ou modifiez les credentials OpenAI : changez l'URL de base de https://api.openai.com vers http://localhost:11434/v1
Pour la clé API, mettez n'importe quelle valeur (ex: ollama) — Ollama n'en a pas besoin mais le champ est obligatoire dans n8n
Dans le champ "Modèle", tapez le nom exact du modèle Ollama installé (ex: llama3.2:7b, mistral:7b)
# URL de base à utiliser dans n8n (si n8n et Ollama sont sur la même machine)
http://localhost:11434/v1
# Si n8n est dans Docker et Ollama sur le VPS hôte :
http://host.docker.internal:11434/v1
# Si Ollama est sur un autre serveur :
http://IP-DU-SERVEUR:11434/v1
Ce que ça permet concrètement
mail
Triage d'emails
Email reçu → Ollama classe et résume → Telegram ou CRM mis à jour automatiquement
description
Traitement de formulaires
Formulaire soumis → Ollama analyse le besoin → Draft de réponse créé → assigné au bon collaborateur
summarize
Résumés automatiques
Transcription de réunion → Ollama extrait les décisions + tâches → envoi Notion ou Slack
Si vous utilisez déjà n8n pour vos automatisations, Ollama devient votre moteur IA local sans coût d'API. Zéro centime par requête, confidentialité totale, pas de limites de tokens mensuels. C'est particulièrement intéressant pour les workflows qui traitent de gros volumes ou des données sensibles.
28. Activer la recherche web Intermédiaire
Les modèles locaux ont une date limite de connaissance (leur "knowledge cutoff") : ils ne connaissent pas l'actualité récente, les nouvelles lois publiées la semaine dernière, ni les prix d'aujourd'hui. La recherche web corrige ça.
Quand la recherche web est activée, le modèle peut interroger un moteur de recherche en temps réel et intégrer les résultats dans sa réponse — en citant ses sources.
Activer la recherche web
Admin → Paramètres → Outils → section "Web Search"
Choisir un fournisseur :
- SearXNG (recommandé) : moteur open source auto-hébergeable, agrège sans traçage, gratuit
- Brave Search : API gratuite jusqu'à 2 000 requêtes/mois
- DuckDuckGo : simple, pas de clé API nécessaire
- Tavily : optimisé pour les LLM, très précis (payant au-delà du tier gratuit)
Activer Web Search sur un modèle spécifique : Workspace → Modèles → modifier → onglet Tools → activer "Web Search"
SearXNG recommandé pour les professionnels : En l'hébergeant sur votre propre serveur (un conteneur Docker supplémentaire), vous avez un moteur de recherche privé, sans traçage, sans limite de requêtes. Les recherches de vos collaborateurs ne sont enregistrées nulle part.
# Lancer SearXNG en local (sur le même VPS qu'Open WebUI)
docker run -d -p 8080:8080 --name searxng \
-e SEARXNG_BASE_URL=http://localhost:8080 \
searxng/searxng:latest
# Dans Open WebUI : URL SearXNG = http://localhost:8080
29. Connecter Claude Code à Ollama Avancé
Claude Code (l'outil que vous utilisez en ce moment) peut être configuré pour utiliser Ollama comme backend à la place des serveurs Anthropic. Ollama expose depuis la version 0.14.0 une API compatible avec l'API Anthropic Messages.
Configuration
# Définir la variable d'environnement avant de lancer Claude Code
export ANTHROPIC_BASE_URL=http://localhost:11434
# ou, si Ollama tourne sur un autre serveur :
export ANTHROPIC_BASE_URL=http://IP-SERVEUR:11434
# Puis lancer Claude Code normalement
claude
Quand c'est utile
| Situation |
Recommandation |
| Tâches répétitives (reformatage, traductions simples, scripts basiques) |
Ollama local — zéro coût, rapide |
| Projets avec données très sensibles (contrats, données médicales) |
Ollama local — aucune donnée ne sort de votre réseau |
| Architecture logicielle complexe, refactoring avancé, analyse multi-fichiers |
Claude Anthropic — nettement supérieur |
| Génération de code critique ou de production |
Claude Anthropic — fiabilité et précision maximales |
Idéal pour les tâches répétitives ou les projets avec des données très sensibles. Pour les tâches complexes (architecture logicielle, code avancé, raisonnement multi-étapes), Claude Sonnet ou Claude Opus reste largement supérieur à tout modèle local actuellement disponible.
business
Cas clients
Exemples concrets de déploiement
Pour un SPSTI (Service de Prévention Santé au Travail)
mic
Entretiens de prévention
Transcription des entretiens de prévention avec Whisper local. Les données médicales ne quittent jamais votre infrastructure.
description
Fiches prévention
Génération assistée de fiches de prévention à partir de transcriptions d'entretiens ou de notes de terrain. Une base rédigée en secondes, affinée par le professionnel.
library_books
Documentation réglementaire
Base de connaissances RAG sur les textes INRS, les FDS (Fiches de Données de Sécurité), les valeurs limites d'exposition, les procédures internes.
Pour un SPSTI, la confidentialité est non négociable. Les données de santé au travail (ATMP, expositions, restrictions médicales) relèvent du secret médical et du RGPD. Open WebUI + Ollama, installés sur votre propre serveur interne ou VPS dédié, garantissent qu'aucune donnée ne sort de votre infrastructure — contrairement à ChatGPT ou Copilot qui envoient tout vers des serveurs Microsoft ou OpenAI.
|
Avant Open WebUI |
Après Open WebUI |
| Rédaction fiche prévention |
30-45 min de saisie manuelle |
5-10 min (base générée + relecture) |
| Recherche réglementaire |
Navigation sur INRS.fr, recherche manuelle |
Question en langage naturel sur la base RAG |
| Transcription entretien |
Prise de notes pendant l'entretien |
Enregistrement + Whisper → texte automatique |
| Conformité RGPD |
Risque si usage de ChatGPT avec données patients |
Données 100% locales, aucun risque |
Pour un cabinet comptable ou juridique
edit_note
Rédaction professionnelle
Emails clients, courriers de relance, comptes-rendus d'entretien — rédigés en quelques secondes sur la base de vos notes brutes.
find_in_page
Analyse de documents
Questions précises sur des contrats, des bilans, des actes notariés — le modèle répond en citant exactement les passages concernés.
security
Confidentialité absolue
Données clients ultra-sensibles : bilans, contentieux, montages financiers. Open WebUI garantit une conformité RGPD native — zéro fuite possible.
Le cabinet type a déjà des outils métier (logiciel comptable, GED). Open WebUI ne remplace pas ces outils — il les augmente. Les collaborateurs gardent leurs habitudes mais gagnent un assistant IA disponible en permanence, qui connaît les dossiers clients (via RAG), respecte la confidentialité et ne coûte pas 20€ par personne par mois.
Avantages concrets pour un cabinet de 10 personnes :
- 1 seul déploiement pour toute l'équipe (vs 10 abonnements individuels)
- Collections RAG partagées : tous les collaborateurs interrogent les mêmes bases de documents
- Prompts systèmes calibrés pour le métier (ton professionnel, références législatives, format courrier)
- Historique des conversations conservé en interne — pas sur les serveurs OpenAI
Pour une PME multi-utilisateurs
group
Toute l'équipe connectée
Un seul serveur pour l'ensemble des collaborateurs. Chacun a son compte, son historique, ses préférences — tout est isolé et sécurisé.
smart_toy
Assistants dédiés par service
Un assistant "Commercial" avec connaissance du catalogue produits. Un assistant "RH" avec les procédures internes. Un assistant "Technique" avec les docs produits. Chacun à sa place.
savings
Économies substantielles
~20€/mois de VPS pour toute l'équipe. Versus plusieurs centaines d'euros d'abonnements IA individuels éparpillés entre ChatGPT, Copilot et Gemini.
La question que posent souvent les dirigeants de PME : "Est-ce que mes collaborateurs utilisent vraiment des IA au travail aujourd'hui ?" La réponse est presque toujours oui — mais de manière dispersée, avec des outils personnels, sans contrôle, sans cohérence et sans protection des données. Open WebUI centralise et sécurise ce qui se passe déjà de toute façon.
Calcul d'économie — exemple PME de 10 collaborateurs :
| Scénario |
Coût mensuel |
Coût annuel |
| 10 × ChatGPT Plus (20€/pers.) |
200€/mois |
2 400€/an |
| 10 × Microsoft Copilot M365 (30€/pers.) |
300€/mois |
3 600€/an |
| Open WebUI + VPS (toute l'équipe) |
20-30€/mois |
240-360€/an |
Économie potentielle : 2 000 à 3 300€ par an pour une équipe de 10 personnes — tout en gagnant en confidentialité et en contrôle.
Note : ces chiffres excluent le coût d'un intégrateur pour la mise en place et la maintenance. Le ROI reste très favorable dès 5+ utilisateurs réguliers.
menu_book
Glossaire
Les termes essentiels
Ce glossaire regroupe les termes techniques que vous rencontrez dans ce guide et dans l'interface Open WebUI. Pas de jargon inutile — des définitions simples, orientées usage.
| Terme |
Définition simple |
| LLM |
Large Language Model — le "cerveau" de l'IA, entraîné sur des milliards de textes. C'est ce qui permet à l'IA de comprendre et générer du langage naturel. |
| Ollama |
Logiciel open source qui télécharge et fait tourner les LLM directement sur votre machine, sans connexion à un serveur externe. |
| Open WebUI |
Interface web pour interagir avec Ollama via un navigateur. Donne à vos LLM locaux une interface comparable à ChatGPT. |
| Docker |
Système de "boîtes" isolées (conteneurs) pour faire tourner des applications. Chaque application a son propre environnement sans interférer avec le reste du système. |
| Conteneur |
Une instance d'application Docker en cours d'exécution. Pensez-y comme un "mini-ordinateur virtuel" dédié à une seule application. |
| Volume |
Espace de stockage persistant attaché à un conteneur Docker. Les données dans un volume survivent à la suppression et au redémarrage du conteneur. |
| Whisper |
Modèle de transcription vocale open source développé par OpenAI. Convertit l'audio en texte avec une précision remarquable, disponible en local. |
| RAG |
Retrieval-Augmented Generation — technique qui permet à l'IA de répondre à partir de vos propres documents. Le modèle cherche dans votre base, puis génère sa réponse avec les informations trouvées. |
| Chunk |
Morceau de document découpé pour le RAG. Pour indexer un PDF de 50 pages, le système le découpe en morceaux (chunks) de quelques paragraphes chacun. |
| Embedding |
Représentation numérique d'un texte (un vecteur de centaines de chiffres) qui capture le "sens" du texte. Utilisé pour trouver les chunks pertinents lors d'une question RAG. |
| Prompt système |
Instructions permanentes données à un modèle pour définir son comportement, son ton et sa spécialité. Le "mode d'emploi caché" que l'utilisateur final ne voit pas. |
| GPU Metal |
Accélération graphique Apple Silicon. Ollama l'utilise automatiquement sur Mac M1/M2/M3/M4, rendant les LLM 5 à 10 fois plus rapides que sur CPU seul. |
| VPS |
Virtual Private Server — serveur cloud loué pour héberger des applications. Vous avez un accès administrateur complet sur une machine Linux distante. |
| HTTPS |
Protocole de connexion sécurisée (le cadenas dans la barre d'adresse du navigateur). Chiffre les échanges entre votre navigateur et le serveur. |
| GGUF |
Format de fichier standard des modèles Ollama. Optimisé pour tourner efficacement sur CPU et GPU grand public, avec plusieurs niveaux de compression (quantization). |
| Context window |
La "mémoire de travail" du modèle — le nombre maximum de tokens (mots/morceaux de mots) qu'il peut traiter en une seule fois. Un contexte de 128k tokens ≈ environ 100 000 mots, soit un roman entier. |