Guide Open WebUI + Ollama

C'est quoi un LLM local ?

Un LLM (Large Language Model) est un modèle d'intelligence artificielle capable de comprendre et de générer du texte. C'est le cerveau derrière des outils comme ChatGPT, Claude ou Gemini. Ces modèles ont été entraînés sur des milliards de pages de texte et peuvent répondre à des questions, rédiger des documents, analyser des données, écrire du code, et bien plus encore.

La différence avec ce guide, c'est le mot "local". Quand vous utilisez ChatGPT, votre texte — vos questions, vos documents, vos données — est envoyé sur les serveurs d'OpenAI, aux États-Unis. C'est là que le modèle tourne, et c'est de là que vous recevez la réponse. Ce qui pose une question simple : êtes-vous à l'aise avec ça pour vos données professionnelles sensibles ?

Avec un LLM local, le modèle tourne directement sur votre ordinateur ou votre serveur. Rien ne sort de votre réseau. Ni vos questions, ni vos fichiers, ni vos réponses. C'est particulièrement pertinent pour des secteurs comme la comptabilité, le droit, la médecine, la prévention au travail — partout où la confidentialité des données n'est pas une option.

La contrepartie ? La qualité des modèles locaux est légèrement inférieure à celle des grands modèles cloud (GPT-4o, Claude 3.5). Mais sur des tâches du quotidien — rédaction, synthèse, reformulation, questions-réponses sur un document — la différence est souvent imperceptible, surtout avec les modèles récents comme Mistral ou Llama 3.

En résumé : vous avez un ChatGPT qui tourne chez vous. Vos questions, vos documents, vos réponses — rien ne quitte votre réseau.

C'est quoi Ollama ?

Ollama est l'outil qui fait tourner les modèles sur votre machine. Imaginez-le comme un gestionnaire de modèles : il sait où les télécharger, comment les installer, comment les démarrer et comment les exposer à d'autres applications. Une fois installé, Ollama tourne discrètement en arrière-plan — vous voyez juste une petite icône dans la barre de menu.

Pour télécharger un modèle, une seule commande suffit dans le Terminal :

# Télécharger le modèle Mistral (recommandé pour commencer)
ollama pull mistral

Ollama gère ensuite tout : stockage du modèle, chargement en mémoire, communication avec les autres applications. Il expose une API locale sur le port 11434, ce qu'Open WebUI utilise pour lui parler.

C'est quoi Open WebUI ?

Si Ollama est le moteur sous le capot, Open WebUI est le tableau de bord — l'interface que vous voyez dans votre navigateur. Vous accédez à localhost:3000 et vous retrouvez une interface très proche de ChatGPT : une zone de chat, un historique des conversations, la possibilité d'uploader des fichiers, et bien plus.

Open WebUI ne fait pas tourner les modèles lui-même — il délègue ça à Ollama. Son rôle, c'est de rendre l'expérience agréable et puissante : gestion multi-utilisateurs, mémoire persistante, prompts enregistrés, transcription vocale, connexion à des bases de documents...

Critère	ChatGPT	Claude	LLM local (Ollama + Open WebUI)
Données envoyées sur internet	Oui (serveurs OpenAI)	Oui (serveurs Anthropic)	Non — tout reste chez vous
Coût mensuel	20-200 $/mois	20-200 $/mois	Gratuit (hors matériel)
Confidentialité	Limitée	Bonne mais cloud	Totale
Personnalisation	Partielle	Partielle	Totale (prompts, modèles, tools)
Qualité des réponses	Excellente	Excellente	Très bonne (légèrement inférieure)

1. Installer Ollama

Ollama est disponible gratuitement sur ollama.com. C'est une application native pour Mac, Windows et Linux. Sur Mac Apple Silicon (puce M1, M2, M3...), le téléchargement et l'installation sont identiques à n'importe quelle application.

Allez sur ollama.com et cliquez sur le bouton Download.
Sélectionnez la version pour macOS (Apple Silicon) si vous avez une puce M1/M2/M3, ou macOS Intel sinon.
Ouvrez le fichier .dmg téléchargé et glissez Ollama dans le dossier Applications.
Lancez Ollama depuis le dossier Applications. Une icône en forme de lama apparaît dans la barre de menu en haut à droite. C'est votre confirmation qu'Ollama tourne.

info L'icône Ollama dans la barre de menu en haut à droite = Ollama est actif et prêt à recevoir des commandes. Si elle n'apparaît pas, relancez l'application depuis le dossier Applications.

Ollama ne nécessite aucun compte, aucune clé API, aucun abonnement. Il tourne entièrement en local. Au premier lancement, il ne télécharge aucun modèle — vous choisirez vous-même lesquels installer à l'étape 5.

2. Installer Docker Desktop

Docker est l'outil qui va nous permettre de lancer Open WebUI en quelques secondes, sans installation complexe. Pour faire simple : Docker est comme une boîte hermétique qui contient une application avec tout ce dont elle a besoin — son code, ses bibliothèques, sa configuration — sans polluer votre système.

Allez sur docker.com/products/docker-desktop et téléchargez la version Mac Apple Silicon (ou Intel selon votre machine).
Ouvrez le fichier .dmg et installez Docker Desktop comme une application classique.
Au premier lancement, Docker vous propose de créer un compte Docker Hub. Cliquez sur Skip — vous n'en avez pas besoin pour notre usage.
Attendez que Docker démarre complètement. Une icône baleine apparaît dans la barre de menu — Docker est prêt.

Pour bien comprendre Docker, voici les 4 concepts que vous croiserez dans ce guide :

Image

La recette

Le modèle de l'application. On la télécharge une fois depuis un registre.

Conteneur

Le plat cuisiné

Une instance qui tourne. On peut en créer plusieurs depuis la même image.

Volume

Le frigo

Le stockage persistant. Vos données survivent aux redémarrages du conteneur.

Port

La fenêtre de service

La porte d'entrée pour accéder à l'application depuis votre navigateur.

3. Lancer Open WebUI

On va maintenant lancer Open WebUI avec une seule commande. Cette commande va télécharger automatiquement l'image Open WebUI depuis Internet et démarrer un conteneur qui tournera en arrière-plan. C'est la seule fois où vous aurez besoin du Terminal pour cette étape.

Ouvrez le Terminal (Spotlight → tapez "Terminal") et collez cette commande :

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

Voici ce que fait chaque option :

Option	Rôle
`-d`	Lance le conteneur en arrière-plan (détaché). Votre Terminal reste libre.
`-p 3000:8080`	Redirige le port 3000 de votre Mac vers le port 8080 du conteneur. Vous accéderez à Open WebUI sur `localhost:3000`.
`--add-host=host.docker.internal:host-gateway`	Permet au conteneur de communiquer avec Ollama qui tourne sur votre Mac (hors conteneur).
`-v open-webui:/app/backend/data`	Crée un volume nommé pour stocker vos données (conversations, comptes, paramètres). Elles persistent même si vous supprimez et recréez le conteneur.
`--name open-webui`	Donne un nom au conteneur pour le retrouver facilement dans Docker Desktop.
`--restart always`	Redémarre automatiquement Open WebUI à chaque démarrage de Docker Desktop — vous n'avez rien à faire.

La première exécution prend 1 à 3 minutes le temps de télécharger l'image (~1,5 Go). Une fois la commande terminée, ouvrez votre navigateur et allez sur :

http://localhost:3000

check_circle Si vous voyez un écran de bienvenue Open WebUI avec un formulaire de création de compte, l'installation est réussie.

4. Créer son compte administrateur

À la première ouverture, Open WebUI vous invite à créer un compte. Ce compte est 100% local — aucune information n'est envoyée sur Internet. Il est stocké dans le volume Docker que nous avons créé à l'étape précédente.

Quelques points importants à retenir :

Le premier compte créé devient automatiquement administrateur. Il a accès à tous les paramètres, peut créer d'autres utilisateurs, gérer les modèles, etc.
Utilisez une adresse email et un mot de passe que vous vous rappellerez — même une adresse fictive fonctionne, l'email n'est pas vérifié.
Si vous perdez ce mot de passe, la récupération nécessite d'accéder directement à la base de données du conteneur. Notez-le quelque part.
Si vous déployez Open WebUI pour une équipe, créez votre compte admin en premier, puis vous pourrez ajouter les autres utilisateurs depuis les paramètres d'administration.

5. Choisir et télécharger un modèle

Sans modèle, Open WebUI ne peut pas répondre. Il faut maintenant choisir et télécharger au moins un LLM. Le choix dépend de votre machine et de votre usage. Plus un modèle est grand (en nombre de paramètres), plus il est capable — mais plus il demande de RAM et de puissance.

Modèle	Taille	Usage recommandé	RAM minimum
`llama3.2:3b`	2 Go	Tests rapides, machine peu puissante	8 Go
`mistral:7b`	4,4 Go	Usage quotidien, excellent en français	8 Go
`qwen2.5:7b`	4,4 Go	Bilingue FR/EN, fort en raisonnement	8 Go
`mistral:7b`	4,4 Go	Recommandé pour commencer	8 Go

Option 1 — Via le Terminal (plus rapide, affiche la progression) :

# Télécharger Mistral (environ 4,4 Go)
ollama pull mistral

Option 2 — Depuis Open WebUI (sans Terminal) :

Connectez-vous à Open WebUI (localhost:3000).
Cliquez sur votre avatar en bas à gauche → Paramètres d'administration.
Allez dans Connexions → section Ollama.
Dans le champ "Télécharger un modèle", tapez mistral et appuyez sur Entrée.
Le téléchargement démarre. Une barre de progression s'affiche.

Mistral est développé par une société française (Mistral AI, Paris). Le modèle est excellent en français, très polyvalent, et disponible sous licence ouverte. C'est notre recommandation pour démarrer — bon équilibre entre qualité et légèreté.

6. L'interface expliquée

Open WebUI ressemble à ChatGPT, mais avec des fonctionnalités supplémentaires. Voici un plan des différentes zones pour s'y retrouver dès la première connexion :

Sidebar gauche

L'historique de toutes vos conversations, organisées par date. Vous pouvez créer des dossiers pour classer vos échanges par projet ou par client. Accès aussi aux paramètres utilisateur en bas.

Sélecteur de modèle (en haut)

Menu déroulant pour choisir quel modèle Ollama utiliser pour cette conversation. Tapez @ dans la zone de texte pour changer de modèle en cours de discussion sans quitter le chat.

Zone de chat (centre)

La zone principale d'échange. Vous pouvez y glisser-déposer des fichiers (PDF, images, texte), cliquer sur l'icône micro pour dicter, et utiliser le bouton d'envoi pour envoyer votre message.

Panneau Contrôles (droite)

Accessible via l'icône glissières. Permet de définir un prompt système propre à cette conversation et de régler des paramètres techniques comme la température (créativité du modèle).

Espace de travail (icône crayon)

L'endroit où vous gérez tout ce qui est réutilisable : modèles personnalisés (vos assistants), collections de documents, et prompts enregistrés accessibles avec un slash.

tips_and_updates Conseil de départ : avant votre première vraie conversation, allez dans Paramètres → Personnalisation et renseignez votre prénom, votre métier et vos préférences de réponse. Le modèle s'adaptera automatiquement à votre contexte.

7. Gérer ses conversations

La sidebar gauche peut vite devenir un bazar si vous n'avez pas de méthode d'organisation. Voici les fonctionnalités disponibles et comment les utiliser efficacement.

Créer des dossiers

Cliquez droit sur n'importe quelle conversation dans la sidebar → Déplacer dans un dossier. Vous pouvez créer un nouveau dossier à la volée. Idéal pour organiser vos échanges par projet, par client ou par thème.

Tags et recherche

Open WebUI étiquette automatiquement vos conversations avec des tags thématiques. Vous pouvez aussi ajouter vos propres tags et les utiliser pour filtrer : dans la barre de recherche de la sidebar, tapez tag:nom-du-tag pour retrouver toutes les conversations sur un sujet.

Épingler une conversation

Cliquez droit → Épingler. La conversation remonte en haut de la sidebar et y reste, quelle que soit la date. Pratique pour les contextes récurrents (votre prompt de référence, un client important...).

Exporter une conversation

Cliquez sur l'icône ⋮ (trois points) à droite de la conversation → Exporter. Trois formats disponibles : JSON (pour réimporter), PDF (pour partager) ou TXT (pour archiver dans un document).

Conseil pratique : créez des dossiers dès le début — un par projet actif, un par client. Déplacez chaque conversation dans son dossier avant de passer à la suivante. 30 secondes d'organisation maintenant vous évitera 10 minutes de recherche dans 3 mois.

8. Les prompts slash

Les prompts slash sont l'une des fonctionnalités les plus puissantes d'Open WebUI. Le principe est simple : vous créez une fois un prompt réutilisable, vous lui donnez un nom court commençant par /, et vous pouvez le rappeler en quelques caractères dans n'importe quelle conversation.

Créer un prompt slash

Allez dans Espace de travail (icône crayon en haut à gauche) → Prompts.
Cliquez sur + pour créer un nouveau prompt.
Renseignez un titre descriptif (ex : "Email de relance client").
Renseignez la commande slash (ex : relance — sans le /).
Écrivez le contenu du prompt dans la zone principale. Enregistrez.

Utiliser un prompt slash

Dans n'importe quelle conversation, dans la zone de saisie de message, tapez simplement /relance. Open WebUI affiche une suggestion — appuyez sur Entrée ou cliquez dessus. Le texte complet du prompt apparaît dans le champ, que vous pouvez compléter avant d'envoyer.

Variables dynamiques

Dans vos prompts, vous pouvez utiliser des variables entre double accolades que le modèle remplacera ou que vous compléterez manuellement : {{nom_client}}, {{sujet}}, {{date}}...

edit_note Exemple concret : créez un prompt /relance avec ce contenu :

Prompt enregistré sous /relance

Rédige un email de relance professionnel pour {{NOM_CLIENT}}
concernant {{SUJET}}.
Ton : cordial mais direct. Maximum 5 lignes.
Signature : {{TON_NOM}}, N-Gage.

Il suffit ensuite de taper /relance, de remplacer les variables par les vraies valeurs, et d'envoyer. En quelques secondes, vous avez un email de relance propre et professionnel.

9. La mémoire persistante

Open WebUI peut mémoriser des informations sur vous et vos préférences, et les injecter automatiquement dans chaque conversation. C'est une fonctionnalité qui change radicalement l'expérience : le modèle vous connaît et n'a plus besoin qu'on lui répète le contexte à chaque session.

Activer la mémoire

Cliquez sur votre avatar en bas à gauche → Paramètres.
Allez dans Personnalisation → section Mémoire.
Activez le toggle. Un champ apparaît pour ajouter vos premières mémorisons.

Exemples de mémorisations utiles

Votre prénom et votre métier : "Je m'appelle Nicolas. Je suis formateur IA indépendant."
Votre ton préféré : "Réponds toujours en français. Sois concis. Évite le jargon technique inutile."
Votre contexte professionnel : "Je travaille principalement avec des PME et des SPSTI. Mes clients ne sont pas développeurs."
Le nom de votre entreprise et vos outils habituels : "Mon entreprise s'appelle N-Gage. J'utilise n8n pour l'automatisation et Notion comme QG."

Mémoire vs prompt système

Il est important de comprendre la différence entre les deux :

Fonctionnalité	Portée	Usage idéal
Mémoire persistante	Toutes les conversations, tous les modèles	Infos générales sur vous : prénom, métier, préférences de réponse, outils utilisés
Prompt système d'un modèle personnalisé	Uniquement ce modèle, toutes ses conversations	Rôle spécifique : "Tu es mon assistant comptable. Tu analyses uniquement des données financières."
Prompt système de conversation	Uniquement cette conversation	Contexte ponctuel : "Dans cette conversation, on rédige un cahier des charges pour le client X."

psychology Astuce avancée : vous pouvez demander au modèle de mémoriser quelque chose en cours de conversation en tapant simplement : "Mémorise que je préfère les réponses en moins de 5 points." Open WebUI détecte l'intention et l'enregistre dans votre mémoire persistante.

C'est quoi le RAG ?

RAG signifie Retrieval-Augmented Generation — ce qui, traduit en français humain, donne : génération augmentée par la recherche. En pratique, c'est simple : vous donnez des documents à l'IA, elle les lit, et quand vous lui posez une question, elle cherche la réponse dans vos documents plutôt que dans sa mémoire générale.

L'analogie qui fonctionne le mieux : c'est comme donner un classeur à un assistant et lui dire "réponds uniquement à partir de ce que tu trouves dans ce classeur". L'assistant ne devine pas, ne fabrique pas — il consulte.

Pourquoi c'est puissant

verified

Réponses précises et sourcées

L'IA vous cite les passages exacts utilisés pour répondre. Vous pouvez vérifier.

lock

Vos docs restent locaux

Avec Open WebUI + Ollama, rien ne sort de votre machine. Parfait pour les données sensibles.

upload_file

N'importe quel PDF

Contrats, procédures, réglementations, rapports — uploadez et interrogez.

memory

Dépasse la limite de contexte

Un document de 200 pages ne tient pas dans une conversation. Le RAG résout ça en cherchant uniquement les passages pertinents.

Le RAG transforme Open WebUI en assistant expert de vos propres documents.

10. Uploader un document dans le chat Débutant

La façon la plus rapide de donner un document à l'IA : l'uploader directement dans la conversation en cours.

3 méthodes d'upload

Glisser-déposer — faites glisser un PDF depuis votre bureau ou votre Finder directement dans la zone de chat. Le fichier apparaît en aperçu avant envoi.
Bouton + (trombone) — cliquez sur l'icône + dans la barre de saisie du message → Sélectionner un fichier → choisissez votre document.
Raccourci # dans le chat — tapez # dans la barre de message pour rechercher un document déjà indexé dans vos collections. Open WebUI l'injecte dans la conversation sans avoir à re-uploader.

Formats supportés

PDF DOCX TXT HTML MD CSV

Ce qui se passe en coulisses

Quand vous uploadez un document, Open WebUI effectue automatiquement 3 opérations :

Découpage (chunking) — le document est découpé en morceaux de quelques centaines de mots, avec un léger chevauchement entre chaque morceau pour ne pas perdre de contexte aux jointures.
Vectorisation — chaque morceau est transformé en une représentation mathématique (un vecteur) qui capture son sens sémantique.
Indexation — les vecteurs sont stockés dans une base locale, prêts à être interrogés.

Exemple concret

    Situation : vous uploadez un contrat de prestation de 18 pages en PDF.

    Question : "Quelles sont les clauses de résiliation et les délais de préavis ?"

    Résultat : Open WebUI localise les passages pertinents et répond avec les citations exactes — sans lire l'intégralité du document à chaque fois.

Le document est analysé uniquement pour cette conversation. Pour le réutiliser dans d'autres conversations sans avoir à le ré-uploader à chaque fois, créez une Collection (voir section suivante).

11. Collections de documents Intermédiaire

Une collection, c'est une bibliothèque permanente de documents que vous constituez une fois et que vous pouvez appeler dans n'importe quelle conversation. Contrairement à un upload ponctuel, la collection persiste entre les sessions.

Créer une collection

Aller dans Espace de travail (icône en haut à gauche) → Knowledge
Cliquer sur + Nouvelle collection
Donner un nom explicite (ex : "Contrats types 2025", "Procédures RH", "RGPD")
Uploader vos documents — vous pouvez en ajouter plusieurs d'un coup
Attendre l'indexation (barre de progression)

Utiliser une collection dans le chat

# Dans la barre de message, tapez # suivi du nom de la collection #Contrats types → sélectionner la collection dans la liste déroulante # Open WebUI injecte automatiquement les passages pertinents dans le contexte # Vous posez ensuite votre question normalement

Attacher une collection à un modèle personnalisé

Pour qu'un assistant dispose toujours de ses documents, sans avoir à taper # à chaque fois :

Espace de travail → Modèles → modifier votre modèle
Faire défiler jusqu'à la section Knowledge
Sélectionner une ou plusieurs collections
Sauvegarder — le modèle consulte désormais ces documents par défaut

Exemples de collections utiles

gavel

Contrats types

CGV, contrats de prestation, accords de confidentialité

folder_shared

Procédures internes

Onboarding, processus qualité, fiches de poste

menu_book

Documentation produit

Notices, guides utilisateur, FAQ techniques

privacy_tip

Réglementation RGPD

Textes officiels, délibérations CNIL, modèles de registre

12. Indexer une page web ou une vidéo YouTube Intermédiaire

Open WebUI ne se limite pas aux fichiers locaux. Vous pouvez indexer du contenu directement depuis une URL — page web ou vidéo YouTube.

Indexer une page web

Dans le chat, collez une URL précédée du signe # :

# Exemple : indexer la documentation officielle d'un outil #https://docs.monoutil.com/guide-installation # Open WebUI télécharge la page, en extrait le contenu textuel, et l'indexe # Vous pouvez ensuite poser des questions dessus normalement

Indexer une vidéo YouTube

Même principe avec une URL YouTube. Open WebUI récupère la transcription automatique de la vidéo et l'indexe :

# Coller l'URL YouTube précédée de # #https://www.youtube.com/watch?v=xxxxxxxxxxx # La transcription est extraite et rendue interrogeable # Utile pour : conférences, tutoriels, webinaires, interviews

Cas d'usage concrets

Veille sectorielle : indexer des articles de référence et interroger leur contenu
Documentation technique : analyser une doc en ligne sans copier-coller
Résumer une conférence YouTube : "Quels sont les 3 points clés de cette présentation ?"
Comparer deux ressources : indexer deux pages et demander à l'IA de les comparer

    Conseil : cette fonctionnalité fonctionne mieux sur les pages à forte densité textuelle (articles, docs, blogs). Les sites très visuels, les apps SPA sans contenu HTML visible, ou les pages protégées par login donnent des résultats décevants.
  

13. Citations et sources Débutant

Quand Open WebUI utilise le RAG pour répondre, il ne se contente pas de donner une réponse : il affiche les sources utilisées en bas de chaque réponse.

Lire les citations

Repérez la section Sources (ou Citations) sous la réponse de l'IA
Chaque source affiche le nom du document et un pourcentage de pertinence — plus il est élevé, plus le passage était jugé pertinent pour votre question
Cliquez sur une citation pour voir l'extrait exact qui a été utilisé — vous pouvez ainsi vérifier que l'IA n'a pas mal interprété le passage

Que faire si les sources ne sont pas pertinentes ?

Reformuler la question : une question plus précise = une recherche vectorielle plus ciblée
Vérifier le contenu de la collection : si les documents n'ont pas été correctement indexés, les résultats seront mauvais
Réduire la portée : au lieu d'interroger toute une collection, uploader uniquement le document pertinent dans la conversation

Ne faites jamais confiance à une réponse RAG sans vérifier les citations. L'IA peut parfois faire des liens incorrects entre des passages de documents différents — particulièrement si les documents parlent de sujets proches. La citation est votre garde-fou.

Pourquoi personnaliser un modèle ?

Un modèle brut — Mistral, LLaMA, Gemma — répond à tout, sans contexte. Il ne sait pas pour qui il travaille, dans quel secteur, ni quel style de réponse vous attendez. Il fait ce qu'il peut avec ce que vous lui donnez à chaque fois.

Un modèle personnalisé, c'est un assistant qui connaît son rôle dès le départ, parle dans le bon style, et peut être configuré pour refuser de répondre en dehors de son périmètre.

L'analogie : c'est la différence entre "quelqu'un qui connaît tout en général" et "votre assistant comptable qui connaît vos procédures, votre logiciel, et vos clients".

Cas d'usage typiques

balance

Assistant juridique

Connaît les contrats types du cabinet, répond en langage accessible aux clients

storefront

Assistant commercial

Connaît l'offre, les tarifs, les objections fréquentes, rédige des emails de suivi

people

Assistant RH

Maîtrise les procédures internes, aide à rédiger les offres d'emploi et les comptes-rendus d'entretien

health_and_safety

Assistant SPSTI

Connaît les fiches INRS, les protocoles de prévention, rédige les fiches d'entretien

14. Créer un assistant personnalisé Intermédiaire

Aller dans Espace de travail → Modèles → cliquer sur +
Remplir les champs de base : nom, modèle de base, description, photo de profil
Rédiger le prompt système — c'est le plus important
Configurer les options avancées si nécessaire (température, knowledge, tools)
Sauvegarder

Structure d'un bon prompt système

Un prompt système efficace répond à 5 questions dans l'ordre :

badge

1. Rôle et identité

Qui es-tu ? Quel est ton nom ? Pour qui travailles-tu ?

domain

2. Contexte organisation

Secteur, taille, clients types, vocabulaire spécifique

record_voice_over

3. Style de communication

Ton, niveau de langue, longueur des réponses, format préféré

check_circle

4. Ce qu'il DOIT faire

Missions, types de tâches, comportements attendus

block

5. Ce qu'il ne DOIT PAS faire

Hors périmètre, sujets à éviter, limites de responsabilité

Exemple complet — Cabinet comptable

# Prompt système pour "Assistant Cabinet Dupont" Tu es l'assistant virtuel du Cabinet Dupont, expert-comptable à Lyon. Tu t'appelles "Léo" et tu assistes les collaborateurs du cabinet au quotidien. # Contexte Le cabinet accompagne des TPE et PME (5 à 50 salariés) dans les secteurs du commerce, de l'artisanat et des services. Tes interlocuteurs sont des collaborateurs comptables (niveau bac+2 à bac+5), pas des débutants. # Style de communication - Réponses concises, structurées avec des listes quand c'est approprié - Français professionnel, pas de jargon inutile - Si tu cites un texte réglementaire, précise toujours la source (CGI, BOFiP, etc.) - Longueur : adapte-toi à la complexité de la question # Ce que tu dois faire - Aider à rédiger des emails clients, des notes internes, des synthèses - Répondre aux questions fiscales et comptables courantes - Aider à structurer des dossiers et des analyses - Proposer des formulations claires pour expliquer des points techniques aux clients # Ce que tu ne dois PAS faire - Ne jamais signer de documents ni prendre de décisions à la place du cabinet - Ne pas répondre sur des sujets hors comptabilité/fiscalité/droit des affaires - Ne pas inventer des règles fiscales : si tu n'es pas sûr, dis-le - Ne pas donner de conseil fiscal définitif sans recommander une validation humaine

Le prompt système, c'est la fiche de poste de votre assistant. Plus elle est précise — rôle, périmètre, style, interdits — plus l'assistant est prévisible et utile. Un prompt vague donne un assistant vague.

15. Attacher des documents au modèle Intermédiaire

Un assistant personnalisé devient vraiment puissant quand on lui donne accès à des documents de référence dès la création, sans que l'utilisateur ait besoin d'y penser à chaque conversation.

Comment faire

Créez d'abord vos collections de documents (voir section 11)
Dans le formulaire de création (ou de modification) du modèle, faire défiler jusqu'à la section Knowledge
Sélectionner une ou plusieurs collections dans la liste déroulante
Sauvegarder — le modèle consultera automatiquement ces documents pour chaque réponse

Exemple combiné — Assistant Prévention SPSTI

    Modèle : "Assistant Prévention"

    Modèle de base : mistral:latest

    Collections attachées :
    Collection "Fiches INRS" (200+ fiches ED téléchargées en PDF)
Collection "Procédures internes service prévention"
Collection "Réglementation Code du Travail — Santé"

    Résultat : l'assistant peut répondre aux questions de prévention en citant les fiches INRS pertinentes, les procédures internes applicables, et les articles du Code du Travail — sans aucune configuration par l'utilisateur à chaque conversation.

    Conseil : ne pas attacher trop de collections à un seul modèle. La qualité RAG diminue quand le corpus est trop hétérogène. Préférez plusieurs modèles spécialisés plutôt qu'un seul modèle généraliste surchargé. Règle pratique : maximum 3 collections par modèle.
  

16. Activer les outils (Tools) Intermédiaire

Les outils (Tools) sont des capacités supplémentaires que vous pouvez donner à un modèle — au-delà de la simple génération de texte.

Les outils natifs principaux

travel_explore

Web Search

Le modèle peut interroger un moteur de recherche en temps réel. Utile pour l'actualité, les prix du marché, les textes de loi récents.

code

Code Interpreter

Exécute du code Python directement dans le navigateur. Calculs complexes, traitement de données, graphiques.

image

Image Generation

Si un modèle de génération d'image est configuré (Stable Diffusion, DALL-E), le modèle peut créer des images à la demande.

Activer les outils sur un modèle

Espace de travail → Modèles → modifier le modèle cible
Faire défiler jusqu'à la section Tools
Cocher les outils souhaités
Sauvegarder

Les outils communautaires

La communauté Open WebUI publie des outils additionnels sur openwebui.com/tools : météo en temps réel, conversion de devises, appels vers des APIs tierces (Notion, Airtable, etc.), calculs spécialisés. Pour importer un outil communautaire :

# Espace de travail → Tools → Découvrir # Ou : coller directement l'URL de l'outil depuis openwebui.com/tools # L'outil s'installe localement — il s'exécute sur votre machine, pas dans le cloud

Attention — confidentialité : Web Search envoie votre requête à un moteur de recherche externe (Brave, DuckDuckGo, SearXNG selon votre configuration). Si vous travaillez avec des données sensibles ou sous contrainte de confidentialité stricte, désactivez Web Search sur les modèles dédiés à ces usages.

17. Comparer plusieurs modèles Intermédiaire

Avant de déployer un assistant chez un client ou de le mettre en production, il est utile de comparer objectivement les modèles disponibles sur votre usage précis.

Mode multi-modèles

La même question, posée à deux modèles en même temps, côte à côte :

Dans le sélecteur de modèle (en haut du chat), cliquez sur le + à droite du modèle actif
Ajoutez un second modèle dans la liste déroulante
Posez votre question — les deux réponses arrivent simultanément, en colonnes parallèles
Comparez la qualité, la précision, le style et la vitesse

Mode Arena (évaluation aveugle)

Un mode plus rigoureux pour construire un classement objectif :

Activer le mode Arena dans les paramètres du chat
Deux modèles vous répondent de manière anonyme (vous ne savez pas lequel est lequel)
Vous votez pour la meilleure réponse à chaque échange
Open WebUI construit automatiquement un classement ELO (comme aux échecs) en fonction de vos votes
Consultez le classement dans Espace de travail → Arena pour voir quel modèle performe le mieux sur vos questions réelles

    Utilité pratique : ce n'est pas parce qu'un modèle a de bons benchmarks en ligne qu'il sera le meilleur pour votre usage précis. Un modèle de 7B spécialisé peut surpasser un modèle de 13B généraliste sur des questions métier spécifiques. Testez avant de déployer.
  

Whisper — le moteur de transcription local

Whisper est le modèle de reconnaissance vocale open source développé par OpenAI et publié librement. Open WebUI l'intègre nativement — ce qui signifie qu'aucune installation supplémentaire n'est nécessaire, et surtout : tout se passe en local. Votre voix ne quitte jamais votre machine.

C'est une différence fondamentale avec les services de transcription cloud (Google Speech, Azure, Whisper API) où vos enregistrements transitent par des serveurs distants.

Les modèles Whisper disponibles

Modèle	Taille	Qualité	Vitesse	Pour quel usage
`tiny`	75 Mo	Basique	Très rapide	Tests uniquement
`base`	145 Mo	Correct	Rapide	Dictée quotidienne légère
`small`	460 Mo	Bon	Moyen	Bon équilibre qualité/vitesse
`medium`	1,5 Go	Très bon	Lent	Documents importants
`large-v3`	3 Go	Excellent	Lent	Qualité professionnelle

Pour un usage professionnel en français — comptes-rendus de réunion, entretiens, formations — choisissez large-v3. La qualité de transcription est remarquable, y compris avec des accents régionaux et du vocabulaire technique. Le temps de traitement supplémentaire vaut largement la différence de qualité.

18. Activer la transcription vocale (micro) Débutant

Configuration (réservée à l'admin)

Aller dans Réglages d'administration (icône ⚙️ en bas à gauche) → Audio
Dans la section Speech-to-Text, laisser le champ Engine VIDE pour utiliser Whisper local
Choisir le modèle Whisper dans le menu déroulant (recommandé : large-v3)
Sauvegarder

    Piège classique : ne pas écrire "whisper" dans le champ Engine. Si ce champ contient du texte, Open WebUI cherche un moteur externe. Laissez-le vide pour forcer l'utilisation locale.
  

Utilisation au quotidien

Dans le chat, cliquer sur l'icône micro dans la barre de saisie
Parler — un indicateur visuel montre que l'enregistrement est actif
Cliquer à nouveau sur le micro pour arrêter l'enregistrement
Whisper transcrit l'audio — le texte apparaît dans la barre de message
Vérifier, corriger si besoin, puis envoyer

Premier lancement : au premier usage, le modèle Whisper sélectionné se télécharge automatiquement (de 145 Mo à 3 Go selon le modèle). Patience — cette opération ne se fait qu'une seule fois.

    Conseil : activez l'option "Envoi automatique après transcription" dans vos paramètres personnels (Paramètres → Audio) pour un usage entièrement mains libres. Vous parlez → le message part automatiquement → l'IA répond.
  

19. Transcrire un fichier audio (MP3, M4A, WAV) Intermédiaire

Au-delà du micro en direct, Open WebUI permet d'uploader un fichier audio enregistré au préalable et de le faire transcrire par Whisper — toujours en local.

Formats supportés

MP3 M4A WAV WEBM OGG

Comment faire

Dans la barre de message, cliquer sur l'icône +
Sélectionner votre fichier audio
Open WebUI l'envoie à Whisper pour transcription (durée dépend de la longueur du fichier et du modèle choisi)
Le texte transcrit apparaît dans le chat
Posez vos questions sur la transcription : résumé, extraction de points clés, rédaction de compte-rendu…

Cas d'usage concrets

meeting_room

Réunion enregistrée

Enregistrez votre réunion Teams/Zoom en local → uploadez le fichier → demandez un compte-rendu structuré avec décisions et actions.

people

Entretien RH

Transcription complète de l'entretien → extraction des compétences mentionnées → rédaction des notes d'évaluation.

health_and_safety

SPSTI — Entretien de prévention

Enregistrez l'entretien avec le salarié → transcription locale → génération de la fiche de prévention. Zéro donnée médicale sur internet.

school

Formation — replay audio

Replay d'une session de formation → transcription → génération du support écrit, des quiz, des points clés.

Ce flux de travail est particulièrement puissant pour les professionnels de santé au travail : enregistrez vos entretiens de prévention, transcrivez en local avec Whisper large-v3, générez la fiche de prévention avec l'assistant dédié — sans qu'aucune donnée médicale ne circule sur internet. C'est la promesse du 100% local tenue dans un cas concret à haute valeur.

20. Synthèse vocale — faire parler l'IA Débutant

L'IA peut lire ses réponses à voix haute — ce qu'on appelle la synthèse vocale (Text-to-Speech, TTS). Utile en mode mains libres, en voiture, ou pour les personnes qui préfèrent écouter.

Activer la synthèse vocale

Aller dans Paramètres (icône ⚙️ de votre compte) → Audio
Dans la section Text-to-Speech, sélectionner une voix dans le menu déroulant
Exemple : "Eddy (français France)" — voix masculine naturelle
Ajuster la vitesse de lecture selon votre confort (0.75x à 2x)
Activer l'option "Lire automatiquement les réponses" pour un mode entièrement mains libres

Mode appel

Open WebUI propose une interface simplifiée spécialement conçue pour le mode vocal, accessible via l'icône téléphone dans le chat ou par une URL dédiée. L'interface est épurée, adaptée aux grands écrans comme aux mobiles, avec des boutons larges pour micro/pause/stop.

    Usage mobile : le mode appel fonctionne sur smartphone via le navigateur mobile. Vous pouvez dicter → écouter les réponses → dicter à nouveau, sans jamais toucher un clavier. Idéal pour les déplacements ou les moments où les mains sont occupées.
  

À propos des voix disponibles

Les voix proposées par défaut sont les voix système de votre Mac ou navigateur — celles que vous utilisez déjà dans VoiceOver ou en lecture d'écran. Elles sont gratuites, locales, et ne nécessitent aucune connexion internet.

Pour aller plus loin, Open WebUI peut se connecter à des moteurs TTS externes (OpenAI TTS, ElevenLabs) pour des voix plus naturelles — mais cela sort du périmètre du 100% local.

La combinaison micro + TTS permet un usage conversationnel complet : vous parlez, l'IA répond à voix haute. Sur une machine locale, avec des données sensibles, sans abonnement. C'est la promesse complète de l'IA en local.

21. Gérer les utilisateurs Intermédiaire

Open WebUI intègre un système de gestion des utilisateurs complet, directement accessible depuis l'interface. Pour y accéder, cliquez sur l'icône Admin en bas à gauche de la barre latérale, puis ouvrez l'onglet Utilisateurs.

Les 3 rôles disponibles

Rôle	Ce que ça signifie	Cas d'usage
Pending	En attente d'approbation. L'utilisateur a créé un compte mais ne peut pas encore se connecter.	Inscription libre avec validation manuelle
User	Accès standard. Peut chatter, créer des collections, utiliser les modèles autorisés.	Tous les collaborateurs
Admin	Tous les droits : gestion des utilisateurs, des modèles, des paramètres globaux.	Responsable IT, administrateur

Important : Le premier compte créé sur une instance Open WebUI est automatiquement Admin. Commencez donc par créer votre compte administrateur avant d'inviter d'autres personnes.

Créer un compte manuellement

Plutôt que d'attendre que les collaborateurs s'inscrivent eux-mêmes, vous pouvez créer leurs comptes à l'avance :

Allez dans Admin → Utilisateurs

Cliquez sur + Nouvel utilisateur

Renseignez le prénom, nom, email et un mot de passe temporaire

Choisissez le rôle (User ou Admin)

Transmettez les identifiants à votre collaborateur

Import en masse (CSV)

Pour déployer Open WebUI auprès d'une équipe entière en une seule opération, vous pouvez importer un fichier CSV contenant les colonnes email, nom, et mot_de_passe. L'import est disponible dans l'onglet Utilisateurs via le bouton d'import.

    Conseil pour les PME : Créez d'abord les comptes administrateurs (2 ou 3 personnes maximum), puis importez ou invitez les collaborateurs. Evitez de donner le rôle Admin à tout le monde — un ou deux admins suffisent pour gérer sereinement une équipe de 20 personnes.
  

22. Permissions et groupes Intermédiaire

Les groupes permettent de définir précisément ce que chaque type d'utilisateur peut faire dans Open WebUI. C'est l'équivalent des "rôles métier" : l'équipe commerciale n'a pas besoin des mêmes accès que les RH ou la direction.

Créer un groupe

Admin → Groupes → + Nouveau groupe

Donnez un nom explicite (ex: "Équipe commerciale", "RH", "Direction", "Support")

Ajoutez les utilisateurs membres du groupe

Configurez les permissions ci-dessous

Les 5 catégories de permissions

Catégorie	Ce qu'elle contrôle
Workspace	Accès aux modèles disponibles, aux collections RAG, aux prompts partagés, aux outils (tools)
Sharing	Autorisation de partager ses propres conversations avec d'autres membres
Chat	Upload de fichiers dans le chat, suppression de messages, édition des messages
Features	Génération d'images (Stable Diffusion / DALL·E), recherche web, appels vocaux
Settings	Possibilité de modifier ses propres paramètres (thème, langue, paramètres de modèle)

Whitelist de modèles

Pour chaque groupe, vous pouvez définir une liste blanche de modèles : seuls les modèles cochés seront accessibles aux membres du groupe. Les autres modèles n'apparaîtront pas dans leur interface.

    Exemple concret — Cabinet comptable :

    Groupe "Cabinet" configuré ainsi :
    Modèles autorisés : uniquement "Assistant Cabinet" (llama3 avec prompt système juridique)
Collections accessibles : "Procédures internes", "Modèles de courriers"
Features désactivées : génération d'images (inutile pour ce métier), appels vocaux
Sharing : activé (pour partager des analyses entre associés)

    Résultat : l'interface des collaborateurs est simple, ciblée, sans distraction.
  

23. Channels collaboratifs Intermédiaire

Les Channels sont des salons de discussion partagés, dans l'esprit de Slack ou Teams. La différence avec Slack : dans un Channel Open WebUI, vous pouvez non seulement discuter entre humains, mais aussi interpeller un modèle IA directement dans la conversation.

Comment fonctionnent les Channels ?

Un Channel contient des membres humains (votre équipe) et des modèles IA (vos assistants)
L'historique des messages est partagé et visible par tous les membres
Pour appeler un modèle : tapez @nom-du-modèle dans le channel — il répond dans le fil de discussion
Plusieurs modèles peuvent coexister dans le même channel

Créer un Channel

Admin → Channels → + Nouveau channel

Donnez un nom et une description (ex: "Support client", "Rédaction", "Veille juridique")

Ajoutez les membres humains

Ajoutez les modèles IA que ce channel peut utiliser

Définissez les droits de lecture/écriture si nécessaire

    Exemple terrain : Un channel "Support client" pour une PME.

    L'équipe support discute entre elle des cas complexes. Quand ils ont besoin d'une suggestion de réponse professionnelle, ils tapent @assistant-commercial Voici la demande du client : [texte]. Rédige une réponse courtoise.

    Le modèle répond directement dans le fil. Toute l'équipe voit la réponse, peut la corriger ou la valider avant de l'envoyer. Gain de temps + qualité constante + montée en compétence collective.

Pourquoi déployer sur un serveur ?

Sur votre Mac personnel, Open WebUI est accessible uniquement depuis votre réseau local (localhost:3000). Dès que vous fermez votre ordinateur ou que vous quittez la maison, plus rien. Pour une équipe, ce n'est pas viable.

Un VPS (serveur cloud) change tout : Open WebUI tourne 24h/24, accessible depuis n'importe quel navigateur, par tous vos collaborateurs, depuis n'importe où. Le coût d'un VPS adapté : 15 à 30€/mois (Hostinger, OVH, Hetzner). C'est souvent moins cher qu'un seul abonnement ChatGPT Plus.

	Mac local	VPS
Accès	Réseau local uniquement	Partout dans le monde
Utilisateurs simultanés	1 à la fois (pratiquement)	Illimité
Disponibilité	Quand le Mac est allumé	24h/24, 7j/7
Coût mensuel	0€ (matériel existant)	~15-30€/mois
Modèles GPU	Oui (Apple Silicon natif)	Non (CPU uniquement en standard)
Maintenance	Aucune	Mises à jour à faire manuellement

24. Déployer sur un VPS Intermédiaire

La procédure est similaire à l'installation sur Mac, mais sur une machine Linux distante. Prérequis : un VPS sous Ubuntu 22.04 ou 24.04, avec un accès SSH.

Installer Docker sur le VPS

curl -fsSL https://get.docker.com | sh sudo usermod -aG docker $USER # Déconnectez-vous et reconnectez-vous pour appliquer

Installer Ollama sur le VPS

curl -fsSL https://ollama.com/install.sh | sh # Puis télécharger un premier modèle léger ollama pull llama3.2:3b

Lancer Open WebUI

docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main

Ouvrir les ports dans le pare-feu

# Port temporaire pour vérifier que ça fonctionne sudo ufw allow 3000 # Après configuration HTTPS, on fermera le 3000 et on ouvrira 443 sudo ufw allow 443

Attention performances : Sur un VPS sans GPU, les modèles tournent sur CPU — c'est 3 à 10 fois plus lent que sur un Mac M2 ou M3. Pour un usage fluide en équipe, choisissez des modèles 7B maximum (llama3.2:7b, mistral:7b). Les modèles plus lourds (13B, 70B) seront trop lents pour un usage quotidien.

25. HTTPS avec Nginx + Let's Encrypt Intermédiaire

Laisser Open WebUI accessible sur le port 3000 en HTTP n'est pas sécurisé pour un usage professionnel : les mots de passe et les conversations transiteraient en clair sur le réseau. La solution standard : Nginx comme reverse proxy + Let's Encrypt pour le certificat SSL gratuit.

Concrètement : vous accédez à https://ia.votre-domaine.fr, Nginx reçoit la connexion HTTPS sécurisée, puis la transmet à Open WebUI qui écoute sur le port 3000 en local. L'utilisateur final ne voit que l'URL sécurisée.

Installer Nginx et Certbot

sudo apt update sudo apt install -y nginx certbot python3-certbot-nginx

Créer la configuration Nginx

# Fichier : /etc/nginx/sites-available/openwebui server { listen 80; server_name ia.votre-domaine.fr; location / { proxy_pass http://localhost:3000; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; } } # Activer le site sudo ln -s /etc/nginx/sites-available/openwebui /etc/nginx/sites-enabled/ sudo nginx -t && sudo systemctl reload nginx

Obtenir le certificat SSL Let's Encrypt

# Certbot modifie automatiquement la config Nginx pour HTTPS sudo certbot --nginx -d ia.votre-domaine.fr # Renouvellement automatique (déjà configuré par Certbot) : sudo certbot renew --dry-run

Fermer le port 3000 (plus nécessaire)

sudo ufw delete allow 3000 sudo ufw reload

    Prérequis indispensable : Votre nom de domaine doit pointer vers l'IP de votre VPS via un enregistrement DNS de type A avant de lancer Certbot. Let's Encrypt vérifie que le domaine répond bien sur votre serveur pour délivrer le certificat.
  

26. Sauvegardes et mises à jour Intermédiaire

Toutes vos données Open WebUI (conversations, collections RAG, utilisateurs, modèles personnalisés, prompts) sont stockées dans un volume Docker nommé open-webui. Ce volume est indépendant du conteneur — même si vous supprimez et relancez le conteneur, les données sont préservées.

Sauvegarder le volume

# Cette commande crée une archive tar.gz de tout le volume dans le dossier courant docker run --rm \ -v open-webui:/data \ -v $(pwd):/backup \ ubuntu tar czf /backup/openwebui-backup-$(date +%Y%m%d).tar.gz /data # Résultat : un fichier openwebui-backup-20260320.tar.gz dans votre dossier courant

Restaurer depuis une sauvegarde

# Arrêter Open WebUI avant la restauration docker stop open-webui # Restaurer le volume depuis l'archive docker run --rm \ -v open-webui:/data \ -v $(pwd):/backup \ ubuntu tar xzf /backup/openwebui-backup-20260320.tar.gz -C / # Relancer Open WebUI docker start open-webui

Mettre à jour Open WebUI

docker stop open-webui — arrêter le conteneur

docker rm open-webui — supprimer le conteneur (les données dans le volume sont préservées)

docker pull ghcr.io/open-webui/open-webui:main — télécharger la dernière image

Relancer avec la même commande docker run qu'à l'installation

Règle d'or : faites toujours une sauvegarde du volume AVANT une mise à jour. Les mises à jour d'Open WebUI sont fréquentes (parfois plusieurs par semaine). En cas de migration de base de données ratée, vous pourrez restaurer en quelques minutes.

27. Connecter n8n à Ollama Avancé

Si vous utilisez n8n pour automatiser vos workflows (emails, CRM, formulaires...), bonne nouvelle : vous pouvez brancher Ollama directement dans vos scénarios n8n. Ollama expose une API entièrement compatible avec l'API OpenAI — n8n n'y verra que du feu.

Configuration dans n8n

Dans votre workflow n8n, ajoutez un nœud OpenAI Chat Model (ou "OpenAI")

Créez ou modifiez les credentials OpenAI : changez l'URL de base de https://api.openai.com vers http://localhost:11434/v1

Pour la clé API, mettez n'importe quelle valeur (ex: ollama) — Ollama n'en a pas besoin mais le champ est obligatoire dans n8n

Dans le champ "Modèle", tapez le nom exact du modèle Ollama installé (ex: llama3.2:7b, mistral:7b)

# URL de base à utiliser dans n8n (si n8n et Ollama sont sur la même machine) http://localhost:11434/v1 # Si n8n est dans Docker et Ollama sur le VPS hôte : http://host.docker.internal:11434/v1 # Si Ollama est sur un autre serveur : http://IP-DU-SERVEUR:11434/v1

Ce que ça permet concrètement

mail

Triage d'emails

Email reçu → Ollama classe et résume → Telegram ou CRM mis à jour automatiquement

description

Traitement de formulaires

Formulaire soumis → Ollama analyse le besoin → Draft de réponse créé → assigné au bon collaborateur

summarize

Résumés automatiques

Transcription de réunion → Ollama extrait les décisions + tâches → envoi Notion ou Slack

Si vous utilisez déjà n8n pour vos automatisations, Ollama devient votre moteur IA local sans coût d'API. Zéro centime par requête, confidentialité totale, pas de limites de tokens mensuels. C'est particulièrement intéressant pour les workflows qui traitent de gros volumes ou des données sensibles.

28. Activer la recherche web Intermédiaire

Les modèles locaux ont une date limite de connaissance (leur "knowledge cutoff") : ils ne connaissent pas l'actualité récente, les nouvelles lois publiées la semaine dernière, ni les prix d'aujourd'hui. La recherche web corrige ça.

Quand la recherche web est activée, le modèle peut interroger un moteur de recherche en temps réel et intégrer les résultats dans sa réponse — en citant ses sources.

Activer la recherche web

Admin → Paramètres → Outils → section "Web Search"

Choisir un fournisseur :

SearXNG (recommandé) : moteur open source auto-hébergeable, agrège sans traçage, gratuit
Brave Search : API gratuite jusqu'à 2 000 requêtes/mois
DuckDuckGo : simple, pas de clé API nécessaire
Tavily : optimisé pour les LLM, très précis (payant au-delà du tier gratuit)

Activer Web Search sur un modèle spécifique : Workspace → Modèles → modifier → onglet Tools → activer "Web Search"

SearXNG recommandé pour les professionnels : En l'hébergeant sur votre propre serveur (un conteneur Docker supplémentaire), vous avez un moteur de recherche privé, sans traçage, sans limite de requêtes. Les recherches de vos collaborateurs ne sont enregistrées nulle part.
    # Lancer SearXNG en local (sur le même VPS qu'Open WebUI)
docker run -d -p 8080:8080 --name searxng \
  -e SEARXNG_BASE_URL=http://localhost:8080 \
  searxng/searxng:latest

# Dans Open WebUI : URL SearXNG = http://localhost:8080

29. Connecter Claude Code à Ollama Avancé

Claude Code (l'outil que vous utilisez en ce moment) peut être configuré pour utiliser Ollama comme backend à la place des serveurs Anthropic. Ollama expose depuis la version 0.14.0 une API compatible avec l'API Anthropic Messages.

Configuration

# Définir la variable d'environnement avant de lancer Claude Code export ANTHROPIC_BASE_URL=http://localhost:11434 # ou, si Ollama tourne sur un autre serveur : export ANTHROPIC_BASE_URL=http://IP-SERVEUR:11434 # Puis lancer Claude Code normalement claude

Quand c'est utile

Situation	Recommandation
Tâches répétitives (reformatage, traductions simples, scripts basiques)	Ollama local — zéro coût, rapide
Projets avec données très sensibles (contrats, données médicales)	Ollama local — aucune donnée ne sort de votre réseau
Architecture logicielle complexe, refactoring avancé, analyse multi-fichiers	Claude Anthropic — nettement supérieur
Génération de code critique ou de production	Claude Anthropic — fiabilité et précision maximales

Idéal pour les tâches répétitives ou les projets avec des données très sensibles. Pour les tâches complexes (architecture logicielle, code avancé, raisonnement multi-étapes), Claude Sonnet ou Claude Opus reste largement supérieur à tout modèle local actuellement disponible.

Pour un SPSTI (Service de Prévention Santé au Travail)

mic

Entretiens de prévention

Transcription des entretiens de prévention avec Whisper local. Les données médicales ne quittent jamais votre infrastructure.

description

Fiches prévention

Génération assistée de fiches de prévention à partir de transcriptions d'entretiens ou de notes de terrain. Une base rédigée en secondes, affinée par le professionnel.

library_books

Documentation réglementaire

Base de connaissances RAG sur les textes INRS, les FDS (Fiches de Données de Sécurité), les valeurs limites d'exposition, les procédures internes.

Pour un SPSTI, la confidentialité est non négociable. Les données de santé au travail (ATMP, expositions, restrictions médicales) relèvent du secret médical et du RGPD. Open WebUI + Ollama, installés sur votre propre serveur interne ou VPS dédié, garantissent qu'aucune donnée ne sort de votre infrastructure — contrairement à ChatGPT ou Copilot qui envoient tout vers des serveurs Microsoft ou OpenAI.

	Avant Open WebUI	Après Open WebUI
Rédaction fiche prévention	30-45 min de saisie manuelle	5-10 min (base générée + relecture)
Recherche réglementaire	Navigation sur INRS.fr, recherche manuelle	Question en langage naturel sur la base RAG
Transcription entretien	Prise de notes pendant l'entretien	Enregistrement + Whisper → texte automatique
Conformité RGPD	Risque si usage de ChatGPT avec données patients	Données 100% locales, aucun risque

Pour un cabinet comptable ou juridique

edit_note

Rédaction professionnelle

Emails clients, courriers de relance, comptes-rendus d'entretien — rédigés en quelques secondes sur la base de vos notes brutes.

find_in_page

Analyse de documents

Questions précises sur des contrats, des bilans, des actes notariés — le modèle répond en citant exactement les passages concernés.

security

Confidentialité absolue

Données clients ultra-sensibles : bilans, contentieux, montages financiers. Open WebUI garantit une conformité RGPD native — zéro fuite possible.

Le cabinet type a déjà des outils métier (logiciel comptable, GED). Open WebUI ne remplace pas ces outils — il les augmente. Les collaborateurs gardent leurs habitudes mais gagnent un assistant IA disponible en permanence, qui connaît les dossiers clients (via RAG), respecte la confidentialité et ne coûte pas 20€ par personne par mois.

Avantages concrets pour un cabinet de 10 personnes :

1 seul déploiement pour toute l'équipe (vs 10 abonnements individuels)
Collections RAG partagées : tous les collaborateurs interrogent les mêmes bases de documents
Prompts systèmes calibrés pour le métier (ton professionnel, références législatives, format courrier)
Historique des conversations conservé en interne — pas sur les serveurs OpenAI

Pour une PME multi-utilisateurs

group

Toute l'équipe connectée

Un seul serveur pour l'ensemble des collaborateurs. Chacun a son compte, son historique, ses préférences — tout est isolé et sécurisé.

smart_toy

Assistants dédiés par service

Un assistant "Commercial" avec connaissance du catalogue produits. Un assistant "RH" avec les procédures internes. Un assistant "Technique" avec les docs produits. Chacun à sa place.

savings

Économies substantielles

~20€/mois de VPS pour toute l'équipe. Versus plusieurs centaines d'euros d'abonnements IA individuels éparpillés entre ChatGPT, Copilot et Gemini.

La question que posent souvent les dirigeants de PME : "Est-ce que mes collaborateurs utilisent vraiment des IA au travail aujourd'hui ?" La réponse est presque toujours oui — mais de manière dispersée, avec des outils personnels, sans contrôle, sans cohérence et sans protection des données. Open WebUI centralise et sécurise ce qui se passe déjà de toute façon.

Calcul d'économie — exemple PME de 10 collaborateurs :

Scénario	Coût mensuel	Coût annuel
10 × ChatGPT Plus (20€/pers.)	200€/mois	2 400€/an
10 × Microsoft Copilot M365 (30€/pers.)	300€/mois	3 600€/an
Open WebUI + VPS (toute l'équipe)	20-30€/mois	240-360€/an

Économie potentielle : 2 000 à 3 300€ par an pour une équipe de 10 personnes — tout en gagnant en confidentialité et en contrôle.

Note : ces chiffres excluent le coût d'un intégrateur pour la mise en place et la maintenance. Le ROI reste très favorable dès 5+ utilisateurs réguliers.

Ce glossaire regroupe les termes techniques que vous rencontrez dans ce guide et dans l'interface Open WebUI. Pas de jargon inutile — des définitions simples, orientées usage.

Terme	Définition simple
LLM	Large Language Model — le "cerveau" de l'IA, entraîné sur des milliards de textes. C'est ce qui permet à l'IA de comprendre et générer du langage naturel.
Ollama	Logiciel open source qui télécharge et fait tourner les LLM directement sur votre machine, sans connexion à un serveur externe.
Open WebUI	Interface web pour interagir avec Ollama via un navigateur. Donne à vos LLM locaux une interface comparable à ChatGPT.
Docker	Système de "boîtes" isolées (conteneurs) pour faire tourner des applications. Chaque application a son propre environnement sans interférer avec le reste du système.
Conteneur	Une instance d'application Docker en cours d'exécution. Pensez-y comme un "mini-ordinateur virtuel" dédié à une seule application.
Volume	Espace de stockage persistant attaché à un conteneur Docker. Les données dans un volume survivent à la suppression et au redémarrage du conteneur.
Whisper	Modèle de transcription vocale open source développé par OpenAI. Convertit l'audio en texte avec une précision remarquable, disponible en local.
RAG	Retrieval-Augmented Generation — technique qui permet à l'IA de répondre à partir de vos propres documents. Le modèle cherche dans votre base, puis génère sa réponse avec les informations trouvées.
Chunk	Morceau de document découpé pour le RAG. Pour indexer un PDF de 50 pages, le système le découpe en morceaux (chunks) de quelques paragraphes chacun.
Embedding	Représentation numérique d'un texte (un vecteur de centaines de chiffres) qui capture le "sens" du texte. Utilisé pour trouver les chunks pertinents lors d'une question RAG.
Prompt système	Instructions permanentes données à un modèle pour définir son comportement, son ton et sa spécialité. Le "mode d'emploi caché" que l'utilisateur final ne voit pas.
GPU Metal	Accélération graphique Apple Silicon. Ollama l'utilise automatiquement sur Mac M1/M2/M3/M4, rendant les LLM 5 à 10 fois plus rapides que sur CPU seul.
VPS	Virtual Private Server — serveur cloud loué pour héberger des applications. Vous avez un accès administrateur complet sur une machine Linux distante.
HTTPS	Protocole de connexion sécurisée (le cadenas dans la barre d'adresse du navigateur). Chiffre les échanges entre votre navigateur et le serveur.
GGUF	Format de fichier standard des modèles Ollama. Optimisé pour tourner efficacement sur CPU et GPU grand public, avec plusieurs niveaux de compression (quantization).
Context window	La "mémoire de travail" du modèle — le nombre maximum de tokens (mots/morceaux de mots) qu'il peut traiter en une seule fois. Un contexte de 128k tokens ≈ environ 100 000 mots, soit un roman entier.

LLM en localOpen WebUI + Ollama

Confidentialité totale

Open Source & Gratuit

Transcription vocale

Multi-utilisateurs

Pourquoi un LLM local ?

C'est quoi un LLM local ?

C'est quoi Ollama ?

C'est quoi Open WebUI ?

Installation Débutant

1. Installer Ollama

2. Installer Docker Desktop

3. Lancer Open WebUI

4. Créer son compte administrateur

5. Choisir et télécharger un modèle

Premiers pas Débutant

6. L'interface expliquée

7. Gérer ses conversations

Créer des dossiers

Tags et recherche

Épingler une conversation

Exporter une conversation

8. Les prompts slash

Créer un prompt slash

Utiliser un prompt slash

Variables dynamiques

9. La mémoire persistante

Activer la mémoire

Exemples de mémorisations utiles

Mémoire vs prompt système

Documents & RAG

C'est quoi le RAG ?

Pourquoi c'est puissant

Réponses précises et sourcées

Vos docs restent locaux

N'importe quel PDF

Dépasse la limite de contexte

10. Uploader un document dans le chat Débutant

3 méthodes d'upload

Formats supportés

Ce qui se passe en coulisses

Exemple concret

11. Collections de documents Intermédiaire

Créer une collection

Utiliser une collection dans le chat

Attacher une collection à un modèle personnalisé

Exemples de collections utiles

Contrats types

Procédures internes

Documentation produit

Réglementation RGPD

12. Indexer une page web ou une vidéo YouTube Intermédiaire

Indexer une page web

Indexer une vidéo YouTube

Cas d'usage concrets

13. Citations et sources Débutant

Lire les citations

Que faire si les sources ne sont pas pertinentes ?

Modèles personnalisés

Pourquoi personnaliser un modèle ?

Cas d'usage typiques

Assistant juridique

Assistant commercial

Assistant RH

Assistant SPSTI

14. Créer un assistant personnalisé Intermédiaire

Structure d'un bon prompt système

1. Rôle et identité

2. Contexte organisation

3. Style de communication

4. Ce qu'il DOIT faire

5. Ce qu'il ne DOIT PAS faire

Exemple complet — Cabinet comptable

15. Attacher des documents au modèle Intermédiaire

Comment faire

Exemple combiné — Assistant Prévention SPSTI

16. Activer les outils (Tools) Intermédiaire

Les outils natifs principaux

Web Search

Code Interpreter

LLM en local
Open WebUI + Ollama