// Guide · Déploiement IA

IA open source ou propriétaire :
comment choisir pour votre PME ?

La vraie question n'est pas « laquelle est meilleure ». C'est laquelle convient à vos données, votre budget et votre échéancier. Voici les 6 critères qui décident pour vous, avec une matrice pratique adaptée aux PME québécoises.

Lecture : 8 min Mis à jour : avril 2026

La vraie question n'est pas « laquelle est meilleure »

En 2026, les modèles propriétaires (GPT-5.4, Claude Opus 4.7, Gemini 3.1) et les modèles à poids ouverts (Llama 4, Mistral 3, Gemma 4, Qwen 3.5, DeepSeek V3.2) livrent tous des résultats de production pour la grande majorité des cas d'usage PME. L'écart de qualité brute s'est énormément resserré depuis 2023 — et 2026 est l'année où l'open source (poussé par DeepSeek V3.2 notamment) a rattrapé les modèles de pointe sur la plupart des tâches.

Le bon critère de choix, ce n'est donc pas laquelle est la meilleure. C'est laquelle correspond à vos contraintes — sensibilité des données, volume, budget, conformité, échéancier. Une PME en santé ne fait pas le même choix qu'une agence de marketing qui écrit du contenu public.

Précision importante en 2026 : OpenAI offre la résidence des données au Canada, mais uniquement pour le stockage au repos. L'inférence (le traitement GPU de vos requêtes) continue de se faire aux États-Unis ou en Europe — le Canada n'est pas une région d'inférence. Pour les API (par opposition à ChatGPT Enterprise), l'intérêt pratique du Canada residency est d'ailleurs limité, parce qu'OpenAI ne stocke déjà pas les requêtes/réponses API au repos par défaut. Anthropic n'offre pas ce service en direct (seulement via AWS Bedrock ou GCP Vertex). Google stocke au repos dans la région choisie mais sans endpoints d'inférence régionaux.

Conséquence pour la Loi 25 (Article 17) : utiliser une API propriétaire depuis le Québec = transfert hors Québec ET généralement hors Canada (inférence aux US). Une Évaluation des Facteurs Relatifs à la Vie Privée (EFVP) + un contrat écrit sont obligatoires avant tout transfert. Et important : Canada ≠ Québec pour la Loi 25 — même avec une inférence en Ontario, il y aurait eu EFVP. Seul un déploiement au Québec (self-hosted ou cloud privé québécois) évite l'EFVP complètement.

Quand choisir une IA propriétaire (API)

Les API propriétaires (OpenAI, Anthropic, Google) sont prêtes en 10 minutes : vous payez à l'usage, vous obtenez les modèles les plus forts du marché, zéro infrastructure à gérer. Prix de référence avril 2026 : GPT-5.4 à 2,50 $ / M tokens en entrée, Claude Opus 4.7 autour de 5 $ / M, Gemini 3.1 Pro à 2 $ / M. Avec le prompt caching et les batch APIs, on peut descendre jusqu'à -90 à -95 % sur le coût en entrée. C'est la bonne réponse quand :

  • Vous acceptez que vos données passent chez un fournisseur (US ou EU pour l'inférence) — OpenAI Canada residency ne protège que le stockage au repos, pas le traitement. La Loi 25 exige une EFVP et un contrat écrit avant tout transfert hors Québec. Ça se fait, mais ça demande du travail réglementaire récurrent.
  • Vous voulez déployer en jours, pas en semaines — tester une idée, valider un cas d'usage, livrer un MVP.
  • Votre volume est faible à moyen — moins de 5 millions de tokens par mois. En dessous, les APIs sont imbattables en coût total (incluant ops).
  • Vous avez besoin de la pointe absolue — raisonnement agentique complexe, multi-modal (texte + image + audio + vidéo), cas où chaque point de performance compte.
  • La maintenance est un luxe que vous n'avez pas — pas d'équipe MLOps, pas envie de gérer des GPUs, pas de budget pour 1,5-2 FTE (~270-550 k$/an) en ingénierie ML.

Exemples typiques : chatbot sur site public, générateur d'ébauches d'articles, outil de résumé de rapports, assistant de rédaction interne, service client qui traite des données peu sensibles, extraction sur documents non confidentiels.

Quand choisir une IA à poids ouverts (open source)

Les modèles à poids ouverts, déployés sur vos serveurs (on-premise), en cloud privé au Québec, ou en cloud souverain canadien, demandent plus d'effort initial mais offrent un contrôle total. C'est la bonne réponse quand :

  • Aucune donnée ne doit quitter votre infrastructure — même si OpenAI offre Canada residency, les données passent quand même chez OpenAI (en mémoire, le temps de l'inférence). Pour la santé, le juridique, les données clients ultra-sensibles ou la propriété intellectuelle critique, seul le self-hosted garantit que rien ne sort de vos serveurs.
  • Vous êtes dans un secteur fortement régulé — santé (données de patients), juridique (secret professionnel), finance, assurances, gouvernement. L'air-gap total devient souvent une exigence contractuelle.
  • Votre volume justifie l'investissement — contre les modèles premium (GPT-5.4, Opus 4.7), le seuil de bascule est ~5-10 M tokens/mois. Contre les modèles économiques (Gemini 3.1 Flash-Lite à 0,10 $/M), il faut plutôt 50-100 M tokens/mois pour que le self-hosted soit rentable.
  • Vous voulez fine-tuner en profondeur — apprendre à un modèle votre vocabulaire métier, vos normes internes, vos cas particuliers. Les APIs propriétaires permettent le fine-tuning (OpenAI, Anthropic via Bedrock), mais avec des limites techniques et des coûts à l'usage. Un modèle à poids ouverts vous laisse tout contrôler : dataset, hyperparamètres, fréquence d'ajustement.
  • Vous refusez toute dépendance à un fournisseur — si OpenAI change ses prix de 300 %, ou si Anthropic a une panne, vous êtes bloqué. Un modèle dont vous avez les poids, personne ne peut vous le retirer ni le modifier dans votre dos.

Exemples typiques : analyse de dossiers médicaux, traitement de contrats juridiques, assistant interne avec accès à votre CRM complet, agent qui manipule des données RH, automatisation dans un cabinet comptable, tout déploiement avec contrainte d'air-gap.

Attention aux coûts cachés : le GPU ne représente que 30-40 % du coût réel. Le reste (monitoring, mises à jour, sécurité, optimisation) demande typiquement 1,5 à 2 FTE en ingénierie — un poste complet ou deux. Sans cette équipe ou ce partenaire, le self-hosted coûte plus cher qu'il ne parait.

Les 6 critères qui décident pour vous

Voici le tableau qu'on utilise avec nos clients pour trancher. Regardez chaque ligne et voyez où pèse le plus votre réalité.

Critère IA propriétaire (API) IA à poids ouverts (self-hosted)
Prix entrée (avril 2026) 2–5 $ / M tokens (premium) · 0,10 $ / M (budget) · jusqu'à -95 % avec cache Prix du GPU + équipe (voir plus bas)
Qualité brute Avance marginale sur le raisonnement frontière À parité sur la grande majorité des cas PME (DeepSeek V3.2, Llama 4, Qwen 3.5)
Coût à faible volume (< 5 M tokens/mois) Pas mal moins cher, par un gros bout Overhead GPU + équipe dévore toute économie
Coût à gros volume (> 10–50 M tokens/mois) Monte linéairement Plafonné par le matériel, économies 50-80 %
Time-to-market Jours Semaines à mois
Fine-tuning Oui (OpenAI, Anthropic via Bedrock), avec limites techniques et coûts Total, votre propriété (dataset, hyperparamètres, fréquence)
Conformité Loi 25 (Québec) EFVP obligatoire (inférence aux US/EU, même avec Canada residency) Déployé au Québec : aucune EFVP requise
Air-gap / données ultra-sensibles Impossible (inférence chez le fournisseur) Possible (on-premise ou cloud privé dédié)
Maintenance continue Aucune 1,5–2 FTE typique (270–550 k$/an) ou partenaire dédié
Risque de lock-in Élevé (prix, conditions, disponibilité, deprecation) Zéro — vous avez les poids

Matrice de décision rapide

Trois questions suffisent la plupart du temps pour trancher :

01

Avez-vous une exigence d'air-gap ou une contrainte contractuelle interdisant tout envoi à un tiers ?

Oui → poids ouverts self-hosted, sans discussion. Aucune API ne convient.
Non, mais Loi 25 s'applique et vous voulez éviter l'EFVP → déploiement au Québec (on-premise ou cloud privé québécois). Rappel : l'inférence OpenAI se fait aux US/EU même avec Canada residency.
Non, et vous acceptez de faire une EFVP → OpenAI API peut convenir. Continuez à la question 2.
Non, données publiques → continuez à la question 2.

02

Quel est votre volume mensuel ?

< 5 M tokens/mois → API propriétaire, sans hésiter. Le self-hosted ne se paye pas à ce volume.
5–10 M tokens/mois contre les modèles premium → zone de bascule. Comparez avec votre cas précis.
> 10 M tokens/mois sur tâches répétitives → self-hosted rentable, surtout avec Llama 4 Scout ou Qwen 3.5 qui tiennent sur 1 GPU.
> 50 M tokens/mois → self-hosted presque toujours gagnant, même contre les APIs budget.

03

Avez-vous une équipe MLOps ou un partenaire pour maintenir l'infrastructure ?

Non, et pas de budget pour 1,5–2 FTE → API propriétaire. Un modèle open-weights sans équipe pour le maintenir devient une dette technique qui coûte plus cher que l'API qu'il remplace.
Oui, ou partenaire type Oditan → self-hosted devient viable.

L'approche hybride : utiliser les deux

Dans la majorité de nos déploiements Oditan, on combine les deux selon le type de tâche. C'est ce qu'on appelle un router de modèles :

  1. Une requête arrive dans votre système.
  2. Un classifieur rapide détecte si elle contient de l'information sensible (nom de client, dossier médical, etc.).
  3. Si sensible : routée vers un modèle à poids ouverts hébergé au Canada.
  4. Si non sensible : routée vers une API propriétaire pour bénéficier de la qualité maximale.

Résultat : vos données sensibles ne sortent jamais de votre environnement, mais vos cas d'usage publics profitent quand même des modèles les plus puissants du marché. Le meilleur des deux mondes.

Questions fréquentes

Les modèles open source sont-ils vraiment à parité avec GPT ou Claude ?

En 2026, sur la plupart des tâches PME — résumé, classification, génération simple, question-réponse sur vos données — oui, et DeepSeek V3.2 a été le tournant : c'est l'équivalent open-weights d'un GPT-5.4 sur le raisonnement et l'usage d'outils. Les écarts sur les benchmarks agentiques complexes (code multi-étapes, raisonnement multi-modal avec images et vidéo en contexte) persistent en faveur de Claude Opus 4.7 et GPT-5.4, mais l'écart se comble à chaque release (6-12 mois de retard typiquement). Pour 90 % des cas PME, ça ne se traduit pas en différence pratique.

Est-ce que je peux commencer avec une API propriétaire et migrer vers un modèle à poids ouverts plus tard ?

Oui, c'est même l'approche qu'on recommande par défaut pour valider un cas d'usage rapidement. Une bonne architecture sépare la logique métier de l'appel au modèle — changer de fournisseur devient une question de jours, pas de mois. Chez Oditan, on code toutes nos intégrations avec cette abstraction par défaut.

Quel modèle open source choisir, et sur quel matériel ?

Dépend de votre cas. Ordres de grandeur VRAM en quantification Q4 (avril 2026) :

  • Qwen 3.5 9B : ~5 Go VRAM — tourne sur GPU grand public (RTX 4070/5070, Mac 32 Go).
  • Qwen 3.5 27B / Gemma 4 27B / Llama 4 Scout (17B MoE) : ~16 Go VRAM — un seul RTX 5080, A100 40 Go ou équivalent. Sweet spot PME.
  • Mistral 3 (675B MoE, 41B actifs) : ~370 Go — 8× H100 ou H200. Infrastructure de cloud privé dédié.
  • DeepSeek V3.2 : ~690 Go FP8 — 8× H200 pour le contexte complet 128K. Niveau entreprise uniquement.

Par force/usage : Llama 4 (Scout/Maverick, multimodal) pour l'équilibre qualité/popularité, Mistral 3 pour le français et la conformité européenne, Gemma 4 pour les contraintes matérielles serrées, Qwen 3.5 pour le multilingue, DeepSeek V3.2 pour le raisonnement au niveau frontière sans les prix propriétaires.

Est-ce que je peux héberger un modèle open source sur mon VPS existant ?

Pour les petits modèles (Qwen 3.5 9B, Gemma 4 9B), oui sur une instance avec un GPU 12-16 Go VRAM. Les VPS classiques sans GPU sont insuffisants pour la production — on loue plutôt une instance GPU à la demande : RunPod A100 PCIe à ~1,20 $/h, Lambda H100 à ~3 $/h. Pour un volume prévisible, un 70B Q4 sur A100 coûte 3 000-5 000 $/mois, ce qui sort ~0,07 $/M tokens. On évalue votre infrastructure actuelle et on vous dit franchement si ça tient ou s'il faut déployer ailleurs.

Les APIs propriétaires utilisent-elles mes données pour entraîner leurs modèles ?

OpenAI, Anthropic et Google affirment ne pas entraîner leurs modèles sur les données API payantes. OpenAI va plus loin : avec les Projects régionaux (dont Canada), les requêtes et réponses ne sont pas stockées au repos sur leurs serveurs. Anthropic et Google ont des engagements similaires dans leurs contrats entreprise. Mais ces engagements restent contractuels, pas techniques — il faut leur faire confiance. Pour des données vraiment sensibles ou un air-gap strict, seul le self-hosted élimine la question.

Qu'est-ce que le prompt caching et pourquoi ça change le calcul ?

Depuis 2025, les APIs majeures (OpenAI, Anthropic, Google) supportent le prompt caching : si le début de votre prompt se répète d'un appel à l'autre (par exemple : un gros contexte système, un RAG avec les mêmes documents), la partie commune est mise en cache et coûte -90 à -95 %. Combiné avec les batch APIs (résultats différés de quelques heures, -50 %), un cas d'usage RAG peut voir son coût divisé par 10. Ça pousse le seuil de bascule vers le self-hosted pas mal plus haut qu'on pensait en 2023-2024.

Et les modèles « open weights » comme Llama — sont-ils vraiment open source ?

Techniquement, plusieurs (Llama, Gemma) utilisent des licences qui permettent l'usage commercial mais pas tout. Pour 99 % des PME, ça ne change rien pratique. Pour un déploiement chez un client entreprise à grande échelle, il faut lire la licence — et on le fait avec vous avant tout déploiement.

// Votre cas précis

Pas sûr pour votre entreprise ?

C'est exactement le genre de question qu'on démêle dans un premier échange. Envoyez-nous votre contexte — type de données, volume approximatif, contraintes — et on vous dit franchement quelle voie est la bonne pour vous.

Écrivez-nous