L'IA n'est plus une fonctionnalité « bonus » des outils de création : en 2026, elle est l'outil. Monter une vidéo, produire un jeu de slides, générer une voix off, faire tourner un modèle sur sa propre machine — chaque catégorie a ses gagnants, ses pièges de licence et ses hausses de prix discrètes. Voici le comparatif transversal, chiffres vérifiés au 3 juillet 2026, avec un top 3 par catégorie et une fiche récap de l'état de l'art en fin d'article.
Prix et licences vérifiés le 3 juillet 2026, sur les pages officielles chaque fois que possible. Les tarifs SaaS bougent vite (CapCut a doublé son plan annuel début 2026, Descript a changé de modèle en septembre 2025) : re-vérifiez avant d'acheter. Les benchmarks auto-déclarés par les éditeurs sont signalés d'un astérisque (*).
La fiche récap en une image — le détail et les justifications suivent.
Montage vidéo : l'IA fait le premier cut
Le marché s'est scindé en deux familles. D'un côté, les NLE traditionnels qui ont absorbé l'IA (DaVinci Resolve 21, Premiere Pro 26.2) ; de l'autre, les éditeurs AI-native où l'IA est l'interface elle-même (Descript et son agent Underlord, CapCut Auto-Edit, Opus Clip). La plupart des équipes gardent un outil de chaque famille. Autre signal fort de 2026 : la monétisation par crédits IA s'est généralisée partout… sauf chez Blackmagic, qui résiste avec sa licence perpétuelle.
| Outil | L'IA en bref | Prix (07/2026) | Plateformes |
|---|---|---|---|
| DaVinci Resolve 21 | IntelliScript (timeline depuis le script), SmartSwitch multicam, IntelliSearch | Gratuit · Studio 295 $ à vie | Windows, macOS, Linux |
| Premiere Pro 26.2 | Generative Extend (Firefly), recherche sémantique, Enhance Speech | dès 22,99 $/mois + crédits Firefly | Windows, macOS |
| CapCut « 2026 AI Suite » | Auto-Edit, sous-titres 130+ langues, avatars IA | Free · Pro 19,99 $/mois | Windows, macOS, mobile, web |
| Descript | Montage par transcription + agent Underlord | Free · Creator 24 $/mois (annuel) | Windows, macOS, web |
| Runway (Gen-4.5, Aleph) | Génération vidéo + édition d'un plan existant par prompt | Free · dès 12 $/mois (crédits) | Web (donc Linux OK) |
| Filmora 15 | AI Mate + Sora 2, Veo 3.1 et Kling intégrés | dès 49,99 $/an · 79,99 $ perpétuel | Windows, macOS |
Trois profils, trois choix. Le monteur pro prendra DaVinci Resolve Studio 21 : IA à chaque étape de la post-production, étalonnage de référence, seul NLE majeur sur Linux — et 295 $ une seule fois, là où l'équation Adobe (abonnement + crédits) dépasse ce montant dès la première année. Le créateur short-form restera sur CapCut : le chemin rushes → TikTok/Reels le plus court du marché, au prix d'une dépendance aux crédits et d'une hausse tarifaire brutale (l'annuel Pro est passé d'environ 78 $ à 179,99 $). Le podcasteur choisira Descript : éditer la vidéo en corrigeant le texte reste l'idée la plus productive de la décennie, et Underlord (sélection des meilleures prises, clips sociaux, nettoyage Studio Sound) en fait un vrai co-monteur agentique.
- DaVinci Resolve Studio 21 — le choix pro : 295 $ à vie, IA partout, seul sur Linux.
- CapCut Pro — le choix créateur : pipeline social le plus rapide, version gratuite généreuse.
- Descript — le choix podcast/talking-head : montage par transcription + agent Underlord.
Runway (Aleph) est à part : ce n'est pas un banc de montage mais la référence de l'édition générative — à ajouter à l'un des trois, pas à leur place.
Présentations : du prompt au PPTX… partout, Linux compris
Générer un deck complet depuis un prompt est devenu banal — le vrai sujet de 2026, c'est la portabilité : que vaut un deck qu'on ne peut pas ouvrir sur la machine du client ? Deux réalités structurent la catégorie. D'abord, tous les SaaS sérieux exportent le PPTX, mais avec une fidélité variable (polices, dégradés, animations). Ensuite, aucun SaaS IA n'exporte l'ODP nativement : le format OpenDocument passe forcément par Google Slides (Fichier → Télécharger → ODP) ou par LibreOffice/OnlyOffice qui, eux, l'écrivent nativement.
Tome, pionnier du deck génératif (20 M d'utilisateurs revendiqués), a fermé le 30 avril 2025 — les présentations non exportées ont été définitivement supprimées. Moralité : quel que soit l'outil SaaS choisi, exportez en PPTX/PDF ce qui compte.
| Outil | Type | Génération IA | Exports | Prix (07/2026) |
|---|---|---|---|---|
| Gamma | SaaS (web) | deck complet en ~30 s | PPTX, PDF, PNG, Google Slides — dès le plan gratuit | Free (400 crédits) · Plus 9 $ · Pro ~18–25 $/mois |
| Plus AI | add-in Slides/PowerPoint | dans l'outil hôte | PPTX natif ; ODP via Google Slides | dès 10 $/mois |
| Presenton | open source (Apache 2.0), Docker/desktop | prompt → deck, LLM au choix (Ollama local, OpenAI, Claude…) | PPTX éditable, PDF | Gratuit en self-hosted |
| Presentations.ai | SaaS (web) | decks business | PPTX haute fidélité, PDF | Free · Pro 20 $/mois |
| Beautiful.ai | SaaS (web) | Smart Slides (design auto) | PPTX, PDF — pas de plan gratuit | dès 12 $/mois (annuel) |
| OnlyOffice / LibreOffice | libres, desktop | assistants in-editor (plugin IA, Ollama possible) | PPTX + ODP + PDF natifs | Gratuit |
Gamma reste le meilleur « tout-en-un » : premier jet le plus abouti du marché, exports disponibles dès le gratuit — mais la conversion de ses « cartes » web vers un 16
classique demande des retouches, et les 400 crédits gratuits ne se renouvellent pas. Pour l'entreprise qui vit dans PowerPoint, Plus AI est imbattable par construction : il travaille dans Google Slides ou PowerPoint, donc le fichier produit est nativement propre — c'est aussi le seul chemin quasi direct vers l'ODP. Côté libre, Presenton est la vraie surprise : Apache 2.0, app desktop Windows/macOS/Linux ou Docker, PPTX pleinement éditable, et le LLM de votre choix, y compris 100 % local via Ollama — confidentialité totale. Enfin, si l'ODP natif est non négociable, OnlyOffice et LibreOffice Impress restent les seuls à l'écrire directement, avec des assistants IA in-editor (le plugin OnlyOffice accepte un modèle local) plutôt qu'une génération complète.- Gamma — le tout-en-un : meilleur premier jet, exports PPTX/PDF dès le gratuit.
- Plus AI — le choix entreprise : PPTX natif sans conversion, chemin ODP via Google Slides, 10 $/mois.
- Presenton — le choix libre : Apache 2.0, Linux/macOS/Windows, LLM local possible, PPTX éditable.
Synthèse vocale : le cloud premium contre le local libre
Deux mondes cohabitent : les API cloud, qui dominent en expressivité, et les modèles open source, devenus réellement utilisables en production locale — tous tournent sans effort sur un ordinateur récent, le plus gros du podium pesant 1,7 milliard de paramètres. Aucun GPU hors de prix requis.
Les payants (API)
| Service | Atout | Français | Prix ≈ / M caractères |
|---|---|---|---|
| ElevenLabs (Eleven v3) | 70+ langues, « audio tags » émotionnels, clonage | excellent | 50–100 $ |
| OpenAI gpt-4o-mini-tts | pilotage par prompt, prix plancher (~0,015 $/min) | correct | 12–15 $ |
| Cartesia Sonic-3.5 | latence 40–90 ms (agents vocaux temps réel) | natif (42 langues) | ~38 $ |
| Hume Octave 2 | émotion contextuelle (le texte est « compris ») | oui (11+ langues) | ~50 $ |
Le local (open source)
Vérifiez la licence des poids, pas celle du code. F5-TTS : code MIT mais poids CC-BY-NC → interdit en usage commercial. Fish Speech / OpenAudio S1-mini : CC-BY-NC-SA. XTTS-v2 : licence non commerciale et Coqui a fermé en 2024 — il n'y a plus personne pour vous vendre une licence. Ces trois-là, pourtant excellents, sont hors jeu pour un produit.
| Modèle | Taille | Licence | Français | Clonage de voix |
|---|---|---|---|---|
| Chatterbox Multilingual V3 (Resemble) | 0,5B | MIT | 23 langues, FR inclus | dès 5 s d'audio |
| Qwen3-TTS 1.7B (Alibaba, 01/2026) | 1,7B (ports MLX) | Apache 2.0 | natif (10 langues) | 3 s + « voice design » par prompt |
| Kokoro-82M | 82M (~350 Mo !) | Apache 2.0 | 1 seule voix, qualité B− | non |
| Orpheus 3B | 3B (GGUF) | Apache 2.0 | version FR en research release | oui |
| NeuTTS Air (Neuphonic) | 748M | Apache 2.0 | oui (EN meilleur) | 3 s |
Chatterbox V3 coche toutes les cases : MIT (le seul du haut du panier réellement libre pour le commerce), 23 langues, clonage zero-shot en 5 secondes, contrôle d'« exagération émotionnelle » unique en open source — et un watermark neuronal intégré, bon point d'éthique. Qwen3-TTS, sorti en janvier 2026, est techniquement le plus complet (clonage 3 s, conception de voix par description en langage naturel, streaming, ports MLX pour Apple Silicon) avec seulement six mois de recul communautaire. Kokoro reste l'outsider fascinant : 82 M de paramètres, plus rapide que le temps réel sur CPU — parfait pour un pipeline automatisé sobre, tant que l'unique voix française suffit.
Payants : 1. ElevenLabs v3 (qualité de référence) · 2. OpenAI gpt-4o-mini-tts (~7× moins cher) · 3. Cartesia Sonic-3.5 (temps réel). Open source local : 1. Chatterbox Multilingual V3 (MIT + FR + clonage) · 2. Qwen3-TTS 1.7B (le plus complet) · 3. Kokoro-82M (léger, temps réel sur CPU).
LLM en local : que faire tourner sous 36 Go ?
Précision d'emblée : les stars open-weights de 2026 (DeepSeek V4, GLM-5.2, Kimi K2.6) pèsent 300 à 750 milliards de paramètres — hors budget pour une machine personnelle. Sous 36 Go de mémoire (RAM unifiée ou VRAM GPU), la compétition se joue entre les 20–35B, avec un arbitrage simple : les MoE (peu de paramètres actifs) privilégient la vitesse, les denses la qualité brute. Attention au piège Mistral Small 4 : malgré son nom, c'est un MoE de 119B — environ 60 Go en 4-bit, il ne tient pas.
| Modèle | Params (actifs) | Q4 ≈ | Vitesse indicative | Point fort |
|---|---|---|---|---|
| Qwen3.6-35B-A3B | 35B (3B) | 22 Go (Q6 : 29 Go) | 35–50 tok/s, jusqu'à ~112 avec MLX | le généraliste : qualité + vitesse + 262K de contexte |
| Qwen3.6-27B (dense) | 27B | 17 Go (Q8 possible) | 10–25 tok/s | plafond qualité : SWE-bench 77,2*, GPQA-D 87,8* |
| Gemma 4 31B | 31B | 20 Go | 8–25 tok/s (×3 avec MTP) | 140+ langues, vision, désormais Apache 2.0 |
| gpt-oss-20b | 21B (3,6B) | 12 Go | 150–170 tok/s | vitesse et tool-use ; s'effondre à 128K de contexte |
| Magistral Small 1.2 | 24B | 14–15 Go | ~20 tok/s | raisonnement + vision + très bon français |
* Chiffres auto-déclarés par Alibaba — le claim « un 27B dense devant un MoE de 397B en code » n'a pas encore de contre-vérification indépendante solide.
Côté runtimes, 2026 a rebattu les cartes : Ollama utilise désormais MLX comme backend sur Apple Silicon (depuis la 0.19, mars 2026) et LM Studio comme llama.cpp ont intégré le speculative decoding MTP — jusqu'à trois fois plus rapide sur Gemma 4.
# Ollama ≥ 0.19 (backend MLX sur Apple Silicon)
# Le tirage direct depuis Hugging Face évite de deviner les tags :
ollama run hf.co/unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M # ~22 Go — le généraliste
ollama run gpt-oss:20b # ~12 Go — 150+ tok/s, agents
Par rapport aux configs 24 Go, vous ne gagnez pas seulement « un modèle plus gros » : vous pouvez servir les 20–27B en Q6/Q8 au lieu de Q4 — une qualité de quantization supérieure sur le même modèle, souvent plus rentable qu'un modèle plus gros mal quantisé.
- Qwen3.6-35B-A3B — le choix par défaut : Apache 2.0, rapide (MoE), 262K de contexte.
- Qwen3.6-27B — la qualité maximale pour le code et le raisonnement, si la latence n'est pas critique.
- Gemma 4 31B — le choix multilingue/multimodal : 140+ langues (excellent français), vision, MTP.
Mentions : gpt-oss-20b comme moteur d'agents ultra-rapide ; Magistral Small 1.2 pour le raisonnement en français avec vision.
Le top 10 des LLM, toutes catégories — juillet 2026
Le premier semestre 2026 a été d'une densité inédite : cinq modèles flagship chez Anthropic en six mois, six semaines entre GPT-5.4 et GPT-5.5, et des open-weights chinois qui ont rejoint la frontière sur le code. Classement composite (Artificial Analysis Intelligence Index de juin 2026, Arena, SWE-bench Verified/Pro) :
| # | Modèle | Éditeur | Licence | Contexte | Prix API ($/M in/out) | Signature |
|---|---|---|---|---|---|---|
| 1 | Claude Fable 5 / Mythos 5 | Anthropic | propriétaire | 1M | 10 / 50 | AAII 64,9 (record) ; SWE-bench 95 % |
| 2 | Claude Opus 4.8 | Anthropic | propriétaire | 1M | 5 / 25 | n°1 Arena ; le meilleur rapport fiabilité/prix frontière |
| 3 | GPT-5.5 | OpenAI | propriétaire | 1M | 5 / 30 (Pro : 30 / 180) | math de compétition, agents |
| 4 | Gemini 3.1 Pro | propriétaire | 1M | 2 / 12 | GPQA Diamond 94,3 % ; factualité | |
| 5 | Qwen 3.7 Max | Alibaba | propriétaire (API) | 1M | 2,50 / 7,50 | meilleur rapport intelligence/prix |
| 6 | DeepSeek V4 | DeepSeek | open weights (MIT) | 1M | 0,44 / 0,87 | SWE-bench 80,6 % à ~5 % du prix des fermés |
| 7 | GLM-5.2 | Zhipu AI | open weights (MIT) | 1M | — | n°1 SWE-bench Pro (62,1)* |
| 8 | Kimi K2.6 | Moonshot | open weights | 256K | 0,60 / 2,50 | HLE outillé 54 % ; agents |
| 9 | MiniMax M3 | MiniMax | open weights annoncé* | 1M | ~5–10 % de GPT-5.5 | agents multi-acteurs à bas coût |
| 10 | Grok 4.3 | xAI | propriétaire | 256K | ~1,25 / 2,50 | agents temps réel bon marché |
* Scores GLM-5.2 et MiniMax M3 auto-déclarés, sans vérification indépendante consolidée début juillet ; la publication effective des poids de M3 restait à confirmer. (Et oui, transparence : le modèle n°1 de ce tableau a aidé à rédiger cet article — les chiffres viennent des leaderboards indépendants, pas de nous.)
Quatre tendances de fond résument le semestre. Un : la frontière se départage désormais sur les benchmarks agentiques (SWE-bench Pro, Terminal-Bench 2.1, GDPval) — GPQA est saturé au-delà de 94 %. Deux : les prix ont bifurqué — la classe « GPT-4 » coûte moins de 1 $/M tokens, pendant que le premium frontière monte (GPT-5.5 Pro à 30/180 $). Trois : l'open-weights frontière est presque exclusivement chinois (DeepSeek, Zhipu, Moonshot, MiniMax, Qwen), au point que le NIST américain évalue officiellement ces modèles ; Meta a pivoté vers le propriétaire (Muse Spark) et Mistral reste le seul flagship open occidental. Quatre : le contexte 1M est devenu le standard du top 10 — seul Kimi reste à 256K.
La fiche récap — l'état de l'art en une page
| Besoin | Le choix | L'alternative | L'option libre |
|---|---|---|---|
| Monter une vidéo | DaVinci Resolve Studio 21 (295 $ à vie) | CapCut Pro (short-form) · Descript (podcast) | Resolve version gratuite |
| Générer des slides | Gamma | Plus AI (entreprise .pptx) | Presenton (Apache 2.0) |
| Voix off cloud | ElevenLabs v3 | OpenAI gpt-4o-mini-tts (budget) · Cartesia (temps réel) | — |
| Voix off locale | Chatterbox Multilingual V3 (MIT) | Qwen3-TTS 1.7B | Kokoro-82M (CPU temps réel) |
| LLM local ≤ 36 Go | Qwen3.6-35B-A3B | Qwen3.6-27B (qualité) · Gemma 4 31B (FR, vision) | tous Apache 2.0 |
| LLM frontière (API) | Claude Fable 5 · Opus 4.8 (perf/prix) | GPT-5.5 · Gemini 3.1 Pro | DeepSeek V4 (MIT) |
Trois réflexes avant de dégainer la carte bleue : lire la licence des poids (pas du code), convertir les « crédits » en coût réel sur votre volume mensuel, et exporter systématiquement vos contenus dans un format ouvert — Tome a rappelé en 2025 que les SaaS meurent aussi.