Systèmes multi-agents#
Dans les chapitres précédents, nous avons étudié les agents LLM individuels et les frameworks qui les soutiennent. Un agent seul, aussi performant soit-il, reste limité par sa perspective unique, ses biais de raisonnement et sa capacité à gérer des tâches complexes comportant de multiples facettes. Les systèmes multi-agents (multi-agent systems, MAS) proposent une approche fondamentalement différente : plutôt que de confier une tâche entière à un seul agent, on la répartit entre plusieurs agents spécialisés qui collaborent, débattent et se corrigent mutuellement.
L’idée n’est pas nouvelle en intelligence artificielle — les systèmes multi-agents classiques remontent aux années 1980 — mais l’émergence des LLM leur donne une dimension inédite. Chaque agent dispose désormais d’une capacité de raisonnement en langue naturelle, ce qui permet des formes de communication et de coordination auparavant réservées aux equipes humaines. Un agent peut critiquer le raisonnement d’un autre, proposer une reformulation, ou synthétiser des perspectives divergentes, le tout dans un échange textuel structure.
Ce chapitre présente les architectures multi-agents fondamentales — séquentielle, parallèle, hiérarchique et de débat — ainsi que les mécanismes de communication et de coordination qui les sous-tendent. Nous illustrerons chaque architecture par des simulations en Python pur, sans dépendance à un framework d’agents particulier, afin de comprendre les mécanismes internes avant de les appliquer en pratique.
Pourquoi des systèmes multi-agents ?#
Les tâches complexes du monde réel dépassent souvent les capacités d’un agent unique. Rédiger un rapport technique, par exemple, exige à la fois une expertise du domaine, une capacité de vérification des faits, une rigueur stylistique et une cohérence d’ensemble. Un seul LLM, même puissant, tend à produire des erreurs non détectées, des biais de confirmation et des hallucinations. En répartissant ces responsabilités entre des agents spécialisés — un rédacteur, un vérificateur, un éditeur — on reproduit la dynamique d’une équipe humaine performante.
Définition 72 (Système multi-agents)
Un système multi-agents (MAS) est un ensemble \(\mathcal{A} = \{A_1, A_2, \ldots, A_n\}\) d’agents autonomes qui intéragissent dans un environnement partagé \(\mathcal{E}\) via un protocole de communication \(\mathcal{P}\). Chaque agent \(A_i\) possède :
un rôle \(r_i\) (prompt système définissant sa spécialisation),
un état interne \(s_i\) (mémoire de travail, contexte accumulé),
une politique \(\pi_i(a \mid s_i, m)\) qui determine son action \(a\) en fonction de son état et des messages reçus \(m\).
Le système produit une sortie collective \(y = f(A_1, \ldots, A_n, \mathcal{P})\) qui, idéalement, est supérieure à ce que tout agent individuel pourrait seul.
Les avantages d’un système multi-agents sont multiples. La spécialisation permet à chaque agent de se concentrer sur un sous-problème précis, réduisant la charge cognitive et améliorant la qualité. La vérification croisée permet de détecter des erreurs qu’un agent seul ne remarquerait pas. La diversité des perspectives réduit les biais systématiques. Enfin, la décomposition des tâches complexes en sous-tâches indépendantes permet un traitement plus structuré et plus fiable.
Remarque 78
Les systèmes multi-agents peuvent exhiber des comportements émergents : des propriétés du système global qui n’étaient pas explicitement programmées dans les agents individuels. Par exemple, un débat entre deux agents peut produire un raisonnement plus nuancé que celui de chaque agent pris isolément, ou un pipeline de relecture peut converger vers un consensus qui n’était dans la position initiale d’aucun agent. Ces propriétés émergentes sont à la fois la force et la difficulté des MAS — elles sont difficiles à prédire et à contrôler.
Remarque 79
Un système de \(n\) agents qui échangent \(k\) messages chacun génère un coût proportionnel à \(n \times k\) appels au LLM. Pour un débat en trois tours entre quatre agents, cela représente déjà 12 appels, soit un coût \(12\times\) supérieur à celui d’un agent unique. Ce multiplicateur de coût doit être soigneusement évalué : les gains en qualité justifient-ils le surcoût en latence, en tokens consommés et en budget ? En pratique, il faut trouver le point d’équilibre entre la qualité de la sortie et les ressources déployées.
Architectures multi-agents#
Il existe plusieurs façons d’organiser les intéractions entre agents. Chaque architecture correspond à un compromis entre complexité, latence et qualité.
Définition 73 (Architecture séquentielle (pipeline))
Dans une architecture séquentielle, les agents sont organisés en en chaine : la sortie de l’agent \(A_i\) devient l’entrée de l’agent \(A_{i+1}\). Formellement :
où \(x\) est l’entrée initiale et \(y\) la sortie finale. Chaque agent raffine, corrige ou enrichit le travail de son prédécesseur. C’est l’architecture la plus simple à implémenter et à déboguer.
L’architecture parallèle distribue la tâche à plusieurs agents simultanément, puis fusionne leurs résultats. Elle est utile lorsque la tâche peut être décomposée en sous-tâches indépendantes ou lorsqu’on souhaite obtenir des perspectives diversifiées. L’architecture hiérarchique (superviseur-travailleurs) ajoute un niveau de contrôle : un agent superviseur décompose la tâche, la distribue aux travailleurs, collecte les résultats et les synthétise. L’architecture de débat met en opposition plusieurs agents qui argumentent pour ou contre une position, sous l’arbitrage d’un juge.
Framework multi-agents initialisé.
Classes disponibles : Agent, MessageBus, Supervisor
Définition 74 (Passage de messages)
Le passage de messages (message passing) est le mécanisme de communication fondamental dans les MAS. Chaque message \(m\) est un tuple \((s, r, c, t)\) ou :
\(s \in \mathcal{A}\) est l”expéditeur,
\(r \in \mathcal{A}\) est le destinataire,
\(c\) est le contenu (texte, données structurées),
\(t \in \mathbb{N}\) est le tour de communication.
Le bus de messages maintient un historique ordonné \(\mathcal{H} = (m_1, m_2, \ldots, m_T)\) qui constitue la trace du système, essentielle pour le débogage et l’évaluation.
Communication et protocoles#
La qualité d’un système multi-agents dépend autant de la qualité de ses agents individuels que de la qualité de leur communication. Un protocole de communication bien conçu réduit l’ambiguïté, évite les boucles infinies et garantit la convergence vers un résultat.
On distingue trois grands modes de communication. Le passage de messages direct (point-to-point) : chaque agent envoie des messages à des destinataires spécifiques. C’est le mode le plus flexible mais aussi le plus difficile à coordonner lorsque le nombre d’agents croit. Le tableau noir (blackboard) : tous les agents lisent et écrivent sur un espace partagé. C’est un mode naturel pour les tâches collaboratives où chaque agent enrichit progressivement un artefact commun. La communication structurée par rôles : le protocole impose des tours de parole et des formats de message en fonction du rôle de chaque agent.
Exemple 54 (Chaine de relecture multi-agents)
Un pipeline de relecture en trois étapes illustre l’architecture séquentielle :
Tâche initiale
|
v
[Rédacteur] --> brouillon
|
v
[Relecteur] --> critique + suggestions
|
v
[Editeur] --> version finale
Chaque agent reçoit la sortie de l’agent précédent et l’améliore. Le rédacteur produit un premier jet, le relecteur identifie les erreurs et propose des corrections, l’éditeur intègre les corrections et produit la version finale.
======================================================================
PIPELINE DE RELECTURE SEQUENTIEL
======================================================================
--- Tour 1 : Redacteur (Rédige un premier brouillon) ---
Les systèmes multi-agents permettent de diviser les tâches complexes entre plusieurs entités autonomes. Chaque agent se spécialise dans un aspect spécifique, ce qui améliore la qualité global du résultat.
--- Tour 2 : Relecteur (Identifie les erreurs et propose des améliorations) ---
CORRECTIONS :
1. 'qualité global' -> 'qualité globale' (accord adjectif)
2. Suggestion : ajouter un exemple concret pour illustrer
3. Le texte est clair mais pourrait mentionner les défis (coût, coordination)
--- Tour 3 : Editeur (Produit la version finale en intégrant les corrections) ---
Les systèmes multi-agents permettent de diviser les tâches complexes entre plusieurs entités autonomes. Chaque agent se spécialise dans un aspect spécifique --- par exemple, un rédacteur, un relecteur et un éditeur --- ce qui améliore la qualité globale du résultat. Cette approche comporte néanmoins des defis : coût accru des appels au LLM et nécessité d'une coordination efficace entre agents.
======================================================================
Messages échangés : 6
Remarque 80
Les systèmes multi-agents sont sujets à plusieurs modes de défaillance spécifiques :
Boucle de politesse : les agents s’accordent trop facilement sans apporter de critique réelle, ce qui annule le bénéfice de la vérification croisée.
Cascade d’erreurs : dans un pipeline sequentiel, une erreur du premier agent peut être amplifiée par les agents suivants au lieu d’être corrigée.
Effondrement de la diversité : après plusieurs tours de débat, les agents convergent vers une position consensuelle qui n’est pas nécessairement la meilleure.
Explosion combinatoire : dans les architectures plate où chaque agent communique avec tous les autres, le nombre de messages croit en \(O(n^2)\) par tour.
Architecture de débat#
L’architecture de débat est l’une des plus prometteuses pour améliorer la qualité du raisonnement. Elle s’inspire des pratiques humaines de déliberation : lorsque deux personnes défendent des positions opposées devant un juge, le juge peut évaluer la qualité relative des arguments et parvenir è une conclusion plus éclairée.
Définition 75 (Architecture de débat)
Une architecture de débat est un tuple \((\mathcal{D}, J, T)\) où :
\(\mathcal{D} = \{D_1, \ldots, D_k\}\) est un ensemble de débatteurs, chacun défendant une position \(p_i\) sur la question posée,
\(J\) est un juge (ou modérateur) qui évalue les arguments et produit la synthèse finale,
\(T \in \mathbb{N}^*\) est le nombre de tours de débat.
A chaque tour \(t\), chaque débatteur \(D_i\) produit un argument \(a_i^{(t)}\) en fonction de sa position, des arguments adverses \(\{a_j^{(t-1)} : j \neq i\}\), et de l’historique. Apres \(T\) tours, le juge \(J\) synthétise l’ensemble des arguments et produit la conclusion \(y = J(a_1^{(1)}, \ldots, a_k^{(T)})\).
L’intérêt du débat réside dans le raisonnement adversarial : chaque débatteur est incité à trouver les faiblesses de l’argument adverse, ce qui force un examen plus rigoureux des hypothèses. Des travaux récents (Du et al., 2023 ; Liang et al., 2023) montrent que le débat entre LLM améliore significativement la précision sur des tâches de raisonnement mathématique et de vérification factuelle.
======================================================================
DEBAT : Les systèmes multi-agents sont-ils supérieurs aux agents uniques ?
======================================================================
──────────────────────────────────────────────────────────────────────
TOUR 1
──────────────────────────────────────────────────────────────────────
[Agent_Pour] (confiance: 0.76)
Les MAS offrent une vérification croisée : un agent relecteur détecte les erreurs que le redacteur ne voit pas. Des études montrent une réduction de 30% des hallucinations avec un pipeline de vérification.
[Agent_Contre] (confiance: 0.79)
Le coût des MAS est prohibitif : un système de 4 agents avec 3 tours de débat consomme 12x plus de tokens qu'un agent unique. Pour une qualité marginalement supérieure, le ratio coût/bénéfice est défavorable.
──────────────────────────────────────────────────────────────────────
TOUR 2
──────────────────────────────────────────────────────────────────────
[Agent_Pour] (confiance: 0.77)
La spécialisation permet à chaque agent de se concentrer sur son domaine d'expertise. Un agent expert en code et un agent expert en mathématiques produisent ensemble un résultat supérieur à un généraliste.
[Agent_Contre] (confiance: 0.78)
La coordination entre agents introduit de nouveaux modes de défaillance : boucles de politesse, cascades d'erreurs, effondrement de la diversité. Un agent unique bien prompté évite ces ecueils.
──────────────────────────────────────────────────────────────────────
TOUR 3
──────────────────────────────────────────────────────────────────────
[Agent_Pour] (confiance: 0.69)
Le débat adversarial entre agents améliore la qualité du raisonnement. Les travaux de Du et al. (2023) montrent +15% de précision sur GSM8K avec un débat à trois agents par rapport à un agent unique.
[Agent_Contre] (confiance: 0.71)
Les gains observés dans la littérature sont souvent marginaux sur les tâches simples. Un seul agent avec chain-of-thought et self-consistency atteint des performances comparables à moindre coût.
======================================================================
VERDICT DU JUGE
======================================================================
Confiance finale Agent_Pour : 0.69
Confiance finale Agent_Contre: 0.71
Synthèse : Les systèmes multi-agents offrent des avantages réels (vérification croisée, spécialisation) mais leur coût et leur complexité doivent être soigneusement évalués. Ils sont particulièrement adaptés aux tâches critiques ou la qualité prime sur le coût.
Exemple 55 (Simulation de débat)
Le débat simule ci-dessus illustre la dynamique fondamentale : chaque débatteur avance des arguments factuels (réduction des hallucinations, coût en tokens), et le juge synthétise les perspectives. En pratique, avec de vrais LLM, on observerait :
Tour 1 : Arguments initiaux (positions fermes)
Tour 2 : Réponses aux arguments adverses (nuancement)
Tour 3 : Concessions partielles et renforcement des points forts
Verdict : Synthèse équilibrée par le juge
Les scores de confiance décroissent souvent au fil du débat, reflétant la prise en compte des contre-arguments. Le juge tire parti de cette dynamique pour identifier les points de consensus et de désaccord.
Architecture hiérarchique#
L’architecture hiérarchique place un superviseur au sommet de la chaine de commandement. Le superviseur reçoit la tâche globale, la décompose en sous-tâches, les distribue aux travailleurs, collecte les résultats et les synthétise. Cette architecture est particulièrement adaptée aux tâches qui admettent une décomposition naturelle en sous-problèmes indépendants.
Définition 76 (Architecture hierarchique)
Une architecture hiérarchique est un arbre \(\mathcal{T} = (V, E)\) où :
la racine \(v_0\) est le superviseur principal,
les noeuds internes \(v_i\) sont des superviseurs intermédiaires (optionnels),
les feuilles \(v_j\) sont les travailleurs qui exécutent les sous-tâches,
chaque arête \((v_i, v_j) \in E\) représente une relation de délégation.
Le superviseur \(v_0\) décompose la tâche \(\tau\) en sous-tÂches \(\{\tau_1, \ldots, \tau_k\}\), chaque sous-tâche est assignáe à un travailleur ou à un superviseur intermédiaire qui la décompose à son tour. Les résultats remontent l’arbre par agrégation successive.
L’architecture hiérarchique offre plusieurs avantages. Elle réduit la complexité de la coordination : le superviseur n’a besoin de communiquer qu’avec ses subalternes directs, et non avec tous les agents. Elle permet une récursion naturelle : un superviseur intermédiaire peut lui-même décomposer sa sous-tâche. Elle fournit un point de contrôle central qui peut vérifier la cohérence des résultats avant de les agréger.
Exemple 56 (Superviseur et travailleurs)
Un système hiérarchique pour l’analyse d’un document technique :
[Superviseur]
/ | \
v v v
[Analyste [Analyste [Analyste
technique] style] factuel]
\ | /
v v v
[Superviseur : synthèse]
|
v
Rapport final
Le superviseur décompose la tâche « analyser ce document » en trois axes : analyse technique, analyse stylistique, vérification factuelle. Chaque analyste travaille indépendamment, puis le superviseur synthétise les trois rapports en un rapport final cohérent.
======================================================================
ARCHITECTURE HIERARCHIQUE : ANALYSE DE DOCUMENT
======================================================================
Tache : Analyser le document technique sur les architectures Transformer
Nombre de travailleurs : 3
──────────────────────────────────────────────────────────────────────
[Analyste_Technique]
ANALYSE TECHNIQUE :
- L'architecture proposée utilise 3 couches de Transformers
- Complexité temporelle : O(n^2 d) par couche
- Point d'attention : la mémoire GPU peut être insuffisante pour n > 4096
- Recommandation : envisager Flash Attention pour réduire la complexité mémoire
──────────────────────────────────────────────────────────────────────
[Analyste_Style]
ANALYSE STYLISTIQUE :
- Le document est globalement clair et bien structuré
- Section 3 : trop de jargon sans définitions préalables
- Les figures manquent de légendes détaillées
- Recommandation : ajouter un glossaire en annexe
──────────────────────────────────────────────────────────────────────
[Analyste_Factuel]
VERIFICATION FACTUELLE :
- Affirmation 'BERT utilise 110M paramètres' : CORRECT
- Affirmation 'GPT-4 est open-source' : INCORRECT (modèle propriétaire)
- Référence [12] non trouvée dans la bibliographie
- Recommandation : corriger l'affirmation sur GPT-4 et compléter les références
======================================================================
SYNTHESE DU SUPERVISEUR
======================================================================
Le document présente des bases techniques solides (architecture
Transformer correctement décrite) mais contient une erreur factuelle
majeure (GPT-4 décrit comme open-source) et des lacunes stylistiques
(jargon non défini, figures insuffisamment légendées). Priorité :
corriger l'erreur factuelle avant publication.
Messages échangés : 6
Propriété 18 (Passage à l’échelle des systèmes multi-agents)
La relation entre le nombre d’agents \(n\) et la qualité \(Q(n)\) de la sortie suit généralement une courbe à rendements décroissants :
ou \(Q_{\max}\) est la qualite maximale atteignable et \(\alpha > 0\) contrôle la vitesse de convergence. En parallèle, le coût \(C(n)\) croit au moins linéairement :
Le point optimal \(n^*\) est celui qui maximise le rapport qualité-coût \(Q(n) / C(n)\). En pratique, les gains significatifs s’observent entre 2 et 5 agents ; au-delà, les rendements marginaux diminuent rapidement tandis que les coûts de coordination augmentent.
Coordination et consensus#
Lorsque plusieurs agents travaillent sur une même tâche, il faut un mécanisme pour agréger leurs sorties et résoudre les désaccords. Les mécanismes de consensus sont au coeur de la qualité des systèmes multi-agents.
Le vote majoritaire est le mécanisme le plus simple : chaque agent produit une réponse, et la réponse la plus fréquente est sélectionnée. Ce mécanisme est efficace lorsque les agents sont indépendants et ont chacun une probabilité supérieure à \(1/2\) d’être corrects (théorème du jury de Condorcet). Le consensus pondéré attribue un poids à chaque agent en fonction de sa fiabilité estimée ou de sa spécialisation. La résolution de conflits intervient lorsque les agents produisent des réponses contradictoires : un agent arbitre examine les arguments et tranche.
Probabilité individuelle d'être correct : 65%
Nb agents Vote majoritaire Consensus pondéré
----------------------------------------------------
3 74.2% 71.7%
5 75.7% 72.0%
7 81.2% 75.4%
9 83.7% 80.1%
11 84.3% 80.0%
Le théorème du jury de Condorcet formalise l’intuition que le vote majoritaire améliore la précision lorsque chaque votant est individuellement meilleur que le hasard. Si chaque agent a une probabilité \(p > 0{,}5\) d’être correct et que les agents sont indépendants, alors la probabilité que la majorité soit correcte tend vers 1 lorsque le nombre d’agents tend vers l’infini. En revanche, si \(p < 0{,}5\), ajouter des agents détériore le résultat.
La figure de gauche illustre le théorème de Condorcet : même avec des agents individuellement modestes (\(p = 0{,}55\)), le vote majoritaire dépasse 90 % de précision avec suffisamment d’agents. La figure de droite confirme ce résultat par simulation et compare le vote majoritaire au consensus pondéré. En pratique, le consensus pondéré n’apporte un avantage significatif que lorsque les poids reflètent fidèlement la compétence des agents, ce qui suppose un mécanisme d’estimation fiable.
Ce graphe de communication révèle la structure réelle des échanges dans un système multi-agents complexe. L’épaisseur des arêtes reflète le volume de messages : la boucle rédacteur-relecteur est la plus active, ce qui est attendu dans un processus itératif de révision. Le superviseur reçoit les sorties finales mais délègue la planification à un agent dedié, illustrant le principe de séparation des responsabilités.
Résumé#
Ce chapitre a présenté les fondements des systèmes multi-agents appliqués aux LLM :
Motivation : les tâches complexes bénéficient de la division du travail, de la spécialisation et de la vérification croisée entre agents autonomes.
Architectures : l’architecture séquentielle (pipeline) est la plus simple, l’architecture hiérarchique offre un contrôle centralisé, et l’architecture de débat améliore le raisonnement par confrontation adversariale.
Communication : le passage de messages, le tableau noir et la communication structurée par rôles constituent les trois grands modes d’interaction. Le format des messages et le protocole d’échange déterminent l’efficacité du système.
Débat : la confrontation argumentée entre agents, arbitrée par un juge, améliore la qualité du raisonnement sur les tâches de vérification factuelle et de raisonnement mathématique.
Hiérarchie : la décomposition superviseur-travailleurs permet de structurer les tâches complexes, avec un point de contrôle central pour la cohérence.
Consensus : le vote majoritaire et le consensus pondéré exploitent la sagesse collective des agents, avec des garanties théoriques (théorème de Condorcet) lorsque les agents sont individuellement fiables.
Passage à l’échelle : les rendements de l’ajout d’agents sont décroissants ; le point optimal se situe généralement entre 2 et 5 agents, au-delà duquel les coûts de coordination l’emportent sur les gains en qualité.