WebMCP : L’avenir de l’IA sur navigateur s’éclaire

Le 13 février dernier, Google a annoncé la préversion de WebMCP, une technologie innovante qui permet aux agents d’intelligence artificielle (IA) d’interagir directement avec les sites web au sein du navigateur. Cette annonce marque un tournant important dans le domaine de l’IA sur le web en offrant une alternative plus efficace et plus déterministe à la manière dont les agents IA interprètent actuellement les interfaces.

Model Context Protocol (MCP) : État actuel et contraintes du navigateur

Illustration hero

Le Model Context Protocol (MCP) a défini un modèle structuré pour l’interaction des agents d’IA avec les systèmes externes. Les outils sont définis avec des schémas clairs, et les agents peuvent les invoquer en utilisant des entrées structurées, ce qui garantit une exécution déterministe plutôt que de dépendre du raisonnement libre-forme.

Architecture Client-Serveur Traditionnelle

Cet architecture est généralement client-serveur. Un agent se connecte à un serveur MCP qui expose des outils enveloppant des API, des bases de données ou des services internes. Ce modèle correspond naturellement aux environnements backend où l’exécution se fait en dehors du navigateur.

Problèmes d’Intégration Web

Cependant, les applications web fonctionnent sous d’autres hypothèses : l’identité de l’utilisateur, l’état de session et beaucoup de la logique de l’application résident à l’intérieur du navigateur. Les flux d’authentification dépendent des cookies et des systèmes de login fédéré liés à cette session. Un serveur MCP externe ne hérite pas automatiquement de ce contexte, ce qui complique la gestion des autorisations et de l’état.

Impact sur les Agents IA

En raison de cette séparation, les agents interagissant avec des applications web se retrouvent souvent à contrôler directement l’interface au lieu d’invoquer des capacités structurées. C’est là que WebMCP apporte une solution innovante.

Architecture et fonctionnement de WebMCP

WebMCP est un API natif du navigateur qui permet aux sites web d’exposer des outils structurés directement dans l’environnement de runtime de la page. Il s’inspire du modèle conceptuel du Model Context Protocol (MCP) en définissant des outils avec des schémas clairs et des invocations par agents, mais il est spécifique à l’exécution côté client au sein du navigateur.

Nouvelle Interface Navigateur

À son cœur, WebMCP introduit une nouvelle interface de navigateur :

1
navigator.modelContext

Cette interface permet à une page web de s’enregistrer en tant que fournisseur d’outils qui peuvent être découverts et invocables par des agents IA. Chaque outil est constitué de :

  • Un nom
  • Une description
  • Un schéma d’entrée (définition structurée des paramètres)
  • Un gestionnaire d’exécution

Mode Opératoire WebMCP

Contrairement au MCP traditionnel, WebMCP ne dépend pas d’un serveur JSON-RPC séparé. La page web elle-même devient le fournisseur de l’outil et l’exécution se fait dans l’environnement JavaScript de l’application.

Spécification Formelle

La spécification formelle est en cours de développement sous le groupe de travail de la W3C sur la machine learning web, disponible ici.

Exposition des outils et modèle d’exécution

Illustration tech

WebMCP définit comment les capacités sont exposées et invoquées par les agents au sein du runtime du navigateur. Il supporte deux modèles d’exposition :

API Déclarative (basée sur HTML)

Les formulaires peuvent être annotés avec des métadonnées qui permettent l’enregistrement automatique de l’outil. Le navigateur tire la définition de l’outil à partir des entrées du formulaire, ce qui permet d’exécuter simplement les actions par un agent IA sans nécessité de JavaScript supplémentaire.

API Impérative (basée sur JavaScript)

Les développeurs peuvent enregistrer des outils de manière programmique avec :

1
navigator.modelContext.registerTool({...})

Cette méthode offre un contrôle complet sur les schémas d’entrée et la logique d’exécution, ce qui permet des capacités dynamiques, conscientes de l’état ou complexes.

Trajectoire d’Exécution

Lorsqu’un agent IA charge une page WebMCP :

  1. Le navigateur expose les outils enregistrés.
  2. L’agent inspecte les capacités disponibles.
  3. L’agent invoque un outil sélectionné avec des paramètres structurés.
  4. Le gestionnaire exécute l’action dans le contexte de la page active.
  5. Une réponse structurée est renvoyée à l’agent.

L’aspect clé de WebMCP réside dans sa localité. L’exécution de l’outil se fait directement dans la session du navigateur, en héritant :

  • De l’état d’authentification actuel.
  • Des cookies de session.
  • Des limites d’origine.

Cela élimine la nécessité d’un couche de transport externe ou d’une pile d’autorisation séparée.

WebMCP : Un modèle d’exécution browser-native

WebMCP introduit un modèle d’exécution médiationné par le navigateur qui connecte les agents directement aux capacités de l’application sans nécessiter une couche de transport externe.

Trajectoire Complète d’Exécution

  1. Agent IA : L’agent découvre les outils enregistrés, sélectionne un outil basé sur l’intention utilisateur, envoie des entrées structurées qui se conforment au schéma déclaré et reçoit une réponse structurée.
  2. Plan de contrôle du runtime du navigateur : Le navigateur expose navigator.modelContext, maintient le registre d’outils, valide les entrées contre les schémas, route les invocations vers le gestionnaire approprié, impose des limites d’origine et exécute les gestionnaires dans le contexte de la page active.
  3. Niveau de capacité de l’outil : Chaque outil définit une capacité nommée, son schéma d’entrée attendu et un gestionnaire d’exécution. Ces outils forment un contrat entre l’application et l’agent. Seules les capacités déclarées sont accessibles.

Applications concrètes de WebMCP

Illustration impact

Les cas d’utilisation réels de WebMCP montrent son potentiel dans divers secteurs, notamment en matière de productivité, de commerce électronique et de services financiers.

Productivité

Dans le domaine de la productivité, des applications comme les gestionnaires de tâches peuvent bénéficier de l’intégration WebMCP pour automatiser davantage les tâches administratives. Par exemple, un assistant virtuel pourrait réserver des rendez-vous en utilisant directement une API d’agenda plutôt que de naviguer sur la page web et entrer manuellement les informations.

Commerce Électronique

Pour le commerce électronique, WebMCP permettrait aux assistants IA de gérer plus efficacement les paniers d’achat. Un utilisateur pourrait utiliser des commandes vocales pour ajouter ou supprimer des articles sans avoir besoin d’interagir avec l’interface graphique.

Services Financiers

Dans le domaine des services financiers, WebMCP pourrait permettre aux robots d’assistance de gérer les transactions et les transferts d’argent plus efficacement. Cela réduit la nécessité pour les utilisateurs de naviguer manuellement sur leur compte bancaire en ligne.

Conclusion

WebMCP offre une vision prometteuse de ce que l’avenir peut apporter en matière d’intégration de l’IA dans les applications web, révolutionnant ainsi notre façon de concevoir et d’utiliser le web moderne. Bien qu’elle soit encore en phase préliminaire, son potentiel pour améliorer la performance et la fiabilité des interactions humain-machine est indéniable.