Claude Opus 4.8 est-il vraiment meilleur qu'Opus 4.7 ?

Sur certains axes oui : Opus 4.8 est 4 fois plus précis sur le code et réduit l'hallucination de 95% par rapport aux modèles précédents. En revanche, il n'améliore pas ses réponses en augmentant son niveau de raisonnement, contrairement à ce que le marketing laisse entendre.

Faut-il utiliser la fonction Ultra Code d'Opus 4.8 ?

Avec prudence. Ultra Code promet des workflows autonomes de 10 jours avec des centaines d'agents en parallèle. Mais la documentation officielle montre que le modèle ne gagne rien en performance avec plus de raisonnement, et le score de rappel sur 1 million de tokens n'est pas communiqué. Le risque : payer très cher sans résultat proportionnel.

Comment adapter ses prompts pour Claude Opus 4.8 ?

Trois changements obligatoires : (1) Si vous utilisez des agents IA, passez le niveau de raisonnement en 'high' minimum — sinon le modèle n'activera pas les outils. (2) Structurez vos prompts avec des balises XML pour les sections script, instruction, contexte, input. (3) Justifiez pourquoi vous demandez d'utiliser ou non un outil, Opus 4.8 l'exige explicitement.

IA & Business

Claude Opus 4.8 : ce qu'Anthropic ne vous dit pas

Rodolphe Le Houx · 29 mai 2026 · 5 min de lecture

Interface IA Anthropic Claude en cours d utilisation

J'ai lu les 244 pages du system card d'Opus 4.8 pendant que tout le monde partageait le communiqué de presse.

Voici ce que j'y ai trouvé.

1. Le chiffre qu'Anthropic ne publie pas

1 million de tokens de contexte, c'est le slogan. Ce n'est pas la vraie question.

La vraie question : combien de ces tokens le modèle retrouve réellement ? Opus 4.6 était à 80 %. Opus 4.7 est tombé à 32 %. Anthropic ne l'a jamais annoncé.

Pour Opus 4.8 ? Ils ne donnent pas le score. Quand une boîte cache une métrique sur son nouveau produit, tirez vos propres conclusions.

Tout Ultra Code repose sur cette gestion du contexte. Si le score est mauvais, vous payez pour une promesse que le système ne peut pas tenir.

2. Opus 4.7 vous mentait

Lors du benchmark Wingman 2 (gérer un commerce en autonomie), Opus 4.7 avait explosé tous les records : 11 000 dollars récoltés contre 5 à 6 000 pour les autres modèles.

Ce qu'Anthropic n'a pas dit : le modèle triquait. Il mentait aux utilisateurs pour atteindre ses objectifs. Jamais mentionné dans la documentation officielle.

Opus 4.8 corrige ça. C'est le modèle le plus éthique de la série : 95 % d'hallucination en moins, 4x plus précis sur le code, quasi zéro sycophantie.

Quand il dit que c'est fait, c'est fait. C'est nouveau.

3. Vos anciens prompts ne fonctionnent plus

Opus 4.8 a lié trois choses ensemble : profondeur de réponse, verbosité et activation des outils. Vous ne pouvez plus les découpler.

Si vous utilisez des agents IA : en mode low ou medium, le modèle n'activera aucun outil. Il utilise uniquement sa base de connaissance (janvier 2026). Passez en high minimum. En mode XI pour les workflows complexes.

Trois autres changements concrets :

Structurez en XML. Les sections script, instruction, contexte, input, documents : tout doit être en balises XML. La précision est nettement meilleure.

Justifiez l'usage des outils. Nouveau : vous devez expliquer pourquoi vous demandez l'activation ou non d'un outil. Le modèle l'exige explicitement.

Arrêtez les rôles génériques. Anthropic le recommande encore. J'ai testé avec Opus 4.8 directement : le modèle réfute lui-même ce conseil. Un rôle trop vague n'apporte rien, un rôle trop spécifique contraint les réponses.

4. Ultra Code : la promesse vs la réalité

Centaines d'agents en parallèle, 10 jours de travail autonome, 500 fichiers gérés sans intervention. C'est la promesse.

La documentation dit autre chose. Plus de raisonnement ne produit aucun gain de performance. C'est écrit dans le system card. Sur tous les benchmarks testés, augmenter le raisonnement au maximum ne change rien. Les autres modèles progressent. Opus 4.8 reste au même niveau.

Si vous lancez 10 jours de workflow à plusieurs centaines d'agents et que vous n'obtenez pas le résultat attendu, c'est vous qui avez payé la facture. Pas Anthropic.

Ce qui est vraiment utile dans cette mise à jour : la console de workflow. Voir en temps réel quelle étape tourne, quel agent est appelé, combien de tokens consommés. C'est concret, c'est utilisable maintenant.

Ce qu'il faut en faire contrètement

Opus 4.8 est un modèle de spécialiste. Il excelle sur le code (4x plus précis pour détecter les failles), le juridique et l'analyse documentaire (hallucination quasi nulle, comparaison fine de documents), et la data où la fiabilité prime.

Ce n'est pas un couteau suisse amélioré. Sur les questions générales et le raisonnement pur, il n'est pas meilleur que 4.7.

Changez vos niveaux de raisonnement si vous utilisez des agents. Testez la console workflow sur des tâches courtes avant de lancer des workflows longs. Et attendez les retours terrain sur Ultra Code avant d'y mettre du budget.

Vous utilisez l'IA dans votre business ?

On travaille ensemble pour identifier où elle peut avoir le plus d'impact dans votre activité et l'implémenter concrètement.

Réserver un appel →