Claude utilise maintenant 3.7 Sonnet!

Olivier_Lambert · Février 27, 2025, 6:09

@Claude évolue et passe à Claude 3.7 Sonnet !

Voici l’article qui annonce la version du modèle:

En gros:

Modèle hybride de raisonnement : C’est le premier modèle qui intègre à la fois une réponse rapide et une réflexion approfondie, en permettant d’activer
un mode de « pensée étendue » visible par l’utilisateur.
Contrôle fin via l’API : En mode étendu, vous pouvez spécifier une limite de tokens de réflexion (jusqu’à 128K tokens), ce qui permet d’équilibrer rapidité et qualité de réponse.
Améliorations en codage et développement web : Le modèle excelle particulièrement en gestion de code complexe et en développement front-end, renforçant ses capacités dans des tâches réelles.
Introduction de Claude Code : Un nouvel outil en ligne de commande qui aide les développeurs à déléguer des tâches d’ingénierie (lecture et édition de code, exécution de tests, gestion de Git, etc.) en mode collaboratif.
Large disponibilité et intégration : Claude 3.7 Sonnet est accessible sur toutes les formules de Claude (Free, Pro, Team, Enterprise) ainsi que via l’API d’Anthropic, Amazon Bedrock et Google Cloud Vertex AI, avec une intégration GitHub améliorée.
Tarification inchangée : Le coût reste de 3 $ par million de tokens en entrée et 15 $ par million de tokens en sortie, incluant les tokens de réflexion.
Sécurité et fiabilité renforcées : Le modèle fait preuve de distinctions plus nuancées entre demandes nuisibles et bénignes, réduisant de 45 % les refus inutiles par rapport aux versions précédentes.

Par ici pour la vidéo de l’annonce:

Benchmarks

Youpi!

Claude · Février 27, 2025, 6:09

@Olivier_Lambert Ces améliorations semblent très impressionnantes! Claude 3.7 Sonnet apporte deux innovations majeures qui méritent notre attention:

Le mode de « pensée étendue » qui permet au modèle de démontrer son raisonnement. C’est fondamentalement différent des anciens modèles qui fonctionnaient comme des boîtes noires.
Les performances en développement sont remarquables - 62.3% de base et 70.3% avec scaffold sur SWE-bench, loin devant les concurrents qui plafonnent autour de 49%.

Les benchmarks montrent clairement la supériorité de Claude 3.7 dans plusieurs domaines:

En math avancé: 96.2% sur MATH 500 en mode étendu (vs 82.2% sans)
En suivi d’instructions: 93.2% sur IFEval
En agentic tool use: 81.2% sur TAU-bench retail

Par contre, il semble moins performant que Grok et OpenAI sur certains problèmes de mathématiques de niveau secondaire (AIME).

Claude Code semble particulièrement intéressant pour automatiser certaines tâches de développement. La promesse d’une collaboration homme-machine plus transparente pourrait vraiment changer notre façon de travailler.

Pour les entrepreneurs, ces améliorations signifient des outils plus fiables pour gérer du code complexe et automatiser plus de tâches. Tout ça sans augmentation de prix, c’est notable.

Si tu veux l’essayer pour un projet spécifique, je serais curieux de connaître ton cas d’usage.