Claude 3.5 peut maintenant prendre le contrôle de ton ordinateur!

Olivier_Lambert · Octobre 23, 2024, 5:01

Une partie de moi est comme, wow, oh my god, c’est tellement hot.

L’autre partie de moi est comme… Damn guys, enfin? Vous en avez mis du temps!

Tl;DR

Anthropic a lancé deux nouveaux modèles, Claude 3.5 Sonnet et Claude 3.5 Haiku, avec des améliorations dans l’utilisation d’outils et le codage.

Le bout qui m’intéresse, c’est plus la sortie de leur API « Computer Use ».

github.com

anthropics/anthropic-quickstarts/blob/main/computer-use-demo/README.md

# Anthropic Computer Use Demo

> [!CAUTION]
> Computer use is a beta feature. Please be aware that computer use poses unique risks that are distinct from standard API features or chat interfaces. These risks are heightened when using computer use to interact with the internet. To minimize risks, consider taking precautions such as:
>
> 1. Use a dedicated virtual machine or container with minimal privileges to prevent direct system attacks or accidents.
> 2. Avoid giving the model access to sensitive data, such as account login information, to prevent information theft.
> 3. Limit internet access to an allowlist of domains to reduce exposure to malicious content.
> 4. Ask a human to confirm decisions that may result in meaningful real-world consequences as well as any tasks requiring affirmative consent, such as accepting cookies, executing financial transactions, or agreeing to terms of service.
>
> In some circumstances, Claude will follow commands found in content even if it conflicts with the user's instructions. For example, instructions on webpages or contained in images may override user instructions or cause Claude to make mistakes. We suggest taking precautions to isolate Claude from sensitive data and actions to avoid risks related to prompt injection.
>
> Finally, please inform end users of relevant risks and obtain their consent prior to enabling computer use in your own products.

This repository helps you get started with computer use on Claude, with reference implementations of:

* Build files to create a Docker container with all necessary dependencies
* A computer use agent loop using the Anthropic API, Bedrock, or Vertex to access the updated Claude 3.5 Sonnet model
* Anthropic-defined computer use tools
* A streamlit app for interacting with the agent loop

This file has been truncated. show original

On peut voir une démo du concept ici:

En gros, on donne une tâche à l’agent de Claude et il l’accompli en prenant le contrôle de ton ordinateur. Il peut faire tout ce qu’un humain peut faire: bouger la souris, cliquer, écrire, etc.

Un peu comme Open Code Interpreter, mais en mieux.

Pour l’annonce complète:

Robolivier · Octobre 23, 2024, 5:01

Ah, Anthropic qui se met à contrôler nos ordinateurs! C’est à la fois fascinant et légèrement flippant, non? L’idée que Claude puisse manipuler ton ordi comme un humain, c’est un peu comme donner les clés de la maison à un robot. Mais bon, vu toutes les précautions mentionnées, ils prennent quand même ça au sérieux.

Si tu veux explorer ça, je te conseille de bien lire les avertissements sur la sécurité. Utiliser une machine virtuelle, c’est un must. Et surtout, garde tes infos sensibles bien à l’abri.

T’en penses quoi, toi? Prêt à laisser Claude jouer avec ta souris?

Olivier_Lambert · Octobre 23, 2024, 5:03

La plupart des exemples qu’il donne au niveau des cas d’usage est fait dans un environnement sandbox contrôlé.

Il crée une machine virtuelle et limite l’AI pour ne pas qu’il puisse accéder à des informations sensibles ou faire des actions qui pourraient avoir des consequences négatives.

Le modèle est également susceptible aux attaques de « prompt injection », c’est-à-dire qu’il navigue sur un site web où un prompt est présent dans le contenu qui overtake la directive principale de l’utilisateur.

Bref, tout ça est encore en bêta, il y a beaucoup de kink à repasser, mais le potentiel est là!!

Robolivier · Octobre 23, 2024, 5:03

Exactement! Le potentiel est énorme, mais il y a clairement des ajustements à faire. Le fait de devoir gérer le risque des « prompt injections » ajoute une couche de complexité. Tant que l’outil reste dans un environnement contrôlé, c’est une belle avancée pour automatiser certaines tâches.

Tu as déjà des idées de comment tu pourrais l’utiliser, ou tu préfères attendre que ça devienne un peu plus stable?

ntone.f · Octobre 26, 2024, 12:05

Salut Olivier,

Merci pour cette mise à jour concernant Claude. J’ai vu la démo en vidéo et celle de différents créateur de contenu et je n’arrete pas de me demander, quelles sont les cas d’usage aujourd’hui qui ferai de cette feature un indispensable dans son process et à qui cela s’adresse t’il réllement.

Si tu as des pistes de réflexion je suis preneur.

Merci

Olivier_Lambert · Octobre 29, 2024, 3:45

Est-ce que tu te souviens du Rabbit R1??

Il y avait beaucoup de hype parce que le concept derrière est quand même intéressant. L’idée est qu’une intelligence artificielle soit en mesure d’effectuer des actions à ta place dans un GUI.

De cette façon, tu peux dire à ton AI de commander un Uber, ou encore du DoorDash, et ton IA va faire ces actions pour toi dans une machine virtuelle Android où il a les mêmes applications que toi d’installé.

Je ne sais pas à quel point on va pouvoir laisser un IA contrôler son propre organisateur. Je trouve que c’est un peu dangereux. Par contre, laisser un agent autonome faire des actions dans des logiciels sur une machine virtuelle, c’est une autre histoire.

Notre société est conçue autour d’une interface humaine et c’est quand même un big deal de permettre à un IA d’utiliser cette interface.

On va faire un parallèle avec les balayeuses robotisées.

La meilleure façon de faire une balayeuse robotisée n’est pas le modèle « Roomba ». La meilleure façon de faire une balayeuse robotisée est de faire un robot bipède qui est capable de passer la balayeuse comme un être humain.

Notre environnement est fait pour les êtres humains. On a des escaliers à monter. On a des portes à ouvrir… Tout est fait autour de l’être humain.

Si on est capable de donner les mêmes contrôles à un IA que ceux utilisés par un être humain, on vient de permettre à cette intelligence artificielle d’utiliser les mêmes technologies que nous, et ce, sans travail additionnels. Pas d’api spécial à faire, pas de pont à programmer, etc.