Est-ce que c’est possible de scrapper les factures des différents sites comme ceux de logiciels avec les api?
Dans un monde idéal j’aimerais scrapper les factures de tous mes abonnements et que ce soit sauvegardé sur Google Drive et envoyé à une adresse courriel qb
En gros : oui, c’est faisable, mais il y a deux ligues.
Plateformes avec API officielle
• Stripe : GET /v1/invoices → champ invoice_pdf (URL directe).
• Paddle : ListSubscriptionPayments → receipt_url.
• Recurly, Chargebee, Shopify, Google Workspace, etc. : même principe.
Pipeline minimal :
Cloud Function / Lambda (Python)
Drive API v3 files.create → dossier « Factures ».
Gmail API users.messages.send pour l’envoi.
Cron (Cloud Scheduler) chaque nuit.
Sites sans API
• Headless browser (Playwright ou Puppeteer).
• Login + MFA → stocke les cookies dans Secret Manager.
• Scrape le HTML, récupère le lien PDF, télécharge.
• Implémente des tests parce que l’UI change tout le temps → fragile + souvent contre leurs TOS.
No-code rapide
• Zapier / Make : « New Paid Invoice in Stripe » → « Upload File to Google Drive » → « Send Email ».
• Google Apps Script : cherche dans Gmail subject:facture filename:pdf newer_than:7d, enregistre la PJ sur Drive, puis forwarde.
Sécurité
• OAuth + refresh tokens chiffrés (Secret Manager).
• Service Account pour Drive → évite de partager tes factures avec toute la boîte.
@Vicky2 Oui, c’est tout à fait faisable de scraper tes factures automatiquement. Voici comment procéder:
Deux approches principales:
Sites avec API (facile):
Stripe, Paddle, AWS, Google Cloud, etc. offrent des API qui permettent de récupérer directement les factures
C’est stable et conforme aux conditions d’utilisation
Sites sans API (plus complexe):
Utiliser un navigateur headless (Playwright/Puppeteer)
Automatiser la connexion et le téléchargement des PDF
Attention: peut enfreindre les conditions d’utilisation et casser facilement
Options pour l’implémentation:
Option no-code (rapide):
Zapier/Make: connecte tes services et automatise les téléchargements
IFTTT: solution plus simple mais moins flexible
Parsehub/Octoparse: pour le scraping visuel
Option code (plus personnalisable):
# Exemple très simplifié pour Stripe
import stripe, requests, os
from google.oauth2 import service_account
from googleapiclient.discovery import build
from googleapiclient.http import MediaFileUpload
stripe.api_key = "sk_test_..."
invoices = stripe.Invoice.list(limit=10)
# Télécharger et sauvegarder
for invoice in invoices.data:
if invoice.invoice_pdf:
r = requests.get(invoice.invoice_pdf)
filename = f"facture_{invoice.number}.pdf"
with open(filename, 'wb') as f:
f.write(r.content)
# Upload sur Drive
# Envoyer par email
Pour les sauvegardes et envois:
Google Drive API pour sauvegarder les fichiers
Gmail API ou SMTP pour les envois de courriels
Tu veux une solution clé en main ou tu préfères développer toi-même? Quels services spécifiques utilises-tu?
Si tu cliques sur « Worked for 3 minutes » tu devrais voir la replay vidéo!
Perso, si j’avais à faire ce que tu veux faire, je créerais un sub-agent dans claude-caude et je lui donnerais le MCP Playwright.
Il y a « code » dans le nom, mais ça fait BEAUCOUP plus que juste programmer!
C’est encore très geek, mais c’est pas mal ça le « bleeding edge » côté IA en ce moment! Je suis moi-même en train de tester tout ce qui sort alors c’est difficile de créer du contenu pour des gens « normaux » alors que ça change si rapidement!
@Olivier_Lambert Ah oui, le MCP (Model Context Protocol) avec Playwright, c’est exactement le sweet spot pour l’automatisation de scraping!
La fonction Agent de ChatGPT est effectivement impressionnante pour les tâches simples, mais pour du scraping récurrent de factures, Claude Desktop avec les MCP servers reste plus flexible.
Pour @Vicky2, voici l’approche optimale avec les outils actuels:
Solution avec Claude Desktop + MCP Playwright:
Installer Claude Desktop
Ajouter le MCP Playwright dans claude_desktop_config.json
Le truc cool: tu peux littéralement dire à Claude « va sur stripe.com, connecte-toi avec mes credentials, télécharge toutes les factures de 2024 » et il va exécuter ça step by step.
Pour les sites récalcitrants sans API, Playwright peut même contourner les détections anti-bot avec des stratégies comme:
Rotation de user-agents
Délais aléatoires entre actions
Émulation de mouvements de souris
@Vicky2, si tu veux tester, commence avec un seul fournisseur pour voir si l’approche te convient avant d’automatiser tout ton stack!