Qu'est-ce que Papeer ?
Papeer est un outil de scraping web spécialisé conçu pour l'ère de l'encre électronique, créé par le développeur lapwat et publié pour la première fois en septembre 2021. Écrit en Go, cet utilitaire en ligne de commande répond à un besoin spécifique : convertir le contenu web en formats optimisés pour les liseuses comme Kindle, les tablettes reMarkable et autres appareils de lecture numérique.
La principale force de l'outil réside dans sa capacité à extraire un contenu propre et lisible des sites web tout en préservant le formatage essentiel comme le texte en gras, les italiques, les liens et les images. Contrairement aux scrapers à usage général, Papeer se concentre sur la création d'expériences de lecture sans distraction en supprimant automatiquement les publicités, les menus de navigation et autres encombrements web à l'aide de la bibliothèque go-readability.
Avec 346 étoiles et 25 forks sur GitHub en mars 2026, Papeer s'est taillé une niche parmi les développeurs et les passionnés de lecture numérique qui souhaitent convertir des articles web, de la documentation et des sites entiers en formats d'ebook portables.
Commencer
L'installation est simple avec plusieurs options disponibles. Pour les développeurs Go, la méthode la plus simple est d'utiliser go install :
go install github.com/lapwat/papeer@latestAlternativement, vous pouvez télécharger des binaires pré-compilés depuis la page des releases GitHub pour votre plateforme spécifique. L'outil ne nécessite aucune dépendance supplémentaire pour une fonctionnalité de base.
Pour les utilisateurs qui ont besoin du support du format MOBI (bien que Kindle prenne désormais en charge EPUB), vous devrez installer kindlegen sur Linux :
TMPDIR=$(mktemp -d -t papeer-XXXXX)
curl -L https://github.com/lapwat/papeer/releases/download/kindlegen/kindlegen_linux_2.6_i386_v2_9.tar.gz > $TMPDIR/kindlegen.tar.gz
tar xzvf $TMPDIR/kindlegen.tar.gz -C $TMPDIR
chmod +x $TMPDIR/kindlegen
sudo mv $TMPDIR/kindlegen /usr/local/bin
rm -rf $TMPDIRUne fois installé, vérifiez l'installation en exécutant :
papeer --helpUtilisation et exemples pratiques
L'interface en ligne de commande de Papeer est construite autour de deux commandes principales : list pour prévisualiser la structure du contenu et get pour le scraping réel.
Scraping d'une seule page
Le cas d'utilisation le plus simple consiste à scraper une seule page web :
papeer get https://example.com/articleCela crée un fichier Markdown avec le contenu nettoyé. Pour spécifier différents formats de sortie :
papeer get https://example.com/article --format=epub
papeer get https://example.com/article --format=html --output="my-article"Scraping de documentation de site web
L'une des fonctionnalités les plus puissantes de Papeer est le scraping de sites de documentation entiers. Tout d'abord, utilisez la commande list pour prévisualiser la table des matières :
papeer list https://12factor.net/ --selector='section.concrete>article>h2>a'Cela affiche une liste numérotée de toutes les pages qui seraient scrappées. Une fois satisfait de la structure, lancez le scraping réel :
papeer get https://12factor.net/ --selector='section.concrete>article>h2>a' --format=epubL'outil créera un ebook complet avec toutes les pages de documentation en tant que chapitres, avec une table des matières.
Options avancées
Papeer offre un contrôle précis sur le processus de scraping :
# Limiter aux 10 premiers chapitres
papeer get https://docs.example.com --selector='nav a' --limit=10
# Ignorer les 5 premiers chapitres, ordre inverse
papeer get https://blog.example.com --selector='.post-link' --offset=5 --reverse
# Ajouter des délais entre les requêtes (scraping respectueux)
papeer get https://example.com --selector='a.chapter' --delay=1000 --threads=2


