ANAVEM
Languageen
Terminal showing Papeer web scraping progress with ebook conversion
Open SourceOpen SourceGo

Papeer

Papeer est un outil de scraping web en ligne de commande construit en Go qui convertit les sites web et les flux RSS en ebooks et fichiers markdown propres et lisibles. Conçu spécifiquement pour les liseuses, il élimine les publicités et la navigation pour ne conserver que le contenu essentiel.

Evan MaelEvan Mael
27 mars 2026 12 min 346
346 Stars GoOpen Source 12 min
Presentation

Presentation

Qu'est-ce que Papeer ?

Papeer est un outil de scraping web spécialisé conçu pour l'ère de l'encre électronique, créé par le développeur lapwat et publié pour la première fois en septembre 2021. Écrit en Go, cet utilitaire en ligne de commande répond à un besoin spécifique : convertir le contenu web en formats optimisés pour les liseuses comme Kindle, les tablettes reMarkable et autres appareils de lecture numérique.

La principale force de l'outil réside dans sa capacité à extraire un contenu propre et lisible des sites web tout en préservant le formatage essentiel comme le texte en gras, les italiques, les liens et les images. Contrairement aux scrapers à usage général, Papeer se concentre sur la création d'expériences de lecture sans distraction en supprimant automatiquement les publicités, les menus de navigation et autres encombrements web à l'aide de la bibliothèque go-readability.

Avec 346 étoiles et 25 forks sur GitHub en mars 2026, Papeer s'est taillé une niche parmi les développeurs et les passionnés de lecture numérique qui souhaitent convertir des articles web, de la documentation et des sites entiers en formats d'ebook portables.

Commencer

L'installation est simple avec plusieurs options disponibles. Pour les développeurs Go, la méthode la plus simple est d'utiliser go install :

go install github.com/lapwat/papeer@latest

Alternativement, vous pouvez télécharger des binaires pré-compilés depuis la page des releases GitHub pour votre plateforme spécifique. L'outil ne nécessite aucune dépendance supplémentaire pour une fonctionnalité de base.

Pour les utilisateurs qui ont besoin du support du format MOBI (bien que Kindle prenne désormais en charge EPUB), vous devrez installer kindlegen sur Linux :

TMPDIR=$(mktemp -d -t papeer-XXXXX)
curl -L https://github.com/lapwat/papeer/releases/download/kindlegen/kindlegen_linux_2.6_i386_v2_9.tar.gz > $TMPDIR/kindlegen.tar.gz
tar xzvf $TMPDIR/kindlegen.tar.gz -C $TMPDIR
chmod +x $TMPDIR/kindlegen
sudo mv $TMPDIR/kindlegen /usr/local/bin
rm -rf $TMPDIR

Une fois installé, vérifiez l'installation en exécutant :

papeer --help

Utilisation et exemples pratiques

L'interface en ligne de commande de Papeer est construite autour de deux commandes principales : list pour prévisualiser la structure du contenu et get pour le scraping réel.

Scraping d'une seule page

Le cas d'utilisation le plus simple consiste à scraper une seule page web :

papeer get https://example.com/article

Cela crée un fichier Markdown avec le contenu nettoyé. Pour spécifier différents formats de sortie :

papeer get https://example.com/article --format=epub
papeer get https://example.com/article --format=html --output="my-article"

Scraping de documentation de site web

L'une des fonctionnalités les plus puissantes de Papeer est le scraping de sites de documentation entiers. Tout d'abord, utilisez la commande list pour prévisualiser la table des matières :

papeer list https://12factor.net/ --selector='section.concrete>article>h2>a'

Cela affiche une liste numérotée de toutes les pages qui seraient scrappées. Une fois satisfait de la structure, lancez le scraping réel :

papeer get https://12factor.net/ --selector='section.concrete>article>h2>a' --format=epub

L'outil créera un ebook complet avec toutes les pages de documentation en tant que chapitres, avec une table des matières.

Options avancées

Papeer offre un contrôle précis sur le processus de scraping :

# Limiter aux 10 premiers chapitres
papeer get https://docs.example.com --selector='nav a' --limit=10

# Ignorer les 5 premiers chapitres, ordre inverse
papeer get https://blog.example.com --selector='.post-link' --offset=5 --reverse

# Ajouter des délais entre les requêtes (scraping respectueux)
papeer get https://example.com --selector='a.chapter' --delay=1000 --threads=2

Performance et benchmarks

Construit en Go, Papeer offre des caractéristiques de performance solides. La capacité de téléchargement concurrent de l'outil lui permet de traiter plusieurs pages simultanément, avec le nombre de threads configurable via l'option --threads. Dans les scénarios de test, Papeer peut traiter des sites de documentation avec des dizaines de pages en moins d'une minute, selon les conditions du réseau et les temps de réponse du serveur cible.

L'utilisation de la mémoire reste modeste même lors du traitement de grands sites, car l'outil diffuse le contenu plutôt que de tout charger en mémoire simultanément. La bibliothèque go-readability ajoute un surcoût minimal tout en apportant une valeur significative dans le nettoyage du contenu.

Le mécanisme de délai intégré aide à maintenir des pratiques de scraping respectueuses, évitant la surcharge des serveurs tout en maintenant des vitesses de traitement raisonnables.

Qui devrait utiliser Papeer ?

Papeer cible plusieurs groupes d'utilisateurs spécifiques :

Passionnés de lecture numérique : Les utilisateurs qui préfèrent lire du contenu web sur des liseuses trouveront Papeer inestimable pour convertir des articles, de la documentation et des billets de blog en formats de lecture confortables.

Développeurs et rédacteurs techniques : Ceux qui ont besoin de convertir de la documentation technique, des références API ou des séries de tutoriels en formats lisibles hors ligne pour référence ou distribution.

Chercheurs et étudiants : Les utilisateurs académiques qui souhaitent compiler des matériaux de recherche basés sur le web en formats d'ebooks organisés et consultables pour une étude et une annotation plus faciles.

Curateurs de contenu : Les individus qui agrègent du contenu de plusieurs sources et ont besoin de le présenter dans un format unifié et professionnel.

L'outil est moins adapté aux utilisateurs qui ont besoin d'interfaces graphiques, de surveillance de contenu en temps réel ou d'intégration avec des systèmes de gestion de contenu.

Verdict

Papeer excelle dans sa niche spécifique de conversion de contenu web pour la consommation sur liseuses. Son extraction de contenu intelligente, son support de formats multiples et ses capacités de scraping récursif en font un outil puissant pour quiconque est sérieux au sujet de la lecture numérique. Bien que l'interface en ligne de commande et les exigences en matière de sélecteurs CSS créent une courbe d'apprentissage, les résultats justifient l'effort pour les utilisateurs qui consomment régulièrement du contenu web sur des liseuses. Le développement actif et la licence GPL-3.0 garantissent une viabilité à long terme, faisant de Papeer un choix solide pour les flux de travail de conversion web en ebook.

Capacites

Fonctionnalites cles

  • Exportation multi-format : Convertir des sites web en formats Markdown, HTML, EPUB et MOBI
  • Nettoyage intelligent du contenu : Supprime automatiquement les publicités, la navigation et les éléments indésirables en utilisant go-readability
  • Extraction récursive de sites web : Suivre les menus de navigation et les liens pour extraire des sites web entiers
  • Traitement des flux RSS : Convertir les flux RSS en ebooks organisés
  • Support des sélecteurs CSS : Cibler des zones de contenu spécifiques avec des sélecteurs CSS précis
  • Téléchargements concurrents : Traitement multi-thread pour une extraction plus rapide des grands sites
  • Mode proxy HTTP : Fonctionner comme un proxy de filtrage pour le traitement de contenu en temps réel
  • Suivi de progression : Barres de progression visuelles pour les opérations multi-pages
  • Métadonnées personnalisables : Définir l'auteur, le titre et d'autres propriétés de l'ebook
  • Multi-plateforme : Support natif pour Windows, macOS et Linux
Mise en place

Installation

Depuis Go (Recommandé)

go install github.com/lapwat/papeer@latest

Depuis le binaire

Téléchargez la dernière version pour votre plateforme :

# Linux/macOS
wget https://github.com/lapwat/papeer/releases/latest/download/papeer-linux-amd64
chmod +x papeer-linux-amd64
sudo mv papeer-linux-amd64 /usr/local/bin/papeer

Support MOBI (Linux uniquement)

TMPDIR=$(mktemp -d -t papeer-XXXXX)
curl -L https://github.com/lapwat/papeer/releases/download/kindlegen/kindlegen_linux_2.6_i386_v2_9.tar.gz > $TMPDIR/kindlegen.tar.gz
tar xzvf $TMPDIR/kindlegen.tar.gz -C $TMPDIR
chmod +x $TMPDIR/kindlegen
sudo mv $TMPDIR/kindlegen /usr/local/bin
rm -rf $TMPDIR
Utilisation

Guide d'utilisation

Grattage de Page Unique de Base

# Gratter une page unique en Markdown
papeer get https://example.com/article

# Exporter au format EPUB
papeer get https://example.com/article --format=epub

# Nom de fichier de sortie personnalisé
papeer get https://example.com/article --output="my-article" --format=html

Grattage de Documentation de Site Web

# Prévisualiser d'abord la table des matières
papeer list https://12factor.net/ --selector='section.concrete>article>h2>a'

# Gratter l'ensemble du site de documentation
papeer get https://12factor.net/ --selector='section.concrete>article>h2>a' --format=epub

Options Avancées

# Limiter les chapitres et ajouter des délais
papeer get https://docs.example.com --selector='nav a' --limit=10 --delay=1000

# Ignorer les premiers chapitres, inverser l'ordre
papeer get https://blog.example.com --selector='.post-link' --offset=5 --reverse

# Définir des métadonnées personnalisées
papeer get https://example.com --author="John Doe" --name="My Book" --format=epub
Evaluation

Avantages & Inconvenients

Avantages
  • Conçu spécialement pour le contenu des liseuses avec un excellent support de format
  • L'extraction de contenu intelligent supprime automatiquement les publicités.
  • Le scraping récursif gère les structures de sites web complexes
  • Multiplateforme avec un processus d'installation simple
  • Développement actif avec des mises à jour récentes
  • Grattage respectueux avec contrôle de délai et de concurrence
  • Mode aperçu pour la vérification de la structure du contenu
Inconvenients
  • Interface en ligne de commande uniquement
  • Nécessite des connaissances en sélecteurs CSS pour des scénarios complexes
  • Documentation limitée pour les cas d'utilisation avancés
  • Aucune fonctionnalité de planification ou d'automatisation intégrée
  • La prise en charge de MOBI nécessite une configuration Linux supplémentaire.
  • Communauté plus petite que les outils à usage général
Autres options

Alternatives

Calibre

Suite complète de gestion d'ebooks avec extraction de données à partir de sources d'actualités, plus complexe mais riche en fonctionnalités

En savoir plus

Pandoc

Convertisseur de documents universel capable de gérer le contenu web mais nécessitant une extraction manuelle du contenu

En savoir plus

Scrapy

Cadre de web scraping Python offrant plus de flexibilité mais nécessitant un travail de développement important

En savoir plus

Mercury Parser

API d'extraction de contenu Web axée sur l'analyse d'articles mais sans génération d'ebooks

En savoir plus

Questions frequentes

Papeer est-il gratuit à utiliser ?+
Oui, Papeer est entièrement gratuit et open source sous la licence GPL-3.0. Vous pouvez l'utiliser, le modifier et le distribuer librement.
Comment Papeer se compare-t-il à Calibre pour le web scraping ?+
Papeer est plus axé et plus facile à utiliser pour la conversion web en ebook, tandis que Calibre offre des fonctionnalités de gestion d'ebooks plus larges mais nécessite une configuration plus complexe pour le web scraping.
Quels formats de liseuse Papeer prend-il en charge ?+
Papeer prend en charge les formats EPUB (recommandé pour les liseuses modernes), MOBI (pour les anciens Kindles), Markdown, HTML et JSON. EPUB fonctionne sur la plupart des liseuses actuelles, y compris Kindle.
Puis-je utiliser Papeer pour extraire des données de n'importe quel site web ?+
Papeer peut extraire la plupart des sites web, mais l'efficacité dépend de la structure du site. Il fonctionne mieux avec les sites axés sur le contenu et peut rencontrer des difficultés avec les pages fortement dépendantes de JavaScript.
Quel est le niveau d'activité du développement de Papeer ?+
Très actif - le projet a été mis à jour pour la dernière fois en mars 2026 avec la version 0.8.7 publiée en décembre 2025. Le développeur maintient et améliore régulièrement l'outil.
References

Ressources officielles (3)

Evan Mael
Ecrit par

Evan Mael

Microsoft MCSA-certified Cloud Architect | Fortinet-focused. I modernize cloud, hybrid & on-prem infrastructure for reliability, security, performance and cost control - sharing field-tested ops & troubleshooting.

Intelligence Complémentaire

Approfondissez vos connaissances

Discussion

Partagez vos réflexions et analyses

Connectez-vous pour participer