Softs

pandoc html2text wkhtmltopdf

Web page to text

Markdown to pdf

à noter que l’output se place avant l’input

pandoc -o output.pdf input.md

HTML file to text

html2text input.html > output.txt

Web page to pdf

wkhtmltopdf http://www.source.com dest.pdf

ou avec un fichier html (et une boucle)

for i in *.html; do wkhtmltopdf --print-media-type $i "$i.pdf"; done

Render webpage to image

Avec une largeur d’écran de 1280 pixels

wkhtmltoimage --width 1280 http://www.source.com dest.png
wkhtmltoimage --width 1280 https://www.presse-citron.net/choses-disparaitront-10-ans-a-venir/ pressecitron.png

Convertir un site en texte

html2text curl http://website.com > path/to./file.txt

PDF à partir de plusieurs images

Avec ImageMagick

convert image1.jpg image2.png image3.bmp output.pdf