テキストファイルに列挙されているURLを利用して該当サイトのトップページHTMLをwgetで保存する

メモ用エントリ。

http://hideack.hatenablog.com/
http://www.remp.jp/
http://www.storyboards.jp/

の様なURLが列挙されたテキストファイルが手元にあったときに wget を利用してトップページのHTMLファイルを特定のディレクトリに保存することをしたいと思ったので数少ない知識を活用して試してみた。

xargswget でこんな感じで試してみたのだけれどもどうだろう。MacOSだとデフォルトで入っている xargs だとGNU拡張オプションの -a のオプションが使えなかったのでbrew

$ brew install findutils

で、 gxargs を入れて以下の様な形。

$ gxargs -a urls.txt -I {} wget -t 1 -T 3 -w 0.5 -O archives/{}.html {} --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"

こうすることでURL一覧のテキストファイルで与えたサイトのトップページのHTMLを一つのディレクトリに保存していくことができる。