テキストファイルに列挙されているURLを利用して該当サイトのトップページHTMLをwgetで保存する
メモ用エントリ。
http://hideack.hatenablog.com/ http://www.remp.jp/ http://www.storyboards.jp/
の様なURLが列挙されたテキストファイルが手元にあったときに wget
を利用してトップページのHTMLファイルを特定のディレクトリに保存することをしたいと思ったので数少ない知識を活用して試してみた。
xargs
と wget
でこんな感じで試してみたのだけれどもどうだろう。MacOSだとデフォルトで入っている xargs
だとGNU拡張オプションの -a
のオプションが使えなかったのでbrewで
$ brew install findutils
で、 gxargs
を入れて以下の様な形。
$ gxargs -a urls.txt -I {} wget -t 1 -T 3 -w 0.5 -O archives/{}.html {} --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
- リトライは一回 (-t)
- タイムアウトは3秒 (-T)
- 出力はarchivesディレクトリ以下に "URL名.html" (-O)
- UserAgentはChromeとして認識させる (--user-agent)
- リクエスト間隔は0.5秒 (-w)
こうすることでURL一覧のテキストファイルで与えたサイトのトップページのHTMLを一つのディレクトリに保存していくことができる。