HTMLファイルをパースするコマンド

apt-get install html-xml-utils

curl http://www.yahoo.co.jp/ > /tmp/yahoo
hxselect -c html < /tmp/yahoo

参考リンク