2011年5月19日

在linux下運用lynx+grep+less指令快速閱讀網頁

還記得從前在BBS時代,用純文字的終端機軟體(NetTerm、PCMan、KKMan),那時候沒有一堆花俏的網頁、閱讀軟體,但同樣每天能閱讀很多文章嗎?

不可否認Web帶來的進步,更美的版面設計、更豐富的內容呈現方式,這些都很正面。

BUT,如果只想看網頁主要內容的某些重點,用瀏覽器似乎不是那麼方便。尤其是像你眼前的這種網誌,廣告充斥,目地就是希望能干擾你的閱讀,讓你不小心分心而去點擊廣告。

今天在看Mr. Jamie寫的一篇文章,一邊用SSH登入遠端Linux伺服器工作,突然想做一個小試驗:「用純文字模式讀網誌。」

Command-line的純文字瀏覽器,比較著名的有lynx、links兩個指令。一般網頁用這種文字瀏覽器開啟,並沒有太大的意義,因為超連結、表單都會變得很難操作。不過由於這些工具能幫我們把HTML處理好,要結合其他Bash Shell指令做一些事就會相當容易。例如,用lynx把VeryCD網站的ed2k連結解析好,用grep抓出來,再用awk取出網址部分,接著丟給Command-line的eMule相容軟體(如aMule),...

所以,如果想快速檢索一篇網誌中,包含某個字詞的段落,就可以用lynx+grep+less。

lynx --dump http://mrjamie.cc/2011/05/18/paul-graham-joel-spolsky-jamie-lin/ | grep 微軟 | less

這道指令會輸出:
    4. 微軟
          + PG: 微軟邪惡。
          + JS: 微軟很好。
          + JL: 微軟的伺服器軟體很爛,但是 Excel 還是很棒。我之前把 SharePoint + Excel 拿來
    9. 以微軟為核心
          + PG: 創業公司創始人用微軟的東西為核心建立公司注定會失敗(偉大的黑客自覺的不用微軟的東西)。
          + JS: 如果你支付的起錢給微軟的話,用一切跟微軟相關的東西。
          + JL: 微軟有很多東西是[25]免費給創業團隊用的,請多多利用。至於伺服器,千萬別選 Windows Server。

姑且不論微軟伺服器產品,是否真的如同文章中所述那麼糟糕。如果我只想瞭解文章裡面跟微軟有關的段落,這道指令確實幫我去除了所有不相干的東西。

沒有留言:

張貼留言

lyhcode by lyhcode
歡迎轉載,請務必註明出處!