自己寫網路爬蟲(web crawler)並不難,但是要把一個網站的幾千筆網頁掃回家,並不是三兩下就能做到,畢竟大量對一個網站存取資料,很容易被認定是惡意行為,網管肯定覺得你心懷不軌;最重要的是,所有存取都來自同一個來源(相同 IP 或網段),很容易就被擋在牆外 : )
但是要建立一個遍佈全球各地的代理伺服器網路,能夠在一聲令下就成為任你操縱的爬蟲大軍,這可不是三兩下就能完成的任務。
有鑑於此等…爬蟲需求崛起,腦筋動得快的新創公司已經把爬蟲變成 SaaS 的雲端服務;只要你願意付錢,就能找來一群爬蟲大軍幫你把需要的資料搬回家。
Grepsr
http://www.grepsr.com/
單次收費 USD $129 元起
80legs
http://80legs.com/
基本方案免費;進階每月 $29 元起
訂閱:
張貼留言 (Atom)
-
▼
2013
(133)
-
▼
1月
(50)
- Mac 一定要學的螢幕抓圖技巧,Screenshot cheat sheet for Mac OS X
- Usersnap 類似 Google Feedback 網站使用者意見回饋的雲端服務,支援螢幕擷圖與塗鴉
- Grails 網站整合 Facebook 帳號登入的 Facebook Auth plugin 介紹
- Ubuntu Linux Server 設定 GMail 為系統預設電子郵件服務
- 開啟 Ubuntu Linux Server 的自動系統安全更新與通知
- 使用 tmux 與 tmuxifier 打造 Console 開發環境(比 screen 更棒)
- 免費 Cyberduck 跨平台、支援眾多協定的網路檔案傳輸工具
- Grails 筆記 - 輕鬆實現 JavaScript 最佳化壓縮與靜態資源 CDN 佈署
- 兩個強大的 HTML5 電子書閱讀器,模擬翻頁效果且開放原始碼 Turn.js 與 20things...
- 讓 Ubuntu 的 VIM 程式碼的配色變好看
- Ubuntu Linux KVM 虛擬機器維護與 Guest OS 文字介面安裝
- Foundation 3 優秀的 Reponsive 前端框架
- Twinkle 讓 Java Swing 程式也有漂亮的 Growl-like 系統通知訊息顯示 f...
- 使用 Gradle Application Plugin 快速建立容易發佈的 Java 應用程式
- Grails 2.2 安裝 Local Plugin 的方法
- 解決 Grails Domain Date + MySQL 發生錯誤 Value '0000-00-...
- 建立可以直接執行的 Grails WAR 檔案
- 使用 AES 演算法加密字串,以 Groovy / Java 快速實作
- Grails 好用的 LinkGenerator 與 MimeUtility 隱藏版 Helper
- 多作者共筆以 Markdown 編輯,使用 Mou, Pandoc, XeTex 輕鬆製作 PDF ...
- [筆記] Ubuntu Linux 使用 apt-get 指令移除軟體並清理遺留的垃圾
- 使用 mysqldump, crontab, s3cmd 自動化異地備份資料庫到 Amazon S3...
- 觀點:開發很棒的軟體...五個成功秘訣分享(中譯摘要)
- s3cmd 檔案傳輸速度調校筆記
- Jenkins 使用 IRC Plugin 讓專案 build 訊息自動發佈到聊天室
- [筆記] 使用 Node.js 撰寫 IRC Client / Chat Bot 聊天機器人
- 在 Ubuntu 下使用 nvm 安裝 Node.js 0.4.12 版本
- Ubuntu 12.04 安裝 KVM 虛擬化筆記
- 解決 Ubuntu fd0 錯誤 /dev/fd0 floppy drive
- 【新書介紹】O'Reilly - Killer UX Design by Jodie Moule
- GitHub 使用 IRC service hook 讓 commit 訊息自動發送至 IRC 聊天室頻道
- 獲利時代(Business Model Generation)新書推薦
- 日本來回機票 6000 元有找!樂桃航空低價促銷找便宜機票
- 快速瀏覽 Grails 2.2 新功能
- 買新電腦預算與規格參考整理 2013.01
- 背包客超省錢住宿攻略(002)台南市南門勞工育樂中心
- VirtualBox 調整虛擬硬碟(*.vmdk 或 *.vdi)磁碟容量大小筆記
- Ubuntu Linux Desktop 12.10 多螢幕顯示器設定與消失的 xorg.conf
- 解決 Ubuntu Linux Server 12.04 DNS 設定問題
- 設定 Ubuntu Server 使用純文字畫面開機
- 即刻救援 Grub 無法開機的 Ubuntu Linux 系統
- Groovy 使用 HttpBuilder 簡化 HTTP 網頁資料存取設計
- 網路電話簿!工商黃頁網站蒐集
- 網路爬蟲服務 Grepsr 與 80legs 只要付錢就幫你把資料搬回家
- 棄業日誌(002)人生整理魔法
- 備份(或複製) Raspberry Pi 記憶卡磁碟資料,Mac OS X 指令範例
- 背包客超省錢住宿攻略(001)台北E書漫時尚閱讀概念館
- 棄業日誌(001)走出舒適圈
- Windows 7 SSD 固態硬碟節省系統磁碟用量筆記
- SanDisk Extreme Pro SDHC UHS-I Card 8GB 95MB/s 633...
-
▼
1月
(50)
chongdata.com 是一个网络爬虫~可以大规模提取网页关键字,现在免费试用,欢迎试用, 有凡客和淘宝的价格提取案例
回覆刪除