爬蟲可以爬哪些網站- ISPKEY

剛接觸爬蟲總會問這麼一句：爬蟲可以爬哪些網站，是的，爬蟲作為強大的手段，哪些網站可以爬，哪些網站不能爬呢。今天來說說哪些網站可以爬吧。

1、新聞網站

新聞網站，所有網站上能看到的東西都可以收集。

可收集的內容包括:標題；作者；發佈時間；新聞來源；二級標題；摘要；內容；視頻網站；圖片連結；語言；新聞類型；發布狀態；刪除狀態；網站名稱；內容原始碼等。

2、招募網站

招聘網站需要強調需要付費才能看到的履歷，不能收集！非公開申請人的簡歷不能收集！

可以收集的包括:公司名稱；招聘職位；網頁連結；職位分類；工作地點；專業需求；公司介紹；交付地址；行業；工作內容；工作要求；其他資訊等。

3、論壇網站

論壇網站可以收集，包括：貼文；發文者；發文時間；發文數；發文者追蹤數量；發文內容、回傳內容等。

4.電子商務網站

電子商務網站能否收集需要提前與技術顧問溝通，瀏覽電子商務網站某產品的用戶手機號碼無法收集。

可收集內容：價格；名稱；關鍵字；圖片連結；付款人數；連結地址等。

5.搜尋引擎類

搜尋引擎要使用者提供登入帳號和關鍵字，配置非常簡單，收集時無效資料會比較多。收集到的內容當然也是可以看到的。

以上就是爬蟲可以爬取的網站，借助爬蟲技術，我們能夠在短時間內蒐集到自己想要的資料。使用爬蟲時結合代理ip也是不錯的選擇。

（建議作業系統：windows7系統、Python 3.9.1、DELL G3電腦。）