剛接觸爬蟲總會問這麼一句:爬蟲可以爬哪些網站,是的,爬蟲作為強大的手段,哪些網站可以爬,哪些網站不能爬呢。 今天來說說哪些網站可以爬吧。
1、新聞網站
新聞網站,所有網站上能看到的東西都可以收集。
可收集的內容包括:標題;作者;發佈時間;新聞來源;二級標題;摘要;內容;視頻網站;圖片連結;語言;新聞類型;發布狀態;刪除狀態;網站名稱;內容原始碼等。
2、招募網站
招聘網站需要強調需要付費才能看到的履歷,不能收集! 非公開申請人的簡歷不能收集!
可以收集的包括:公司名稱;招聘職位;網頁連結;職位分類;工作地點;專業需求;公司介紹;交付地址;行業;工作內容;工作要求;其他資訊等。
3、論壇網站
論壇網站可以收集,包括:貼文;發文者;發文時間;發文數;發文者追蹤數量;發文內容、回傳內容等。
4.電子商務網站
電子商務網站能否收集需要提前與技術顧問溝通,瀏覽電子商務網站某產品的用戶手機號碼無法收集。
可收集內容:價格;名稱;關鍵字;圖片連結;付款人數;連結地址等。
5.搜尋引擎類
搜尋引擎要使用者提供登入帳號和關鍵字,配置非常簡單,收集時無效資料會比較多。 收集到的內容當然也是可以看到的。
以上就是爬蟲可以爬取的網站,借助爬蟲技術,我們能夠在短時間內蒐集到自己想要的資料。 使用爬蟲時結合代理ip也是不錯的選擇。
(建議作業系統:windows7系統、Python 3.9.1、DELL G3電腦。)