使用爬蟲採集資料時,有時為了隱藏真實IP位址或規避某些網站的限制,我們需要使用代理IP。同時,透過HTML和CSS選擇器,我們可以定位並提取頁面中的特定資料。以下是一個基本的步驟說明,以Python的requests和BeautifulSoup函式庫為例:


步驟一:安裝必要的函式庫

首先,你需要安裝requests和BeautifulSoup函式庫。你可以使用pip進行安裝:


bash


pip install requests beautifulsoup4



步驟二:設定代理IP

在發送HTTP請求時,你可以透過proxies參數設定代理IP。以下是一個範例:


Python直譯


import requests

proxies = {

'http': 'http://your_proxy_ip:port',

'https': 'https://your_proxy_ip:port',

}


response = requests.get('http://example.com', proxies=proxies)


在上面的程式碼中,你需要將'your_proxy_ip:port'替換為你的代理IP和連接埠。


步驟三:解析HTML並擷取數據

你可以使用BeautifulSoup函式庫來解析HTML並擷取資料。以下是一個範例:


Python直譯


from bs4 import BeautifulSoup


soup = BeautifulSoup(response.text,'html.parser')


#使用CSS選擇器提取數據

data = soup.select('css_selector')


for item in data:

print(item.text)


在上面的程式碼中,你需要將'css_selector'替換為實際的CSS選擇器。 CSS選擇器用於定位HTML頁面中的元素。例如,如果你想提取所有的段落文本,你可以使用'p'作為CSS選擇器。


注意:在使用爬蟲時,請確保遵守網站的robots.txt檔案和相關法律法規,不要對網站造成過多的壓力或進行惡意爬取。同時,有些代理IP可能並不穩定或需要付費,你需要依照自己的需求選擇合適的代理IP服務。

[email protected]