想要利用Python網頁爬蟲蒐集網路上的資料,除了一般網頁之外,有些還會需要進行"登入"的動作,才會顯示網頁資料,這也就是所謂的登入型網頁,最常見的像是Facebook、Instagram等社群網站。 這時候就可以利用Python的Selenium套件來模擬登入的動作,進而爬取到想要的資料。這篇文章我就用Facebook網站為例,來教大家Python網頁爬蟲如何利用Selenium套件來自動化登入網站。 Python Selenium網頁爬蟲專案初始化 Python網頁爬蟲輸入登入資料 Python網頁爬蟲登入網站 一、Python Selenium網頁爬蟲專案初始化 在開始實作之前,先利用以下指令安裝Selenium、Webdriver Manager套件: $ pip install selenium webdriver-manager 接著,建立Python網頁爬蟲檔案,引用Selenium相關的模組,如下: from selenium import webdriver # 瀏覽器驅動模組 from webdriver_manager.chrome import ChromeDriverManager # Chrome瀏覽器驅動模組 from selenium.webdriver.chrome.options import Options # 瀏覽器選項設定模組 from selenium.webdriver.common.by import By # 定位元素模組 import time # 時間模組 詳細的Selenium模組介紹及引用時機,可以參考 全面掌握Selenium建置動態網頁爬蟲的步驟與重要模組 文章,對於後續想要利用Python網頁爬蟲爬取動態網頁的朋友,一定要學起來! 引用好之後,就可以建立Selenium的瀏覽器驅動物件,發送請求到Facebook網站,如下範例: options = Options() options.add_argument("--disable-notifications") # 取消瀏覽器的通知訊息 # 安裝及啟動Chrome瀏覽器 driver = webdriver.Chrome(ChromeDriverManager().install(), chrome_