Photo by Clay Banks on Unsplash
在[Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台文章中,和大家分享了部署Python網頁爬蟲到Google Cloud Platform雲端平台,並且能夠將爬取的資料存入Google BigQuery數據庫,而接下來該如何定時自動化執行Python網頁爬蟲呢?
這時候,就會需要利用Google Scheduler(雲端排程器),透過自訂時間來排程執行Python網頁爬蟲,其中的實作重點包含:
- 建立Google Scheduler(雲端排程器)
- 測試Google Scheduler(雲端排程器)
一、建立Google Scheduler(雲端排程器)
點擊「繼續」,設定排程所要執行的目標,以本文為例,則是透過Pub/Sub主題(topic),執行[Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台文章所建立的Google Cloud Function(雲端函式),並且輸入「訊息內文(說明文字)」,如下圖:
點擊「繼續」,設定排程如果未成功執行,需進行的重試操作,本文將「重試次數上限」設定為1次,其餘皆保留預設值,如下圖:
點擊「建立」,即可成功建立Google Scheduler(雲端排程器),如下圖:
二、測試Google Scheduler(雲端排程器)
如果想要馬上測試Google Scheduler(雲端排程器)是否能夠成功觸發執行Google Cloud Function(雲端函式)所封裝的Python網頁爬蟲,將爬取的資料寫入Google BigQuery數據庫,可以點擊「立即執行」按鈕,執行結果如下圖:
切換到Google BigQuery數據庫中的資料表(daily_price),可以看到Python網頁爬蟲爬取的資料成功寫入,如下圖:
最後,來看看隔天(9/1)下午三點,Google Scheduler(雲端排程器)自動化執行Google Cloud Function(雲端函式)中的Python網頁爬蟲結果,如下圖:
而Google BigQuery數據庫中的資料表(daily_price),也增加了Python網頁爬蟲爬取的當天(9/1)股市行情資料,如下圖:
三、小結
以上就是透過建立Google Scheduler(雲端排程器),執行Google Cloud Function(雲端函式)所封裝的Python網頁爬蟲方法,實現每天定時自動化蒐集資料,讓後續能夠有效進行分析或應用。附上這系列的教學文章連結:
大家也有利用雲端平台開發什麼應用程式嗎?或是有其它想要觀看的教學,歡迎在底下留言和我分享唷~
如果您喜歡我的文章,別忘了在下面訂閱本網站,以及幫我按五下Like(使用Google或Facebook帳號免費註冊),支持我創作教學文章,回饋由LikeCoin基金會出資,完全不會花到錢,感謝大家。
有想要看的教學內容嗎?歡迎利用以下的Google表單讓我知道,將有機會成為教學文章,分享給大家😊
Python學習資源
Python網頁爬蟲推薦課程
Python非同步網頁爬蟲
Python網頁爬蟲應用
Python網頁爬蟲部署
Python網頁爬蟲資料儲存
Python網頁爬蟲技巧
留言
張貼留言