繼[Scrapy教學1]快速入門Scrapy框架的5個執行模組及架構文章,瞭解Scrapy框架的5個主要模組相互之間的關係與執行流程後,本文將帶大家在Windows環境中,安裝Scrapy框架,並且提示可能會遇到的錯誤該如何解決,最後,建立屬於您的第一個Scrapy專案,來一窺其中的檔案結構。重點包含:
- 安裝Scrapy框架
- 建立Scrapy專案
- Scrapy專案結構
一、安裝Scrapy框架
首先,Scrapy框架的安裝方式,就像安裝Python的套件(Package)一樣,透過以下的指令即可進行安裝:
$ pip install scrapy
由於Scrapy框架會需要Microsoft Visual C++ 14.0來進行編譯,所以,在安裝的過程中,如果發生以下的「Microsoft Visual C++ 14.0 is required」錯誤訊息:
則需要前往其中所提示的網址來進行安裝,也就是Microsoft Visual Studio下載的網頁,如下圖:
而要確認Scrapy框架是否有安裝成功,可以先在命令提示字元視窗中輸入scrapy指令,如下圖:
$ scrapy bench
執行後如果沒有顯示錯誤訊息,代表安裝成功。
二、建立Scrapy專案
Scrapy框架安裝完成後,接下來,就可以建立Scrapy專案來開發網頁爬蟲。本文以新聞網頁爬蟲專案為例,在桌面先建立一個「news_scraper」資料夾,接著,開啟Visual Studio Code,打開「news_scraper」資料夾,在Terminal視窗中即可利用以下的指令來建立Scrapy專案:
$ scrapy startproject 你的專案名稱 .
執行結果
以上指令的「.」意思是在目前的目錄下,建立Scrapy專案。而執行結果則是告訴我們專案建立成功,並且引導如何開發第一個Python網頁爬蟲,這部分會在下一篇文章來和大家分享。
三、Scrapy專案結構
這時候,可以在「news_scraper」資料夾中看到Scrapy專案的檔案結構:
其中各個檔案的功能說明如下:- spiders資料夾:用來存放Python網頁爬蟲程式碼的地方。
- items.py:定義想要爬取或儲存的資料欄位。
- middlewares.py:定義「spiders與引擎(ENGINE)中間件」及「引擎(ENGINE)與下載器(DOWNLOADER)中間件」。
- pipelines.py:定義items資料的後續處理,像是清理、儲存至資料庫或檔案等。
- settings.py:Scrapy專案設定檔。
- scrapy.cfg:Scrapy專案部署設定檔。
四、小結
如果您喜歡我的文章,請幫我按五下Like(使用Google或Facebook帳號免費註冊),支持我創作教學文章,回饋由LikeCoin基金會出資,完全不會花到錢,感謝大家。
二、建立Scrapy專案 的地方有誤
回覆刪除如果是先在桌面手動建立一個news_scraper的目錄,之後再用scrapy startproject指令的方式建立news_scraper專案的話,原本建立的目錄底下會出現兩層news_scraper,和你文章中執行結果和VS Code中的截圖不同,所以圖片中的結果應該是不用先建立一個news_scraper的資料夾,再用終端機下指令來建立專案,而是cd到桌面直接下指令就好了。