![]() ![]() ![]() |
|
|
|
2022/09/28 13:37:29瀏覽380|回應1|推薦10 | |
項目目標:將京客隆超市集團在北京所有小區的店鋪爬取出來,放入EXCEL表格 達成目標:將每個小區第一頁的店鋪爬取完畢。 下個目標:將每個小區所有頁面的店鋪完整爬取。 學習小結: 1. 蘇興華老師的課程,太棒了。跟李巍老師的課程相比,輕鬆很多。主要是兩位老師使用的工具完全不同。李巍老師使用的是程序開發人員專業的工具,而蘇興華老師使用的是非程序開發人員使用的工具。 李巍老師 蘇興華老師 urllib request BS4, BeautifulSoup lxml, etree RE xPath xlwt Pandas 2. 蘇老師課堂用encoding=’ANSI’成功,但我跑出來是亂碼。 嘗試encoding=’utf-8’也不成功。 上網查找,得知必須用encoding=’utf-8-sig’才能讀取BOM。我個人覺得蘇老師在演示時說“有中文內容,encoding要設置,否則會出錯”這句話的重點會有歧義 -- 重點應該是讀取BOM時的encoding設置。因為encoding設置成’utf-8’是可以滿足程序對中文的讀寫 -- 哦哦,我想,應該改成“對本地中文”的讀寫。而讀取瀏覽器文件時,必須用”utf-8-sig” |
|
( 知識學習|科學百科 ) |