網路城邦
上一篇 回創作列表 下一篇   字體:
京客隆店鋪分佈
2022/09/28 13:37:29瀏覽343|回應1|推薦10

項目目標:將京客隆超市集團在北京所有小區的店鋪爬取出來,放入EXCEL表格

達成目標:將每個小區第一頁的店鋪爬取完畢。

下個目標:將每個小區所有頁面的店鋪完整爬取。

學習小結:

1. 蘇興華老師的課程,太棒了。跟李巍老師的課程相比,輕鬆很多。主要是兩位老師使用的工具完全不同。李巍老師使用的是程序開發人員專業的工具,而蘇興華老師使用的是非程序開發人員使用的工具。

李巍老師                      蘇興華老師

urllib                          request

BS4, BeautifulSoup     lxml, etree

RE                             xPath

xlwt                           Pandas

2. 蘇老師課堂用encoding=’ANSI’成功,但我跑出來是亂碼。

    嘗試encoding=’utf-8’也不成功。

    上網查找,得知必須用encoding=’utf-8-sig’才能讀取BOM。我個人覺得蘇老師在演示時說“有中文內容,encoding要設置,否則會出錯”這句話的重點會有歧義 -- 重點應該是讀取BOM時的encoding設置。因為encoding設置成’utf-8’是可以滿足程序對中文的讀寫 -- 哦哦,我想,應該改成“對本地中文”的讀寫。而讀取瀏覽器文件時,必須用”utf-8-sig”

( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=bonjour2007002&aid=177219253

 回應文章

MayMay
等級:8
留言加入好友
2022/10/02 14:52

今天看到老师的补充说明。很多学员都提出跑出乱码的事,老师说:

1. win操作系统,默认是‘GBK’, 苹果操作系统,默认是'utf-8'

2. 老师用的是苹果操作系统,所以不输入'utf-8'这段代码。同学如果用苹果的,就没事。

    如果用win操作系统,就要写'utf-8'取代默认值,不能省略。