網路城邦
上一篇 回創作列表 下一篇   字體:
爬蟲初體驗
2022/09/15 00:32:35瀏覽306|回應1|推薦11

豆瓣電影TOP250,顧名思義,就是把評分最高的250部電影,依照評分降序排列出來。(下圖)

一頁25個電影,所以共有10頁。(下圖)

項目目標 -- 我們要捕獲的對象為每一個電影的鏈接、照片的鏈接、中文命、外文名、導演等電影背景資料、評分、評分人數、梗概。(下圖)

所謂“爬取”,就是從頁面的源代碼中獲取到我們要的資料。(下圖)

EXCEL版 -- 爬蟲抓好的資料存入EXCEL.(下圖)

成功爬取250個電影。(下圖)

關於這個項目:

1. 內容是根據李巍老師手把手的教程。意思就是,代碼是老師寫的。

2. 老師說,現階段的目標,是能自己寫出學會的代碼 -- 就是自己從頭寫一遍。重點是記住邏輯思考。

( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=bonjour2007002&aid=177155059

 回應文章

MayMay
等級:8
留言加入好友
2022/09/15 01:34
爬蟲能做什麼?

現在的信息都在網上,要從網上的信息中提取出並記錄下來我們需要的資料,就必須使用爬蟲技術。


要使用爬蟲技術,必須掌握幾個最最最基本的技術:

1.一個電腦語言。

2.HTTP, html, css 

3.excel, sql


以上是最基本的要求,能做到靜態頁面資料的提取。


爬蟲遠遠不是只抓靜態頁面的資料,而是要獲取實時資料(動態資料),進而分析,協助我們做預測與判斷。所以啊,跟著老師們的教導,我還有一段苦日子要過。