網路城邦
上一篇 回創作列表 下一篇   字體:
Uber 大數據省錢術 (上)
2022/02/21 21:02:52瀏覽504|回應1|推薦3
大數據專案真會燒錢,每個老闆看到多會直搖頭,雖然上雲端可以節省一些維運成本,相對地費用變高,除非找到相對應單位願意付錢才能持續下去,一般使用者單位還是會有資料屬於 IT 的,不願意出錢,需要加強溝通。最近看到 ITHome 報導 Uber 大數據發展歷程,整理出重點,提供大家參考。

在 2014 年開始建立第一代大數據平台,一開始用傳統 OLTP 資料庫,例如 MySQL 和PostgreSQL,資料倉儲(Data Warehouse) 使用商業軟體 Vertica,自行開發許多 ETL 程式進行資料交換,維持延遲時間不到一分鐘內,資料量成長到 10 TB。

第一代大數據平臺無法支援水平式擴充,因此,Uber 經常得刪除舊資料,才能挪出空間來儲存新資料。再加上缺乏統一的資料格式,大量 ET L處理所獲取的資料,得先多儲存一份來整理格式,才能確保資料品質,更讓 Uber 大數據平臺的儲存量嚴重不足。

在 2016 年開始打造第二代大數據平臺, Uber 使用 Hadoop 開源平台建置出 HDFS 資料湖(Data Lake) 架構,同時引進 Presto 提供互動式的查詢引擎,或是用 Spark 來進行程式化存取資料的處理,也建置了Hive 來提供超大型的資料查詢需求,並且採用了 Hadoop 主流的 Parquet 檔案格式來取代 JSON 資料格式,來提高分析查詢的運算資源利用率。

Uber 也將所有資料模型和處理都在 Hadoop 上進行,只有少數關鍵資料才多儲存一份到原本的資料倉儲系統中。如此一來,大大降低了資料倉儲的維運費用。同時資料量也隨著業務量大增到 100 PB,但是因為批次作業,延遲時間最長會到 24 小時,無法滿足及時分析的需求。

在 2017 年開始打造第三代大數據平臺,目標是優化 Hadoop 平台支援即時分析,Uber打造出 Hudi 專案,這是一個在 HDFS 和 Parquet 上的 Spark 函式庫,可用來處理龐大資料更新和刪除的維運問題,透過建立資料時間戳記,來對歷史性資料進行遞增式的維護,不用進行完整的資料表掃描,能讓新獲取資料的延遲時間,從 24 小時,縮短到 1 小時以內,以提供更即時分析之用。

到 2019 年初,大數據平臺成 Uber 內部三大平臺中最花錢的一個,當年 Uber 營收不過 13 億美元,IT 支出包括軟硬體加起開就高達 15.93 億美元,比一年賺得錢還要多。所以 Uber 下定決心,要改變「大數據平臺全力支援業務成長」的戰略,「我們開始認真思考,如何讓大數據平臺,維持一貫的可靠性、生產力和對業務的價值,又能降低成本。」

下篇繼續介紹 Uber 大數據省錢戰略。
( 創作散文 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=robertyjlai&aid=171724593

 回應文章

優惠券
2024/06/25 11:08
好康活動資訊雙倍電電Pwsz使用優惠券