Uber 大數據省錢術 (上) - 飛虎行空

字體：小中大

Uber 大數據省錢術 (上)

2022/02/21 21:02:52瀏覽504｜回應1｜推薦3

大數據專案真會燒錢，每個老闆看到多會直搖頭，雖然上雲端可以節省一些維運成本，相對地費用變高，除非找到相對應單位願意付錢才能持續下去，一般使用者單位還是會有資料屬於 IT 的，不願意出錢，需要加強溝通。最近看到 ITHome 報導 Uber 大數據發展歷程，整理出重點，提供大家參考。

在 2014 年開始建立第一代大數據平台，一開始用傳統 OLTP 資料庫，例如 MySQL 和PostgreSQL，資料倉儲(Data Warehouse) 使用商業軟體 Vertica，自行開發許多 ETL 程式進行資料交換，維持延遲時間不到一分鐘內，資料量成長到 10 TB。

第一代大數據平臺無法支援水平式擴充，因此，Uber 經常得刪除舊資料，才能挪出空間來儲存新資料。再加上缺乏統一的資料格式，大量 ET L處理所獲取的資料，得先多儲存一份來整理格式，才能確保資料品質，更讓 Uber 大數據平臺的儲存量嚴重不足。

在 2016 年開始打造第二代大數據平臺， Uber 使用 Hadoop 開源平台建置出 HDFS 資料湖(Data Lake) 架構，同時引進 Presto 提供互動式的查詢引擎，或是用 Spark 來進行程式化存取資料的處理，也建置了Hive 來提供超大型的資料查詢需求，並且採用了 Hadoop 主流的 Parquet 檔案格式來取代 JSON 資料格式，來提高分析查詢的運算資源利用率。

Uber 也將所有資料模型和處理都在 Hadoop 上進行，只有少數關鍵資料才多儲存一份到原本的資料倉儲系統中。如此一來，大大降低了資料倉儲的維運費用。同時資料量也隨著業務量大增到 100 PB，但是因為批次作業，延遲時間最長會到 24 小時，無法滿足及時分析的需求。

在 2017 年開始打造第三代大數據平臺，目標是優化 Hadoop 平台支援即時分析，Uber打造出 Hudi 專案，這是一個在 HDFS 和 Parquet 上的 Spark 函式庫，可用來處理龐大資料更新和刪除的維運問題，透過建立資料時間戳記，來對歷史性資料進行遞增式的維護，不用進行完整的資料表掃描，能讓新獲取資料的延遲時間，從 24 小時，縮短到 1 小時以內，以提供更即時分析之用。

到 2019 年初，大數據平臺成 Uber 內部三大平臺中最花錢的一個，當年 Uber 營收不過 13 億美元，IT 支出包括軟硬體加起開就高達 15.93 億美元，比一年賺得錢還要多。所以 Uber 下定決心，要改變「大數據平臺全力支援業務成長」的戰略，「我們開始認真思考，如何讓大數據平臺，維持一貫的可靠性、生產力和對業務的價值，又能降低成本。」

下篇繼續介紹 Uber 大數據省錢戰略。

( 創作｜散文 )


	回應文章