網路城邦
上一篇 回創作列表 下一篇   字體:
什麼是大數據?
2017/07/11 08:04:41瀏覽21|回應0|推薦0
**雲端主機知識分享**

 

而從各式各樣的數據(含大量非結構化和半佈局化數據)中,快速取得有價值信息的能力,就是大數據技術。分明這一點相當主要,這恰是大數據技術具備走向眾多企業利用的驅動力。


舉例來說,收羅分析Google搜索、Facebook帖子和Twitter動靜等數據,使得對人們行為和情感的細節化測量已成為可能。

物流寄情36:什麼是大數據?

3、大數據手藝

 

其實,大數據凡是與Hadoop、NoSQL、數據剖析與挖掘、數據倉庫、貿易智能以及開源雲端運算架構等諸多熱點話題聯繫在一路。

什麼是Hadoop?根據《Hadoop》的創辦人Doug Cutting所言“Hadoop”就只是幫一隻黃色的填充大象取的名字罷了,沒有什麼特別的意思純粹只是好記罷了。

而《Hadoop》技術的降生則是因為網際網路資料的爆炸性成長,傳統的檔案系統沒法負荷貯存跟分類,從而憑據Google搜索器的相幹的學術論文為藍圖,演化成一套貯存、處理、闡明 TB(Tera Bytes)甚至PB(Peta Bytes)等級的資料處置方法。

1、Big Data 名稱的由來

 

將這些傳測器數據與電腦智能互聯起來,那麼你就會看到所謂的“物聯網”(Internet of Things)。舉例來講,在很多工業設備、電子裝備、汽車和集裝箱中,都安裝上無數的數字感測器,這些感測器能丈量和傳送位置、活動、震動、溫度和濕度等數據,乃至還能丈量空氣中的化學變化。

信息獲得的手藝上獲得提高,這是促進“大數據”趨向成長的主要緣由。

4、Hadoop手藝簡介

 

標誌性的區分就在于,以往的數據只是結構化的數據,是非個性化的數據;而進入2012年,非佈局化數據佔有比例將到達互聯網全部數據量的75%以上,這意味著個性化數據時期的到來。

其實,真實的大數據時期從2012年方才起頭。

 

而物聯網、雲端運算、移動互聯網、手機、平板電腦、PC和遍布地球各個角落的各類各樣的傳感器,無一不是數據起原或者承載的體例。

按照科技研究公司IDC作出的估測,數據一直都在以每一年50%的速度增長,換而言之,也就是每兩年就增進一倍。

毫無疑問,“大數據”本身也存在一些風險。

史坦福大學的統計學教授特來沃爾-哈斯迪(Trevor Hastie)稱,若是想要在龐大的數據“乾草垛”中找到一根成心義的“針”,那麼所將面臨的問題就是“許多稻草看起來就像是針一樣”。統計學家和計較機科學家指出,“大數據”的集合和高密度的測量將令“毛病發現”的風險增長。

二、大數據的特徵

 

 

而處理海量資料《Big data》的技術,當今最火紅的則非《Hadoop》莫屬了喔!

 

不論是什麼資料你都可以匯入《Hadoop》Cluster而且不用作任何前處置,它就會幫你回答你從來不曾想過的問題!《Hadoop》把看似毫無聯系關系的資料背後所隱含的訊息顯現出來,利用者即可以根據更多的參考資料做出對應決策了。

《Hadoop》根基上可以處置懲罰任何資料型態,不論是構造化或長短結構化,log紀錄檔、照片、聲音、通信記載或是電子郵件。

當局、企業、即時感測器等資料包羅萬象,很輕易便到達數TB,乃至上看PB之譜。

但“大數據”時期的降臨看起來已經是無可逆轉。

 

2、多樣化
海量資料的範圍不但止於結構化資料,還包括各類非佈局化的資料:諸如文字、音訊、視訊、點擊串流、日誌檔等等。

3、快速化
海量資料平常具有時效性,一旦串流到運算伺服器就須立即利用,即時得後果才能施展其最大價值。

 

反過來看,大量的新數據也正在鼓勵這些電腦智能運算手藝的進步,這是“大數據”時代中的一個良性輪回。

機械進修運算法能基於數據來進行進修,數據越多機械就可以學到越多。
舉例來講,蘋果在2012年秋天推出的iPhohne手機Siri語音助理辦事,這個應用正透過利用者天天提供成千上萬條問題的鼓勵下,增進Siri演變成一種日趨谙練的小我助理,已能向用戶供給提示、天氣預告、餐飲建議和對大量問題作出解答…等服務。

Hadoop是百分之一百免費,由Java程式語言所編寫的Open Source,一種從底子結構上與現存技術分歧且先輩的貯存、處置懲罰、闡發海量資料的手藝,履行Hadoop使用者無須仰賴昂貴的或是具有專利的軟硬體平台,Hadoop可以在廉價且工業規格化的伺服器群上執行平行資料處置以及分析,有了Hadoop沒有什麼資料量是過大的,在當今資料量爆炸的時期企業、學術、政府等組織可以利用從之前被認為是無用的資料找出曆來沒被發現的參考價值。

 

楊惟雯

且些數據經常與採集它們的東西、平臺、闡發系同一起被稱為“大數據”。
大數據內容包羅互聯網文本和文件、互聯網搜刮索引、收集日誌、RFID、傳感器數據、社會收集數據、視頻檔案、天文學、大氣科學、醫療記實、基因組學、其他跨學科的科研、軍事窺伺和大範圍的電子商務數據…。

《Big data》,台灣翻譯為海量資料巨量資料,大陸翻譯為大數據,此名詞在2010年由IBM 所提出。

另外,大數據尚需要特殊的手藝,以在容忍時候內,有用地處置大量的數據。

適用於大數據的技術,包羅大範圍並行處理(MPP)數據庫、數據發掘電網、分布式文件系統、分布式數據庫、雲端運算平台、互聯網和可擴大的存儲系統。從TB級別,躍升到PB級別﹔

第一,數據體量偉大

 

 

例如2009年中,美國當局經由過程啟動Data.gov網站的體例進一步開放了數據的大門,這個網站向公家提供各類各樣的當局數據。

另外,各國當局亦向公家供給各類數據——如就業、房價及其他數據。

 

業界平常稱為4個“V”──VOLume、Variety、Value、Velocity。

 

從某個角度來看,《Big data》實際上是巨大資料資料庫加上處置方法的一個總稱,其中包括資訊領域的《機械進修Machine Learning》、《數據闡發Data Mining》、《人工聰明Artificial Intelligence》以及現在最火紅的《檔案處置系統Hadoop》,這些資訊手藝相互融合,加上最近幾年來電腦處理速度與存儲裝置的機能快速提拔,使得即時處理大量資料釀成可能,在這個當下爆出利用火花。

 

 

以視頻為例,接連不間斷監控過程當中,可能有用的數據僅唯一一兩秒。

第二,數據類型繁多

第三,價值密度低。如網絡日誌、視頻、圖片、地輿位置信息等等。

這類異質性、個性化,這才是數據的真正本質。  

作為泛指的大數據,按EMC的界定,個中的“大”是指大型數據集,一般在10TB(Tera Bytes)規模擺佈;多用戶把多個數據集放在一路,構成PB(Peta Bytes)的數據量;同時這些數據來自多種數據源,以即時、迭代的體式格局來實現。

1、大量化
海量資料的特點就在於:重大。

 

舉例來說,谷歌的搜刮、告白營業及其實驗中的機械人汽車,都操縱了許多的人工智能手藝,它們對數目複雜的數據進行分析,並作出瞬時的決策。這些電腦智能運算手藝能應用於很多領域。

另外,電腦的運算手藝也正在迅速進步中,好比說人工智能(AI)、天然說話處置、模式識別和機器進修…等手藝。

加上視頻、圖片、音頻等等非構造化富媒體數據的利用愈來愈頻仍,社交網路的赓續增進和壯大,今朝,天天光是流向社群網站Facebook與Twitter的資料量,就多達3億張照片、25億則發文、27億按讚數

在曩昔的十年間,數據爆炸已成為人所共知的一個話題,按照市場研究公司IDC去年發佈的數據,預估2009年到2020年時代,數字資訊總量將增長44倍

 

 

大數據不但是正在快速增長,同時,也正在變得加倍容易被電腦所理解運用。
“大數據”成長趨勢中所增加的大部份數據都是在自然情況下發生的,好比說收集談吐圖片視頻等不受控制的東西,和來自於感測器的數據…等。

這些是所謂的“非結構化數據”,通常不克不及為傳統的資料庫所用。

 

上圖源自http://hadoop.apache.org/

 

 

IBM把大數據概括成了三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。

 

 

總之,大數據凡是具有四個層面的特點:

 

 

 

1秒定律。最後這一點也是和傳統的數據挖掘手藝有著素質的不同。

第四,處置懲罰速度快IT委外|MIS外包|資訊委外|主機代管|伺服器代管|虛擬主機|郵件代管|郵件託管|雲端方案|雲端主機|網站代管|網站託管

( 心情隨筆心情日記 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=brewerc845fj&aid=106228042