網路城邦
上一篇 回創作列表 下一篇   字體:
大數據真的煉金術?還是巫術?
2015/04/13 11:30:01瀏覽1946|回應6|推薦5

那天和朋友聊天時,談到有關大數據的價值問題,我很驚訝的是台灣人對於大數據有著不可思議的幻想和誤解,不過這在台灣也不是第一次,幾年前有所謂的長尾理論出現時,台灣也確是熱鬧了一段時間,但是時間終就是一把無情的尺,誰還記的長尾理論呢?

    老實說,大數據有沒有價值,當然有,但是台灣人在討論時卻常常本末倒置,搞錯了方向,我想就簡單的舉出兩個盲點。一是當資料量很大時,同一套運算法的計算結果是一樣的。二來是重點不在於資料庫,而在於運算法。

    首先,大家先想想,如果你已經經過一年的蒐集得到三億五千萬筆資料,代表你每天約可以得到一百萬筆資料,如果你用同樣的運算法來處理資料,基本上我們可以想像在一個月內甚至好幾個月內你都會得到同樣的答案,因為每天的新資料相對於已存資料,在同樣的運算法下根本不可能有任何顯著的改變,這就跟Google找資料一樣,如果沒有廠商贊助或是突發事件,你找的資料順序基本上根本不會有所不同。當然你可以說那就把資料週期縮短或是加乘計算,但是那就不是大數據的事了,而是簡單的直覺判斷問題。

    二來目前為止大家都有點搞錯方向,數據就算在那裡,我們還是要有特殊的運算法把他找出來,老實說真會運用大數據的並不一定是數據的巨量,重點是在運算法,因為能夠找到合理運算法的人才能真正找出有價值的數據,而不是擁有數據的人,用一個例子來說,中國可能是全世界擁有最多頁岩氣的國家,但是他卻沒法開採,因為他沒有技術。這就跟擁有資料的人一樣,重點是運算法,而不是數據本身。

    台灣是一個很淺而且沒有耐心的社會,所以常常跟著人家後面搖旗吶喊,但是卻從來沒有仔細想想,這些流行本身是不是對的,有沒有價值,都沒有仔細想清楚,以前的常尾理論是如此,這次的大數據看來也是會步入同樣的後塵。因為據我的瞭解,即使是國外,投資大數據成功的公司都很少,基本上是只有50%左右。常言到,外行的看熱鬧,內行的看門道,可不要被這種社會氛圍所欺騙了!


 

( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=CMC3242&aid=22203900

 回應文章

驅逐低端人口,這樣對嗎?
等級:8
留言加入好友
新雙城記(CMC3242) 於 2015-04-13 15:53 回覆:
2015/04/13 17:18
1,
你真的沒有讀懂我的文章,你舉的例子根本不相關.

==》

有可能。
那麼是否可以請版主補充一下讓文意可以更清楚一些,
讓我們好判斷看看,是不是不一樣。



2,
今天如果有一百萬筆資料顯示血壓平均值是100(舒張壓),今天你再多100筆200的資料,事實上整體平均值是沒有差異的,
=》
從這句話,我相信版主應該也誤解貝氏定理的意義。


3,
至你個人的數值在整體資料的排序和顯示的意義,和我要提出的問題並沒有關聯.

=》
是這樣啊?
真的嗎?
不是吵架,而是為了澄清定義。

版主的意思是略而不計嗎?
如果是,那麼我認同。



4,
還有應該是貝氏機率吧

=》
那個原文叫Bayes' theorem (alternatively Bayes' law or Bayes' rule)
也有叫Bayesian probability,
你要翻成貝氏機率也可以。
不過因為貝氏定理是中學數學的範圍,
你講貝氏定律大家比較有聽過,
如此而已。
①美國杜魯門總統丟兩顆原子彈給日本,送蔣介石給臺灣!
②228事件國民黨警備司令柯遠芬説:『寧可枉殺99個,只要殺死1個真的就可以!』
③中正廟牌樓正名先總統石崗一郎紀念歌收尾:『反共必勝,建國必成!』
④如果你是公務員,那能撈就撈,能混就混,拖死政府囉

驅逐低端人口,這樣對嗎?
等級:8
留言加入好友
放在同一篇超過字數限制。另外貼。
2015/04/13 16:16



①美國杜魯門總統丟兩顆原子彈給日本,送蔣介石給臺灣!
②228事件國民黨警備司令柯遠芬説:『寧可枉殺99個,只要殺死1個真的就可以!』
③中正廟牌樓正名先總統石崗一郎紀念歌收尾:『反共必勝,建國必成!』
④如果你是公務員,那能撈就撈,能混就混,拖死政府囉
新雙城記(CMC3242) 於 2015-04-13 16:45 回覆:
可以請你不要貼不相關的文章嗎?你可以貼在自己的部落格,你這樣是對作者和讀者的不尊重.

驅逐低端人口,這樣對嗎?
等級:8
留言加入好友
接上文。
2015/04/13 16:10
其二:低估风险、盲目乐观

在罗素的火鸡问题中,最让人深思的是,所有的火鸡对未来的风险和危险都完全没有预期么?这就引出来另外一个问题:低估风险或盲目乐观(The Optimism Bias)

据一些心理学家调查,90%的人都说自己的驾驶技术要在平均水平以上,这在心理学称之为虚幻的优越感(illusionary superiority),人们对自己熟悉的领域或对自己利好的结果往往会产生过度自信心理(overconfidence),过度自信导致人们只看到了对自己有利的信息,然后用归纳法推出自己的结论,并坚信是对的。

1970年诺贝尔经济学奖得主保罗•萨缪尔森(Paul A Samuelson)在其著作《经济学》中提到:对美国市场多年的数据进行研究后发现,大致有61%的企业在创立5年内退出市场,有79%的企业在创立10年后退出市场,以失败告终。对如此之高的失败率给出了一个共同的深层次的解释:他们能够相对准确地预见到竞争的程度,但是他们过度自信地认为虽然许多企业都会最终失败,但是他们的企业与别人的不同,是终将成功的。经济学家称之为“规划的误区”(Planning Fallacy)。

而目前在中国互联网行业,低估风险和盲目乐观已经变得更加失控。我们通过分析微博数据,找出互联网行业从业人员和互联网创业人员,从其公开言论做语义分析,以及关注创业相关话题分析得出以下结论:



可以看出目前的互联网从业人员有97%都在关注创业,而已经创业者有89%都坚信自己的公司会被投资或者会上市,而不会失败。这个数据仅仅是模糊分析,但也印证了保罗•萨缪尔森(Paul A Samuelson)的研究结论。

吸烟的人都相信自己不太可能得肺癌等疾病,酒驾的人都相信自己不会出事。火鸡也不会相信明天9点没有食物,更不会相信等待着自己的是死亡。大多数火鸡还都用归纳法不断的观察,期待着明天的食物。

其三:定向创新(修正偏差)
而互联网的发展的基础是创新。在“互联网归纳法”前两条的特征影响下,中国互联网的创新变得有明显的定向性,或者说功利性。

一部分创业者开始忘掉了自己的初心,忘掉了自己的原始目标,甚至用户需求。开始为了创新而创新。这里面有一部分原因是资本市场对概念的追捧和热点轮换,但是更重要的是开始在各种方法论和盲目乐观中迷失:当整个火鸡养殖场都叫嚣着明天9点就有食物的情况下,有多少火鸡会理智的思考并且做出风险控制或者保持自我观点呢?

下图是从2014年以来P2P理财类和在线教育类热点增长,和占2014年互联网新备案互联网业务的网站中,P2P贷款和在线教育相关网站所占比例:



而在大量定向创新的背景下,原本有自己创新路线的创业者,也开始被从众效应影响,开始修正自己的创新路线。

当听到大量的“明天9点就食物”的声音,那些原本觉得没有的,也开始修正自己的观点了。

对我们的启示

TOMsInsight的团队内部讨论“互联网归纳法”时,引起了不小的讨论,大家对于此现状对行业发展是不是有正向作用进行激烈争执。但可以肯定的是,理智的看待,积极的面对,是有利我们从业者、创业者、和整个行业的。

“互联网归纳法”不是一种方法,只是一种现状,是目前中国互联网的思维怪圈。反对并不会改变现状,逃避更不会给我们带来“火鸡眼中明天9点的食物”。相反,认真的去认清现状,走出“互联网归纳法”的误区,会让我们在追逐梦想的道路上走的更踏实坚定。

也许真正的人生也莫不过如此:经过庸碌的打磨和各种挫折的洗涤,留下的仅仅只是那一份简单的、单纯的、笃定的、别人无法规劝、更无法夺走的对梦想的追求。经历过的曲折、可笑的尝试、也许是他人看扁你的理由,但同样也一定是你坚持下去的动力所在。

从某种程度讲,互联网精神并不是为了改变世界,只是不让这个世界改变自己。

===

专注于中国互联网的深度数据分析洞察
①美國杜魯門總統丟兩顆原子彈給日本,送蔣介石給臺灣!
②228事件國民黨警備司令柯遠芬説:『寧可枉殺99個,只要殺死1個真的就可以!』
③中正廟牌樓正名先總統石崗一郎紀念歌收尾:『反共必勝,建國必成!』
④如果你是公務員,那能撈就撈,能混就混,拖死政府囉

驅逐低端人口,這樣對嗎?
等級:8
留言加入好友
你說不同,maybe,那麼就請版主把文章補充說明清楚。謝謝囉。
2015/04/13 16:08
罗素的火鸡问题:互联网归纳法
2014-08-27TOMsInsight

今天的分析洞察报告我们先从一个古老的哲学问题说起:

英国哲学家、数学家、思想家伯特兰•罗素提出过一个著名的火鸡问题(Russell's Turkey):在火鸡饲养场里,一只火鸡发现,每天上午9点钟主人给它喂食。它并不马上做出结论,而是慢慢观察,一直收集了有关上午9点给它喂食这一事实的大量观察证据:雨天和晴天,热天和冷天,星期三和星期四,各种各样的情况。最后,它得出了下面的结论:“主人总是在上午9点钟给我喂食。”可是,事情并不像它所想象的那样简单和乐观:在圣诞节前一天的9点,主人没有给它喂食,而是把它宰杀。

罗素提出这个火鸡问题是讽刺归纳主义者、归纳推理,和各种归纳法的滥用。什么是归纳法呢?归纳法也叫归纳推理,就是从个别性知识推出一般性结论的推理。很多时候,我们看到一种个例事实,就习惯性的用这一种个例来解释一系列现象,总结出来一些规律。比如在罗素的火鸡问题中,那只火鸡就使用了归纳法,观察到了在一段时间内都是每天上午9点有食物,于是得出了这个结论。

归纳法是一种科学的方法,有其科学性和局限性。但是我们今天并不过多的讨论归纳法,而说一说一个特殊概念:“互联网归纳法”。

什么是“互联网归纳法”?

罗素的火鸡问题原意是讽刺归纳法,但其中的包含的深意又让人在各个维度和方向上深思:比如神学者喜欢用这个问题说明永远不可质疑上帝的旨意(火鸡考虑不到人的想法);金融学家喜欢用它解释庞奇骗局(贪念的累计效应,受益者本性排除风险);股市分析师喜欢用它解释中观和宏观分析的重要性(预测大环境变化);刘慈欣在《三体》中也引用了这个问题,说明科学观察的偶然性(在书中叫农场主假说)。

而最近有人忽然发现,其实罗素的火鸡问题最能说明的是中国互联网行业:从2014年开始,在美国华尔街针对互联网行业、特别是中国互联网行业的顶级分析师圈子里,慢慢形成了一个内部沟通交流使用的概念,叫:互联网的罗素火鸡问题,或者叫“互联网归纳法”。

大家比较公认的是中国互联网行业是最符合“互联网归纳法”特征。那“互联网归纳法”的特征是什么?对我们又有什么启示呢?

“互联网归纳法”主要的三个特征:

其一:大量基于个例的方法论

和美国硅谷文化不同,国内的互联网行业大多数游戏者目的相当明确:赚钱。这在一定程度上是由社会或者经济发展现状决定的。急功近利、或者目的明确的副作用就是非常浮躁,浮躁的环境下,方法论就会大量出现:大家都想找到一个快速成功的捷径,希望能知道在这个行业成功的“秘籍”,这个“秘籍”就是成功的“方法论”。

对于归纳法来说,方法论是很容易创造出来的:比如在罗素的火鸡问题中,相对踏实点的火鸡会用几天寻找出来一个规律;更浮躁的火鸡看到9点吃到食物,马上就得出N个方法论。

我们可以从下图看出,2014年以来,中国互联网被引用最高的方法论:



方法论的推崇推动了国内互联网行业的培训、咨询等行业,各种互联网大会,以各种培训为目的自媒体等如雨后春笋一般。培训师打了鸡血似的告诉大家:“每天9点就会有食物,只要9点起来!只要9点起来就能每天1000单!只要9点起来就能成功转型互联网!”

在最讲究用数据说话的互联网,大量的方法论反而都基于个例。比如,大家提起来互联网方法论,总是举那几个例子证明:苹果、小米、微信 … … 极端点说这就好比是一只火鸡,就观察了一天,就马上叫喊着:“要吃食,下雨天,9点起,吃玉米”!连个认真的归纳主义者都算不上!

如果仅仅是互联网大会、草根培训推崇也罢了。但越来越多的从业人员、创业者也开始加入到唯方法论的行列。我们之前有一篇报告《病毒性的抱团忽悠:互联网思维》详解了这个过程,在此不多赘述。

科学的方法论是很大价值的,但是如果基于个例,就是另一回事了。正如我们之前报告所说:大家都推崇的小米模式,雷军的互联网思维,但是雷军也没法用互联网思维帮助救活自己投资的、几乎同样商业模式的、也是自己好友陈年的凡客。
①美國杜魯門總統丟兩顆原子彈給日本,送蔣介石給臺灣!
②228事件國民黨警備司令柯遠芬説:『寧可枉殺99個,只要殺死1個真的就可以!』
③中正廟牌樓正名先總統石崗一郎紀念歌收尾:『反共必勝,建國必成!』
④如果你是公務員,那能撈就撈,能混就混,拖死政府囉

驅逐低端人口,這樣對嗎?
等級:8
留言加入好友
2015/04/13 15:23
首先,大家先想想,如果你已經經過一年的蒐集得到三億五千萬筆資料,代表你每天約可以得到一百萬筆資料,如果你用同樣的運算法來處理資料,基本上我們可以想像在一個月內甚至好幾個月內你都會得到同樣的答案,因為每天的新資料相對於已存資料,在同樣的運算法下根本不可能有任何顯著的改變,


→→→→

這一點版主說錯了。
每一筆新的data,會對先驗造成影響,
而影響後驗的判斷。

例如,
一樣的抽血數據高低(例如大腸癌篩CEA數值),
在不同背景的人身上(遺傳家族史史、年齡)就有不同的意義。
新雙城記(CMC3242) 於 2015-04-13 15:53 回覆:

你真的沒有讀懂我的文章,你舉的例子根本不相關.

今天如果有一百萬筆資料顯示血壓平均值是100(舒張壓),今天你再多100筆200的資料,事實上整體平均值是沒有差異的,至你個人的數值在整體資料的排序和顯示的意義,和我要提出的問題並沒有關聯.

還有應該是貝氏機率吧!


驅逐低端人口,這樣對嗎?
等級:8
留言加入好友
2015/04/13 15:19
就已知看未知,需要依賴貝氏定理,
包括你看今天的天氣預測要不要帶傘都是。

錯誤的方法只是garbage in,ganbage out!

問題是,
即便一大堆專家學者的大力呼籲,
例如《精準預測:如何從巨量雜訊中,看出重要的訊息?》
(https://www.google.com.tw/url?sa=t&source=web&rct=j&ei=12wrVZm5C8_t8gWV6YD4DQ&url=http://m.books.com.tw/product/show/0010598105&ved=0CBoQFjAA&usg=AFQjCNHPC-vqRetVOIxFf8jjdPRCpusV-w&sig2=hqp0_aF3lPMPi1cLz_f0rg)

又如《拆穿智者的假象: 日常思考模式中的失誤和誤判- 貝克伯恩侯特, 杜本 》
https://www.google.com.tw/url?sa=t&source=web&rct=j&ei=lW0rVZONJI7s8AWj_4DwDQ&url=http://books.google.com/books/about/%25E6%258B%2586%25E7%25A9%25BF%25E6%2599%25BA%25E8%2580%2585%25E7%259A%2584%25E5%2581%2587%25E8%25B1%25A1.html%3Fid%3DKxXdPgAACAAJ&ved=0CCIQFjAC&usg=AFQjCNHE8VoT0qCt_NVX7PPcAOAd28J_Mg&sig2=9fO_1Tj7exMmYU_0UxanoA


連這個中學數學就教過的基本的東西,
實務界還是沒什麼人把他當一回事,
甚至於不知道他的存在!



《在討論廢不廢死之前.............》
http://classic-blog.udn.com/YUUDNYU/4016986