<<亂寫一通 從機器學器的維度降低看易經>>
人會遭遇到的情境不下千萬種,易經區區六十四的卦,怎能道盡人世間所有的事物?!事實上,化繁為簡,正是易經精要所在,即所謂「易簡而天下之理得矣」。將紛雜的事物表象,從中抽絲剝繭取出重要癥結,往往比細究事物所有環節,更能掌握住事物脈絡的前因後果。為說明化繁為簡的功效,先以一個機器學習的例子來說明,它有個專有名詞:維度降低(dimentionality reduction)。
以影像分析為例。每張影像,都是由密密麻麻的像素點(pixel)組成,理論上,我們必須知道每個像素點的數值,才能繪出一張完整的影像。一張影像雖有為數眾多的像素點,但有許多像素點,他們彼此間具有相似性,甚至一模一樣,只要能掌握住這些像素點的相依關係模式,我們就可不必得知所有像素點的數值,在僅知部份資訊的情形下,即能繪出一幅與原影像極為雷同的重製影像。
附圖最上面一列的6張人臉相片,是從Python的Scikit-Learn套件中內建影像檔擷取出來的,其檔案規格為62*47,即有2,914個像素點。我們試著不去細看每個像素點的數值,而是從中挑選出150個最“主要成份”,並推估其與其他像素點的關聯模式,此種方式可歸納得出150個影像模式,我們稱之為「特徵臉」(eigenfaces)。求得「特徵臉」即是模型與資料間的擬合(fitting)學習過程,附圖中間那列看似陰森恐怖的6張影像,即是150個「特徵臉」的其中6個。如此一來,我們關注的資料複雜度,即可從2,914的超高維度,大幅降低至150個「主要成份」範圍內,雖然我們將問題的複雜度減少了95%,但從其餘15%資訊量學習到的訊息,使我們有能力能重製,與附圖第一列所列原始6張相片近似的影像(附圖第三列即是重製影像)。
因此在大量繁雜的資訊中,我們若能找出關鍵變因,並洞悉其結構性向外影響的傳遞模式,我們即能利用這些關鍵因子,推導事物可能的演繹過程。易經雖只以六十四個卦象來闡釋世間事物,但這些卦象是先人觀察無數自然事件、人事變遷案例後所歸納的“主要成份”模型法則,雖然無法與我們實際遭遇到的情境完全吻合,但經由“模型與資料擬合”的學習歷程,逐步掌握易經所述事物變化演繹的脈絡,我們即能藉由易經之助,重建(預測)事物的發展軌跡。
<產生附圖的Python程式碼>
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns;sns.set()
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_lfw_people
faces = fetch_lfw_people(min_faces_per_person=60) # 下載相片資料
pca = PCA(n_components=150,svd_solver=randomized) # 選用 Principle Component Analysis (PCA) 模型
pca = pca.fit(faces.data) # 將模型與資料擬合,並將學習結果整理出150張特徵臉
d_reduction_150 = pca.transform(faces.data) # 影像從2,914(62*47)像素降維至150像素的投影結果
projected = pca.inverse_transform(d_reduction_150) # 利用學習結果重建影像
fig,ax = plt.subplots(3,6,subplot_kw={xticks:[],yticks:[]},gridspec_kw={hspace:0.1,wspace:0.1})
for i in range(6):
ax[0,i].imshow(faces.data[i].reshape(62,47),cmap=binary_r) # 畫出前6張原始相片
ax[1,i].imshow(pca.components_[i].reshape(62,47),cmap=binary_r) # 畫出前6張特徵臉
ax[2,i].imshow(projected[i].reshape(62,47),cmap=binary_r) # 畫出前6張重建後影像
ax[0,0].set_ylabel(full-dim\ninput)
ax[1,0].set_ylabel(150-dim\neigenfaces)
ax[2,0].set_ylabel(150-dim\nreconstruction)