我對社會行為科學計量研究的幾點質疑 - 出岫閒雲的部落格

字體：小中大

我對社會行為科學計量研究的幾點質疑

2023/11/09 12:19:23瀏覽540｜回應1｜推薦12

因為在網路上看到一些評論社會學者葉啟政教授的社會學觀點的討論文獻，其中也點到葉教授對社會行為科學計量研究的方法論觀點的質疑。葉教授從偏向現象學社會學的觀點對於社會行為科學計量研究中方法論、知識論觀點有些深層次的批評意見。我是葉教授的學生，也受到他觀點的若干影響。以下我也想提出我對上述計量研究方法論觀點的一些質疑意見。不過，我只能從我自己較能掌握的思考層次提出我的想法。

計量研究在社會行為科學中其實只是方法取徑之一，而絕不是全部。但是，社會行為科學計量研究卻逐漸成為了研究方法中的最主要途徑，也可能是最受重視的途徑。現在大概已經形成一種研究“無量不歡”的情況。計量研究方法幾乎形成一種帝國主義。無量的研究只能成為一種陪襯、輔助的部分。但是，我認為這是有問題的心態，過度膨脹了計量研究的價值，高估了計量研究的“效度”(validity)與效用，而對所謂質性研究卻又過度貶低其意義。

我無意否定計量研究的存在意義與實際效用；我也並不贊成過度分化計量研究與質性研究。我以為，完整的研究其實比較應該是包含二者的研究。偏重計量研究，其實帶有某種盲目崇拜的味道。特別是當看到研究論文中使用了較“高階”的計量方法，好像就能夠使研究份外增光、變得有價值，而容易得到期刊審查者的青睞。從而，計量研究者也在學術界容易生存，甚至是呼風喚雨，得到崇高地位。這種情況並不合理。很需要被矯正。但是，我並沒有能力扭轉這種普遍存在的心態。底下，我只能漫談式地指出我認為的一些計量研究方法上的問題。

一、資料範圍限制與所觀察到的關係

首先，我對社會行為科學計量研究的最大困惑，其實是適當經驗“資料”的產生或取得。調查研究可能曾經是社會學者強調的方法，一方面鼓吹要實地調查，這大概是一種“實證主義”思維的產物。儘管實證主義本身已經受到強烈的批評，但是，某些基本的實證主義觀點並沒有從多數人的心中消除。所以，實地調查或精神接近的資料蒐集方法還是受到高度的肯定。另一方面，相關學界大概也想藉此來確保自身研究領域的科學地位。

問題是，調查研究可能與隱私權觀念有所抵觸，所以，未來恐怕會越來越難得到充分的調查資料（也許可以說是內捲意義上的充分）。而且，很重要的一個問題是，調查即使問卷再怎麼完備，卻很難同時涵蓋異時間點的訊息，以及外部脈絡的訊息。所以，在分析時，我們往往會被限於做已取得之資料內部的諸變項之間的關係分析，但是，誰說（因果）關係一定只是在這些變項之間發生呢？怎麼能斷定這些變項之間的關係不會受到外部因素的影響呢（這意味著交互作用可能存在，即：在不同的情境下—情境其實也可列為分析變項，甚至很需要被列入分析變項—所分析的變項之間的“關係”可能不同）？注意，由於可能存在交互作用(interaction effect)，所以，所分析到的變項之間的關係可能因為潛在未掌握的變項的不同值，被觀察到的因果關係可能根本就不同。

上面提出的質疑，我不認為可以藉由什麼高階統計分析（如SEM之類）就能夠搞定。

二、測量上的問題

計量研究在測量上存在的問題，也是造成其局限性的重要理由。測量的問題至少可從以下幾點來討論：

（一）測量的“效度”、“信度”問題。這是測量上的最根本的問題，卻也是永恆無法完全解決的問題。我們究竟要相信測量方法與其結果到什麼程度，永遠帶有主觀性。

（二）即使測量分成不同“向度”(dimension)，對於各個向度的測量，其實仍然存在信度、效度問題。只是，一個抽象概念被分成幾個不同向度，意味著所要測量的概念越發細緻、具體化，從而其操作定義也越容易顯得明確，效度問題也就越顯得可忽略。然而，儘管這時候要測量的已經是原先概念的某些較具體“向度”，但本質上所要測量的這些“向度”終究也還是“概念”。這些概念的可觀察性、可測量性也還是可能有問題。也就是說，然而，變成向度後的可測量性，終究也只是相對性的說法。（人們會對一個向度內的幾個不同陳述，能夠捕捉其間的共同性，其實是因為人們有可能意會到它們所共同指涉的抽象概念。但是，這種共同的意會，並不保險。有可能在某個隱微之處，彼此其實互相誤解。也或者，大家一起誤解元概念的意義，而卻在對某一向度的意義理解上達成共識。）

（三）所被列出的“向度”可能未必完整或恰當。舉例來說，什麼是“智力”（IQ），不只是心理學家們嘗試進行的智力測驗彼此就千差萬別，連所列出的智力向度也可能很不同。有人列出如下7項：1、算術，2、語言理解3、知覺速度，4、歸納推理5、演繹推理6、空間視知覺7、記憶力。但是，也有人列出以下八種主要智力：語言智力、邏輯數學智力、空間智力、身體動覺智力、音樂智力、人際交往智力、內省智力、自然觀察智力。有人則是將智力分成三種基本向度：組合智力(componential intelligence) 、經驗智力(experiential intelligence) 、情境因應智力(contextual intelligence)。總之，不同的研究者會將智力分成不同的向度，而究竟哪個分法較妥善，大家也各自有不同評價。不過，大體上，現在的心理學界大體偏向認為智力是個複雜的“結構”，而不是一個單一光譜，乃至不是一個面。但是，如何充分掌握所有向度，這本身就構成爭議。再者，各向度之間又是什麼關係，目前也還未完全釐清。從而，以智力測量來說，如果要計算一個單一總分，其實也有困難。至少，各向度分數要加總。那要如何加總呢？這裡不只是要決定各向度的權值(weight)，還有會不會某些向度之間是需要相乘，而不是相加？很明顯，不同向度智力面對不同情境時的作用大小可能很不同。某些場合需要記憶力；某些場合需要邏輯思考能力；某些場合需要心理理解的能力；某些場合需要肢體動作的能力…。而人們面對的情境並不都相同；從而智力的不同向度的“價值”也可能不同。也就是說，我們即使勉強給予了不同向度以不同的“權值”，這種權值賦予的適當性其實是不確定的。那麼，那個最後得到的智力總分，究竟有什麼意義？柯文哲先生說他的智商是157，這在考試、讀書方面可能很有參考價值，甚至在專業學習上也很有價值。但是，在擔任總統這個職位上，這個IQ157分真的還有很大的參考意義嗎？

（四）在測量問題沒有徹底解決、甚至永遠不能徹底解決的前提下，所計算出來的平均值，甚至是所設定出來的平均值，譬如平均智商是100，究竟有什麼意義？這100分究竟意味著什麼？很可能是由研究者設定的幾個測量向度，以及所設定的各向度的權值，再以某個群體得到的測量平均數作為應然的平均值。以此為準，再來計算離差，再依照離差值計算出結果的個人智力總分。但是，那些前提設定，有先天的應然性嗎？

（五）一個最根本的問題是：能夠被測量的部分，和我們概念分析中指涉的那個概念，甚至我們心中真正想探討的問題，很可能有永恆的距離。而且，這個距離究竟是多少，其實也永遠不可知。

我曾經和中研院的一位統計學者爭議究竟“內容（content）效度”重要，還是“建構(construct)效度”重要。“建構效度”大體就是在處理將概念分為不同向度的動作，可通過如SEM的統計分析來捕捉各向度的關係，包括權值（理論上，有些向度可能通過分析而被刪除，或者必須被修改）。但是，我始終認為，內容效度的重要性當然是首要的。如果所測量的事物，根本就不是所討論的概念或真正想要分析的議題，那麼，所有的後續計量部分都只是一場空。

內容效度反映的是一個量表實際測到的內容與所要測量的內容之間的吻合程度。內容效度是量表質量的重要體現，要確認測量中所觸及或陳述的內容確實是針對所要測量的概念、議題。只是，因為內容效度常常不被質疑，而理所當然被人們接受，所以其困難度與重要性也容易被忽視。譬如，我們要測量“性別”，我們就在問卷中寫下“性別”，然後到時候填進性別了事。這哪會有什麼效度問題？難道問性別還會測出無關性別的事物？但是，這種理所當然的看法其實是有問題的。不只是性別可能並不如想像的那麼容易測量；而且，還有更複雜、更抽象的概念，也這麼容易被準確測量到嗎？

內容效度其實涉及對測量工具（譬如問卷題目）意義的詮釋。譬如我們找來所謂“專家”，來幫助判斷某個量表的題目是否適合作為某個概念（譬如“智力”，或者是“數理邏輯能力”）的測量問題。那麼，專家們怎麼判斷呢？專家對智力都有“正確”的認識嗎？而且對題目的“意義詮釋”也都能夠恰當嗎？如果答案是未必，那麼，他們所認定的題目適當與否，究竟是否應該被接受？要注意的是，“意義詮釋”其實是個最麻煩的事情。其中不可能不涉及主觀。主觀詮釋可以歧異、偏離到什麼程度，可能超乎想像。

“內容效度”其實就涉及“意義”詮釋的問題。我以為，意義詮釋是建立知識的第一關。內容效度其實是在說在進行操作性定義時，意義詮釋是否恰當。如果一開始就歪樓，後續再怎麼樣的統計分析都救不回來。建構效度只是把基於操作定義所列出的測量指標之間的關係加以釐清。但是，如果整體的指標都歪樓了，而且歪得很一致，就還是能夠產生良好的建構效度。當然，這種“良好”的效度其實是無效或有問題的。

重點在於，計量研究者往往輕忽了意義詮釋這個環節。而意義詮釋卻是大學問。質性研究者很可能在對文本的意義詮釋動作上，費盡心思、長篇大論；但是，計量研究者卻可能視之為聊備一格的動作，既委託給了專家，何需要研究者自己再多操心？但是，會不會魔鬼也就藏在這樣的“細節”裡呢？

三、分析的問題

在“SEM”(structural equation model)統計分析方法流行的現在，其實，所謂的“分析”也委託給了統計方法。通過這種統計方法，我們不難從資料中找到適配(fit)的解釋模型。各變項之間的（因果）關係，也就依循這個模型來推出。所以，重要的是掌握統計方法，懂得如何操作統計分析方法。至於審視、思考現象，從中摸索出性質與關係，變成只是一種衍生性動作。

但是，模型配適(model fitting)其實是循著“資料”推導關係；或者，嚴格來說，是循著“資料檔”來推導關係。我不會說這是不對的，但是，我會說這可能會被誤導。資料檔的產生，是高度限制性與人為控制的作業結果。研究者無法取得的變項資料，或者被研究者拋棄或不在研究者分析架構內的變項資料，大體就無法納入分析。這究竟會如何影響最後得到的配適模型，其實很難預料。也許無礙於結論，但也可能會顛倒或大幅改變結論。

抽樣方法當然也影響資料性質，並且可能影響到分析走向。效度的問題會影響測量，也影響到分析。抽樣方法涉及到“外部效度”，同樣也可能影響分析與結論。也就是說，最後的結論究竟是否成立，或者是否適合推廣到研究者宣告的母體範圍，並不是確定無疑的。

在統計分析中，往往包括了“顯著水準”的選擇與運用。這其實只是一種合邏輯的推論策略。但是，水準的選擇本身其實帶有任意性。譬如.05的水準只是意味一種低風險（結論陳述犯錯風險極低），但是，它並不是確定無誤的結論。而且，常常處理顯著性檢定的研究者可能發現，甚至對虛無假設陳述的方向選擇也可能影響到結論。就好像現在台灣的人發現，提出公投議題時，提案的方向其實具有相當的決定性那樣。這些都是計量方法存在的問題。只是，人們會被看起來高深的統計分析所迷惑，而傾向高估計量研究的價值。

好了，作為非學術性文章，這篇貼文實在太囉嗦了，就此打住吧！以上淺見願就教於各位方家！

( 知識學習｜科學百科 )


	回應文章