問卷是非常普遍而且方便、容易又簡單的調查工具(1),但許多研究者卻對於問卷評估的方法不甚了解,甚至會有概念上的模糊與錯誤,因此將在以下篇幅以清楚又簡短的方式介紹問卷的評估方法,信度與效度。發展與設計問卷就是為測量出我們所感興趣的健康狀態與危險因子(2),為了正確地測量,所以我們必須考慮問卷的信效度。
所謂的信度是指,問卷測量具有一致性與可複製性(1),但這樣的說法並不完整,信度應該適用於測驗分數而非測驗本身(3),所以我認為信度是指問卷測量的分數結果具有穩定性、一致性、可靠性而且可受信賴的程度,但實際上,測量分數會因受試者的特性不同而有所不同,所以每次測量,應該再次計算信度,而不是只沾沾自喜於前人信度研究的數值(4)。關於信度的衡量,大部分的研究者通常只會三種分析方法,測量不同時間針對同一群人進行重複測量的再測信度或稱施測者內信度(test-retest reliability, or intra-rater reliability),測量不同施測者針對同一群人進行重複測量的施測者間信度(inter-observer reliability, inter-rater reliability),測量問卷內容各題目一致性的內部一致性 (inter-item consistency, or internal consistency reliability),但我認為信度應該更系統化的分為兩大類,外在信度( external reliability)與內在信度( internal reliability)。
1. 外在信度( external reliability):
比較不同時間地點,不同或相同受試者,不同或相同測驗者之間,測量分數的相關性,因此施測者內信度(intra-rater reliability)與施測者間信度(inter-rater reliability)則是屬於此類,但尚有其他外在信度,例如 編碼員間信度(ntercoder reliability)、複本信度(Alternate-forms reliability)、歷史信度(diachronic reliability)。一般來說,此類信度的評估,通常利用相關係數來做為比較,在過去會使用皮爾森相關係數 (Pearson product-moment correlation coefficient)或斯皮爾曼相關係數(Spearman rank correlation coefficient)來計算,但單就這兩種計算方法將會造成誤差,所以必須使用目前公認較恰當的組內相關係數(Intra-class correlation coefficient, ICC)進行運算才較正確,關於這點,使用皮爾森相關係數或斯皮爾曼相關係數的錯誤為何?只要仔細的檢閱這兩種相關係數的分析假設後就能發現,其不適用的原因是出自於此兩種相關係數必須是獨立變項(independent variable)之間的比較,而外在信度的測驗分數並非獨立變項,其為重複測量,因此是非獨立變項(dependent variable),所以要用 ICC 才是最正確的選擇。但以施測者間信度來說,評估方法比較特別,雖然也是計算相關,但使用的相關計算為Cohen's kappa coefficient, 用於比較相同受試者受測分數的一致性。值介於 0 到 1 之間,值愈大一致性愈高,根據文獻的論述,0~0.2代表slight agreement,0.21~0.4代表fair agreement,0.41~0.6代表moderate agreement,0.61~0.8代表substantial agreement,0.81~1代表perfect agreement。
2. 內在信度( internal reliability):
比較問卷題目的一致性,除了文中提及的內部一致性之外,尚有折半信度(Spill-half reliability)為較常見。內部一致性信度最常使用Cronbach's alpha來評估量表的內容是否有達到一致性的效果,以α系數來代表信度,介於 0~1之間,系數愈高代表量表的內部一致性愈佳。而折半信度則是將調查項目分成一半,計算兩份得分的相關系數,常見於態度、意見式的問卷信度分析,值得討論的是,此做法將試題分半計算會降低信度,所以一般會利用斯布校正公式(Spearman-Brown formula)、福樂蘭根校正( Flanagan )或盧隆校正( Rulon )調整。
接著討論效度的部分,所謂的效度是指,問卷測量能夠正確的反映出問題(1),換言之,一份高效度的問卷能夠正確的衡量出問題真正的程度。一般來說較常見的效度評斷方法就屬內容校度(content validity)、校標關聯校度(criterion validity)、構念效度 (construct validity),而更系統化的介紹,應該將效度分成兩大類,主觀效度(subjective validity)與實證效度(empirical validity)。
1. 主觀效度(subjective validity):
又可以分為內容效度(content validity )、表面效度(face validity )。以上兩種效度都是主觀判斷,以內容效度來說,通常會請專家來鑑定問卷的效度好壞,因此這種方式通常也稱為專家效度( expert validity )。
2. 實證效度(empirical validity):
有構念效度(construct validity)與校標關聯效度(criterion validity)為常見的方法。實證效度可以將效度程度用數字化來表示,因此構念效度會利用因素分析(factor analysis)進行評斷,校標關聯效度會尋找黃金準則比較,而以構念效度的概念來說,即為測量概念的方法與該理論架構中其它概念的相關程度,同時也可檢驗不相關的變項是否混雜於測量之中。因此要計算構念效度,必須有多次測量的結果,如果多次測量的結果都證實理論是正確的,就稱為區同效度 (convergent validity),如果多次測量都不同,則稱為區別效度或稱分歧效度(divergent validity, or discriminant validity )。而校標關聯效度依照比較準則的不同,可以分成兩種, 預測效度(Predictive validity ),將測量的結果與未來的測量結果對照,兩者間越接近,預測效度越高。同時效度(concurrent validity ),用其他黃金標準來考驗一項測驗的效度,因此可以計算出文中所述的四種機率值,個體特徵可以正確定義出的敏感度(sensitivity )、個體沒有的特徵也能正確定義的特異度(specificity)、陽性之中有多少百分比為真陽性的陽性預測值(positive predictive)、陰性之中有多少百分比為真陰性的陰性預測值(negative predictive )。
最後,做研究是一項具有使命感的事業,正如所有為民請命的人,背負的是造福人群的使命,做問卷的發展也應如此,只有讓問卷越來越具有可信度與有效度,才能更準確的發現及找出族群的問題與現象,因此除了發表在期刊上之外,也可以將問卷送到問卷銀行(questionnaire bank),這樣就能讓全球的研究者都可以一同來改善,一同促進人類健康。
文獻:
1. Saw SM and Ng TP. The design and assessment of questionnaires in clinical research.2000.42(3)131-5
2. Carmines EG, Zeller RA. Relability and validity assessment. SAGE publication; London, 1979.
3. 傳粹馨.影響積差相關係數與信度係數之因素,教育學刊. 1998.
4. 傳粹馨.信度, Aplha係數與相關議題之研究.教育學刊. 2002