《六》「以直報怨，以德報德」的賽局闡釋（1） - 哲思論衡

字體：小中大

《六》「以直報怨，以德報德」的賽局闡釋（1）

2016/01/05 09:55:47瀏覽2339｜回應0｜推薦0

「或曰：『以德報怨，何如？』子曰：『何以報德？以直報怨，以德報德。』」（《論語》，憲問篇，14.34）孔子是以公平性來回答，如果以德回報他人施加於我的怨，又如何來回報他人給予我之德呢？故而認為應該以直報怨，以德報德。但對於「以直報怨」與「以德報德」本身所具有的精義，個人卻始終有如霧裡看花，莫名所以。不過，最近重讀了有關「賽局理論」（game theory，大陸譯為「博弈論」）的書，對此中的精義有豁然開朗的感覺。在此，從賽局理論的進逕來解析此章的義理精微。

A. 傳統註解的再審視與「以直報怨」之初步意涵

1.朱熹之註解的局限性

對於他人對我施加之怨，我之回報，可以有三種情況，包括此章裡所說的「以直報怨」與「以德報怨」，以及此章所未提及的「以怨報怨」。前兩者顯然是屬於君子之行，第三種則顯然是小人之行或說常人之行，故而未被孔子列入比較的行列之中。

對於此章，朱熹注云，「於其所怨者，愛憎取捨，一以至公而無私，所謂直也。於其所德者，則必以德報之，不可忘也。」（見《論語集注》，卷七）朱熹對於「直」的解釋是以「至公而無私」為核心，使得我之回報他人所施加之怨，牽扯到公與私混合的領域，而不是純粹就私領域來說。朱熹在回答門人之問，也云，「『以直報怨』則不然，如此人舊與吾有怨，今果賢邪，則引之薦之；果不肖邪，則棄之絕之，是蓋未嘗有怨矣。」（《朱子語類》，第三冊，頁1137.1，台北：文津出版社，1986年）

然而，在公領域裡，對他人是否引薦或不引薦，絕不因此人與我之間是否有恩或有怨，而有絲毫的私心私意，「至公而無私」乃是君子之人該有的行為準則。因此，朱熹以「至公而無私」來解釋「直」的意涵，牽扯到公與私混合的領域，顯然是值得商榷的解釋。

2.何晏之注解與「以直報怨」之初步意涵

對於與他人所施加之怨相對的「德」，何晏( ? - 249 )注云，「德，恩惠之德。」（見《論語注疏》，卷十四）以恩惠來解釋「德」，這也就是以利益的角度來解釋，換言之，增加人我之利益者就是「德」，損人我之利益者就是「怨」。何晏的註解平實而比較符合此章的意旨。

因此，所謂「以德報德」就是，你增加我之利益，我就以增加你之利益來回報。「以怨報怨」就是，你減損我之利益，我就以減損你之利益來回報。相對的，所謂「以直報怨」就是，雖然你減損我之利益，但我的回報的方式是，既不減損你之利益，也不增加你之利益，屬於一種中立的態度。而這樣的「以直報怨」的回報觀，其實就已蘊涵「以德報德」在其中了。

至於這樣的「以直報怨」的回報觀，其精微義理之所在，可以進而以賽局理論來做深入的解析。

B. 由重複的囚徒賽局解析「以直報怨」的精義

賽局理論是數理科學家馮紐曼（John von Neumann，1903-1957）於1928年首創，由納許（John Nash，1928-2015）發揚光大。納許於1951年導入非合作賽局（Non-Cooperative Games），並提出「納許均衡」（Nash eqilibrium）這樣的賽局求解概念，1970年代以後獲得眾多學者跟進研究，現代的賽局理論就是以「納許均衡」為核心發展而成。納許並於1994年獲得諾貝爾經濟學獎。（參見《賽局理論圖解》，清水武治著，謝育容譯，頁8-9，台北：商周出版，2010年）

B1. 賽局的意涵與「納許均衡」

1.賽局的意涵

賽局的意涵有三，一是，人或組織之間的互動，二是，此互動具有利益上的增減得失，三是，利益指的不僅是金錢或物質上的利益，也包括非物質的利益，如權位與名譽等等。因此，賽局所涵括的對象可說是絕大部分人類的社會活動。而賽局理論的目的就在於有效找出最佳決策。

2.「納許均衡」的意義

賽局有四個構成要素，那就是參與者（player）、參與者採取的行動或說策略（move、strategy）、參與者採取行動的動機或說目的（incentive、end）以及採取行動後的得失結果或說報酬（payoff、reward）。在一般的賽局理論研究裡，通常略過動機（目的）這個要素不談，因為這通常屬於賽局理論的運用層次，而非屬於理論層次。不過，就人生實際面來說，要能夠將賽局理論在各層面運用得好，關鍵前提反而是在於能夠先確定參賽者的最佳利益所在，也就是動機（目的）這個要素，在賽局理論裡係稱為「逆向推論法」（backward induction，或譯「逆向歸納法」）。（參見《賽局理論圖解》，頁54）

所謂「納許均衡」，是就參與者所採取行動策略這個環節來說。對參與者同時採取行動的賽局（簡稱「同步賽局」）來說，當參與者雙方都採取最優策略或說優勢策略（dominant strategy）以達到雙方各自的最佳報酬，因而雙方沒有再改變的想法，否則報酬反而會減少，此種「安定的狀態」就稱為「納許均衡」。

對參與者有先後行動之分的賽局（簡稱「依序賽局」或「序列賽局」）來說，後行動者對於先行動者採取最佳反應（best response）以達到本身的最佳報酬，而沒有再改變的想法，這也是一種「安定的狀態」，也稱為「納許均衡」。如果先行動者有一個以上的行動型態或說策略，每一個策略就會有一個「納許均衡」，因此，「依序賽局」可能會有兩個以上的「納許均衡」。不過，因為先行動的參賽者必定有最佳利益可言，因此，雖然可能會存在有多個「納許均衡」，但仍會有一個最佳的「納許均衡」，換言之，就有理智的參賽者而言，實質上也只有一個「納許均衡」而已。

B2. 囚徒賽局的特性

1.囚徒賽局的特性

囚徒賽局（囚徒困境〔prisoners’dilemma〕賽局的簡稱）具有如下的特性，一是，它是同步賽局，二是，找不到「納許均衡」的賽局，也就是參賽雙方都採行最優行動策略時，卻得不到預期中的最佳結果。

2.原版的囚徒賽局

囚徒賽局的原版是，警方逮捕了兩名歹徒，指控他們犯下刑期最高五年的案子，但強烈懷疑他們還犯了一起刑期最高二十年的武裝搶劫案。警方將他們兩人關在不同的牢房，並分別對兩人說，「如果只有你認罪承認犯了武裝搶劫案，因為你很合作，可以無罪開釋。如果你們兩人都認罪，都關十年，但如果只有你沒認罪，就要關二十年。而如果兩人都沒認罪，就關五年。」（參見《賽局意識》，David McAdams著，朱道凱譯，頁46.4，台北：天下雜誌，2015年）

對於囚徒兩人來說，最優策略是己方認罪而對方不認罪，就可以無罪開釋，但如果兩人執行這樣的最優策略，結果卻是都關十年，比兩人都不認罪的五年還差。因此，囚徒賽局是個找不到「納許均衡」的賽局。

3.普遍版的囚徒賽局

囚徒賽局裡囚徒的認罪與不認罪是從警方的角度來看，如果從囚徒本身的角度來看，就是背叛與合作的選擇，認罪就是背叛（defect），不認罪就是合作（cooperation）。刑期的用語也改為誘惑（temptation，我背叛而你選擇合作）、獎賞（reward，雙方都選擇合作）、懲罰（punishment，雙方都選擇背叛）與笨蛋（sucker，我合作而你選擇背叛），進而都給予符合一般經驗的量化數值，誘惑是五分，獎賞是三分，懲罰是一分，笨蛋則是零分。這就是可以廣泛適用的普遍版囚徒賽局。（參見《合作的競化》，Robert Axerlrod著，胡瑋珊譯，頁30.2-31.1，台北：大塊文化，2010年）

將囚徒賽局裡的行動選擇以合作或背叛來看，並將雙方選擇的四個結果予以量化的數值，更可以顯示囚徒賽局的特色。第一是，雙方選擇的四個結果具有最好到最差的排序，亦即誘惑（T，五分）大於獎勵（R，三分），獎勵大於懲罰（P，一分），懲罰大於笨蛋（S，零分），也就是T>R>P>S。第二是，雙方合作的收穫大於誘惑與笨蛋的平均收穫，也就是R>(T+S)/2。（參見《合作的競化》，頁32.3-33.2）囚徒賽局這兩個量化特色也都與一般經驗相符合。當然，誘惑等四項的量化數值會隨實際經驗上的賽局而有不同。然而，如果不能符合這兩個量化特色的賽局，那就不是囚徒賽局，而是其他類別的賽局。

總之，無論是原版的囚徒賽局或者是普遍版的囚徒賽局，同樣都是找不到「納許均衡」的賽局，也就是雙方不可能擁有同時達到最高分的行動決策組合。不過，如果就對局的總分來說，「合作對合作」的個別分數雖然都只有三分，但總分六分卻是所有四種對局情況的最高分，係從全體來看的最佳效用之行動決策組合，這也就是所謂的「柏拉圖最適」（Pareto Optimality，或稱柏拉圖優勢、柏拉圖效率）。（參見《漫畫搞懂賽局理論》，Pawpaw poroduction著，吳佩俞譯，頁146-151，台中：晨星出版公司，2015年。按，這是一本很不錯的入門書。）

B3. 重複囚徒賽局與其最優策略－－「以牙還牙」

1.重複囚徒賽局的特性

囚徒賽局如果是一次性，參賽者雙方當然沒有「納許均衡」，但如果是多次性，也就是重複囚徒賽局，雖然也沒有「納許均衡」，但會有因所採取行動策略的不同而有累計總分高低之別的產生，因而也就有最佳的行動策略可言。

雖然理論上有次數可以無限的重複囚徒賽局，但對生也有涯的人來說，這是不可能的事，但只要沒有確定的終局，也可以算是以無限的重複囚徒賽局。不過一般而言，如果在次數夠多的重複囚徒賽局裡是最佳的行動策略，在無限次的重複囚徒賽局同樣也是最佳的行動策略。

2.重複囚徒賽局的最優策略－－「以牙還牙」

美國政治學者Robert Axerlrod曾就多次性的重複囚徒賽局舉辦電腦競賽，廣邀各界學者專家提交行動策略，彼此輪流相互對抗，看看哪一個策略表現最好，可以得到最高的總分。

第一輪共有十四的學者專家參加，每對分五場對局，步數都是兩百步，結果是加拿大心理學家Anatol Rapoport提交的「以牙還牙」（tit for tat）策略，以平均504.5分獲勝。

在知道第一輪的結果之後，第二輪更有各國62位學者專家參加，包括第一輪的14位，仍然是每對分五場對局，步數這次則長短不一，平均步數為151步，而結果仍然是「以牙還牙」策略，以平均434.7分獲勝。（參見《合作的競化》，附錄A，頁233-247）

3.「以牙還牙」最優策略的內涵與特色

加拿大心理學家Anatol Rapoport所提的「以牙還牙」（tit for tat，或譯「一報還一報」）策略，內容很簡單，對局的第一步是「合作」，以後是看對方前一步的作法而以牙還牙，亦即，如果對方前一步是「合作」，我之這一步就是還之以「合作」，如果對方前一步是「背叛」，我之這一步就是還之以「背叛」。（參見《合作的競化》，頁44.2）

將「以牙還牙」的內涵進一步解析，具有如下的特色，這同時也可以說是成功決策的特色。第一是，善良，以「合作」為對局的第一步，其效果是可以避免陷入「背叛」對「背叛」惡性循環的不必要麻煩。第二是，報復，只要對方背叛便施以報復，嚇阻對方在任何時間對背叛的嘗試。第三是，寬容，在對方對我之報復而以正面來回應，也就是以「合作」來回應，我就予以寬恕，重回到以「合作」對「合作」的正向循環。第四是，策略清晰透明，讓對方容易就理解我方策略模式，而調適他自己的行動策略，從而促成雙方長期的合作。（參見《合作的競化》，頁44.2與83.2）

4.背叛導向的策略屬於下下策

就一次性的囚徒賽局而言，背叛的決策係屬於比較佔優勢的作法，因為，背叛的決策即使對上對方也是背叛的決策，至少還有一分的報酬，如果對方採取合作的決策，就有五分的最高報酬。不過，如果是重複性囚徒賽局，背叛的策略就只可能在前兩三步遇到對方採合作的決策，但在這之後，就只會遇到對方也採背叛策略，故而在兩三步以後都只能得到「背叛對背叛」的一分。因此，隨著重複次數的增加，累積的總分就會相對的越來越低。

何況，重複性囚徒賽局的對局不僅僅是一組而已，而是符合實際人生現況的十幾組，乃至高達62組的輪流對局，因此，以背叛為策略的總得分當然就會在末段班。

相對的，合作對上合作僅能獲得三分的次高報酬，並不是最高的五分，但合作策略彼此之間會形成正向循環的回饋，因此，隨著重複的次數增加以及流輪對局的組數增加，總得分當然會相對越來越高，就會在排行榜上名列前段班。美國政治學者Robert Axerlrod在囚徒賽局電腦競賽裡也觀察到有這樣的現象，「只要對方沒有背叛，每一個友善規則一定會繼續合作，直至競賽幾乎結束。」（《合作的競化》，頁62.4）

背叛導向的策略屬於下下策，在囚徒賽局電腦競賽兩輪比賽之中也充分顯現出來。在第一輪十四組總成績的前八名都是不會首先背叛的友善策略者，第一步就背叛的不友善策略者都排名殿後。而在第二輪62組總成績的前15名，友善策略者占了14名，不友善策略者僅僅只有一個，且排名第八而已。（《合作的競化》，頁60.2與71.3）

此外，在囚徒賽局的報酬量化數值上，係依據原版的囚徒賽局來給分，T（誘惑，5分）>R（獎勵，3分）>P（懲罰，1分）>S（笨蛋，0分），其實，這樣的囚徒賽局是純然從物質利益的得與失來看，忽略了精神利益的得與失。以背叛的決策來說，背叛對上合作，固然有物質利益上最佳的收益，卻是以損失精神利益上做代價，背叛對上背叛則僅在物質利益稍有收益，雙方卻在精神利益上都是損失的。此種精神利益的損失就是潛在的物質利益損失，在多次囚徒賽局就會轉換為實際上的物質利益損失。

相對的，合作對上合作，固然在物質利益上僅能獲得次佳的收益，但雙方都獲得了精神利益，同樣的，在多次囚徒賽局就會轉換為實際上物質利益的收穫。因此，如果計上精神利益，多次性囚徒賽局也有「納許均衡」，雙方採取最優的合作策略，都可以得到最優的結果。

5.「以牙還牙」最優策略的批評與回應

在重複的囚徒賽局裡，「以牙還牙」（tit for tat，或譯「一報還一報」）係最優策略，有學者則激烈抨擊，指「以牙還牙」之所以是最優策略，是由於累計多次不同策略之間對局而得的總分，如果單單就與「背叛」策略對局來說，就從來沒有贏過一場。（參見《德性起源》，Matt Ridley著，范昱峰譯，頁78.2-79.2，台北：時報文化，初版二刷，2004年）

英國學者Matt Ridley則捍衛「以牙還牙」之為最優策略的說法，他指出，「以牙還牙」靠累積分數而贏得競賽，這正是要點所在，「以牙還牙」縱然在戰役中失敗，仍可贏得整個戰爭。他並強調，「以牙還牙」並不欣羨或希望擊敗對手。（《德性起源》，頁79.4）

Matt Ridley的看法是對的，作為賽局的贏家，並不是只有你輸我贏的這種贏家型態，非得對方失敗才是贏家，雙方都贏也是一種贏家型態。因為，贏家的共同特性就是在賽局裡可以獲得物質或精神上的利益，而較我原先的狀態有所增益。相對的，輸家共同特性就是在賽局裡可以損失物質或精神上的利益，而較我原先的狀態有所減少。進而，如果把精神利益的得與失計算進去，你輸我贏這類型的贏家不見得是真正的贏家，雙方都贏的這類贏家才是真正的贏家。

B4.「以牙還牙」優勢的確認與所需的心態

美國政治學者Robert Axerlrod在囚徒賽局電腦競賽之外，更從四個層面作進一步檢驗，以確認「以牙還牙」策略的優勢性。

1.「以牙還牙」策略優勢具有強健性

「以牙還牙」策略在兩輪的囚徒賽局電腦競賽都拿到冠軍，雖然參與兩輪競賽的組數已高達62組，但在數量上還是有侷限，並不能斷然的確定「以牙還牙」策略的優勢性。如果在各種不同的多樣化環境仍然可以有很好的表現，就顯示「以牙還牙」的優勢具有強健性。

Robert Axerlrod於是建立一系列的假設性競賽，且每個參與競賽的決策規則之類型都大不相同，結果是「以牙還牙」在六個變化競賽之中贏得了五場，在第六場的競賽取得第二名，由此印證「以牙還牙」策略的優勢具有強健性或說強固性。（《合作的競化》，頁76.2-76.3與245.3-247.2）

2.「以牙還牙」具有演化優勢

對於「以牙還牙」策略優勢是否真的具有強健性，還可以從演化的角度來看，也就是隨著時間的拉長，乃至在下一個後代，以及後代的後代，是否採用「以牙還牙」策略的人口越來越多，並且，相較於其他也名列前茅的行動策略，採用「以牙還牙」策略的人口總數是最多的。

Robert Axerlrod以電腦作生態的模擬，他發現，「起初，比較差的程式和比較好的程式的比例相當。但隨著時間推移，比較差的程式開始退出，比較好的程式開始興旺。倘若成功是來自與其他成功的規則的互動，則成功的規則將孕育更多的成功。」（《合作的競化》，頁80.2）這也就是說，「以牙還牙」策略的勝出，不僅僅在於與較劣的行動策略的勝出，更在於與其他較優行動策略的互動所得來的成功，這就包括了「以牙還牙」策略之間的彼此互動，因而「以牙還牙」策略的採用人口會越來越多。

Robert Axerlrod的研究結果仍然是「以牙還牙」策略拿到冠軍，可說具有演化上的絕對優勢，「開始時以牙還牙只是稍微領先，在之後的模擬世代裡也從未喪失領先地位。到一千代時，它已經是最成功的規則，而且仍然以超過任何其他規則的速度繼續增長。」（《合作的競化》，頁81.2與頁79之圖）

相對的，背叛策略在演化上則具有「自我毀滅」的致命缺陷。Robert Axerlrod的研究結果指出，「決策規則的成功在於它能夠利用對方的規則，之後當這些被利用的規則逝去，因為被利用的基礎消失，利用對方者也面臨同樣的命運。」（《合作的競化》，頁80.2）

Robert Axerlrod並以第二輪排名前十五名之中唯一的不善良規則為例，在生態模擬競賽裡，此一由學者Harrington所提出的不善良規則，在兩百代之前採用人口百分比仍處於增加的狀態，但到了第二百代左右，就呈現逆轉的情況，由增加的態勢轉變為減少，原因是可供利用的不成功規則逐漸滅絕，這意味其獵物愈來愈少。到了第一千代時，這個Harrington所提的不善良規則也像它可利用的規則依樣，跟著滅絕了。（參見《合作的競化》，頁80.3）

因此，Robert Axerlrod強調，「生態分析顯示，策略若只能在與表現不佳的對手競賽時才能獲得高分，最終必定邁向自我毀滅的過程。」（《合作的競化》，頁154.2）這也就是說，行動策略之能可長可久可大，決非建立在利用對方策略的弱點，以之為魚肉，而是能夠與較優的行動策略共生共榮。

3.「以牙還牙」優勢具有集體穩定性

生物演化必然會有突變的產生，因此也須由突變這個面向檢驗行動策略的演化優勢。Robert Axerlrod採用英國演化生物學家史密斯（John Maynard Smith，1920—2004）的界定，當全體人口中每個個體都使用同一個策略，出現有個突變個體使用不同的策略，如果這個突變個體與原本的個體之間的互動可以得到更高的回報總分，就可以說新的策略入侵本地策略，反之，如果其互動的回報得到較低的回報總分，原本的策略就可說是具有集體穩定性。（參見《合作的競化》，頁85.3-86.1）

Robert Axerlrod指出，只要賽局的長度（步數）夠長，「以牙還牙」策略裡的報復規則就可以抵消背叛的誘惑，就可避免背叛策略的入侵。而所謂的賽局長度夠長，如果以每個步本身來看，就是下一步相對於現在這一步的重要性或說權重有多大（此即是「折扣參數」〔discount parameter〕）。在T（誘惑，5分）、R（獎勵，3分）、P（懲罰，1分）、S（笨蛋，0分）的格局之下，只要下一步的重要性（折扣參數）是現有這一步的三分之二以上，「以牙還牙」就具有集體穩定性。（參見《合作的競化》，頁89.3）

另一方面，依據集體穩定的定義，「總是背叛」的策略同樣也具有集體穩定性。因為使用「總是背叛」的人所獲得的回報，遇到背叛者有P（懲罰）的1分，如果遇到合作者就有T（誘惑）的5分；反之，非「總是背叛」策略者，在採取合作時，就會得到S（笨蛋）的零分，因而累計的總分一定會少於「總是背叛」策略者。因此，「總是背叛」策略具有集體穩定性。（參見《合作的競化》，頁94.2-95.1）

就可以抵禦入侵的集體穩定性來看，由於「以牙還牙」策略還有折扣參數須大於三分之二的限制，似乎略遜於「總是背叛」策略，然而，Robert Axerlrod研究指出，「總是背叛」策略之能抵禦任何入侵的策略，是在對手一次只來一個的情況之下，但如果是群集進來，就可能遭到入侵了。相對的，「以牙還牙」等善良策略如果可以抵禦一次一個的入侵策略，那就可以抵禦群集的入侵，無論群集的規模多大。（參見《合作的競化》，頁99.2）

其實，Robert Axerlrod所採用的史密斯之「集體穩定性」界定是有些問題的。第一，「集體穩定性」的核心要點在於入侵策略是否具有擴散性，不一定非得原有的全體都採用同一個策略，只要數量上有接近全體的絕對多數就可以滿足量上的最低限條件了。而就此絕對多數的界定來看，由於「總是背叛」不具有演化上的相對優勢，因此，根本就不可能達到絕對的數量，因而也不能納入「集體穩定性」的討論範疇。換言之，要討論策略是否具有「集體穩定性」，須跨過演化上須具有相對優勢的門檻。

第二，「集體穩定性」因報酬之高低應該有優質與劣質之分，「總是背叛」的策略即使具有集體穩定性，也是總報酬低的劣質集體穩定性，相對的，「以牙還牙」策略則是總報酬高的優質集體穩定性。落實在社會來說，前者就是低信任度的社會，也就是市場經濟難以伸展的社會，相對的，後者則是高信任度的社會，也就是市場經濟發達的社會。

4.「以牙還牙」策略具有演化上的入侵性

「以牙還牙」策略如果能夠以小群體的模式而非單一個體模式進入「總是背叛」的原本大群體，是可以入侵成功的，也就是具有演化上的入侵性。理由如下：

第一，「以牙還牙」策略以小群體模式進入，彼此之間的互動可以累積較高的總分，因而具有本錢與採取「總是背叛」策略的個體進行探試性互動，如果遭到預料之中的背叛，還是在可承受的範圍。第二，「總是背叛」策略指的是每步背叛的機率極高，而不是指每步都是背叛，因而當採取「總是背叛」策略的個體偶爾採用合作時，如果碰到採取「以牙還牙」策略的個體，就可以獲得較高的報酬分數。第三，採取「總是背叛」策略的個體也是有理性者，就會有動機與該採取「以牙還牙」策略的個體持續合作，持續獲取較高的報酬總分，因而也就是轉變為採取「以牙還牙」策略者，這也就意味著「以牙還牙」策略入侵成功，隨時間的進展，可以由點逐漸擴散為面。（參見《合作的競化》，頁94.5-97.2）

「以牙還牙」策略既具有演化上的優勢，也具有入侵性，這其實是一體之兩面，充分顯示「以牙還牙」策略所具有的優勢不僅是在電腦模擬的理論上有效，在自然現實經驗上同樣也具有效力。

5.執行「以牙還牙」策略所需的心態

囚徒賽局的特性就在於沒有「納許均衡」之存在，因而在重複囚徒賽局裡，「以牙還牙」策略之所以勝出，不在於每一步的對局拿到最高分，而是在累積之下拿到最高的總分，換言之，「以牙還牙」策略並不欣羨或希望擊敗對手，而是希望共贏與共榮。因此，Robert Axerlrod也提醒執行「以牙還牙」策略所應有的心態如下：

第一，不要羨慕或忌妒。Robert Axerlrod指出，一般人習慣於「零和互動」的思考模式，也就是一方勝出時，同時意味著另一方的落敗，而以這樣的「零和互動」的模式作為人我的比較標準，如果對方比我還成功，也就意味著我是失敗的一方，自然就會心生忌妒，進而試圖扳回一城。然而在囚徒賽局的處境裡，這就只有祭出背叛才可能扳回一城，但只要啟動背叛，就會導致彼此背叛的惡性循環。因此，忌妒其實就是自我毀滅。（參見《合作的競化》，頁146.2-147.3）Robert Axerlrod強調，「除非你的目標是摧毀對方，否則拿自己和別人的表現作比較，並不是個好標準。」（《合作的競化》，頁147.4）

在實際的人類社會生活裡，絕大部分都是屬於非零和賽局的世界，而這樣的非零和賽局之世界，通常都屬找不到「納許均衡」的囚徒賽局，而即使是可以找到「納許均衡」的賽局，我方實行最佳策略所得到的最佳結果，也不見得一定會高於對方所獲得的最佳結果。因此，Robert Axerlrod指出，「在非零和世界裡，你們只須反求諸己，無須過度在意自己的表現是否超過對手。在你們與許多不同的對手互動時，這個道理尤其真切。」（《合作的競化》，頁148.3-149.1）他並強調，「無須對別人的成功心生嫉妒，因為在長期性的重複囚徒困境裡，對方的成功其實是你本身表現理想的先決條件。」（《合作的競化》，頁149.1）這也就是說，在塑造出的共贏共榮世界裡，他人的成功也就是你的成功，而他人能夠不斷的成功，也代表著你也能夠不斷地可以獲得成功。

第二，執行策略的態度明確。由於人總是難免有自私自利之心，在囚徒賽局的世界裡總是會有背叛以獲得更高利益的誘惑，因此，在彼此的互動之中，讓對手很明確理解我方的決策模式，可以預測我方的回應，也就是「你合作，我就會合作；你背叛，我就一定會以背叛回擊」，因而對手很容易就看出，合作是對待我方「以牙還牙」策略的最好方法，由是可以遏阻背叛的誘惑於無形之中。（參見《合作的競化》，頁160.4-161.2）

B4. 由「以牙還牙」來看「以直報怨」的精義

1.「以牙還牙」策略與寬容版

在重複囚徒賽局裡，「以牙還牙」（tit for tat」）策略係最優策略，累計的總得方必定勝出，它的策略特色是合作為首，再輔之以回擊與寬容，由是塑造共贏共榮的局面。而在回擊與寬容的輔助措施方面，較「以牙還牙」更寬容的有「一牙還二牙」，也就是對手背叛兩次，我方才採取報復；較「以牙還牙」更嚴厲的則有「二牙還一牙」，也就是對手背叛一次，我方就報復兩次。

不過，根據美國學者Robert Axerlrod的研究指出，不懲罰單一背叛行為的寬容版「一牙還二牙」，績效更卓越，這「凸顯出一個常見的謬誤，參賽者往往以為寬容度低於以牙還牙對他們有利，但實際上，更加寬容反而可為他們帶來更大的好處。」（《合作的競化》，頁66.2）這是因為「以牙還牙」策略有個麻煩，一旦雙方爭鬥開始，就可能無限期地持續下去，陷入背叛對背叛的惡性循環。如果對方是屬於「永遠背叛」策略，這樣的惡性循環本來就會產生，但如果對方僅僅是試探性的背叛策略，而非惡質性的背叛策略，開啟這樣的背叛對背叛的惡性循環，可說是自陷不必要的麻煩。因此，Robert Axerlrod認為，「比較理想的策略可能是只回報十分之九的以牙還牙，這會降低衝突來回擺盪的效應，但仍可嚇阻對方別嘗試任何無理的背叛。」（《合作的競化》，頁177.2）

2.「以直報怨」的精義

「以直報怨」基本上就是「以牙還牙」的策略，精確來說，更是寬容版的「以牙還牙」，由是進入共贏共榮的正面循環局面，故而具有如下的特色：

第一，「以直報怨」是以「以德報德」為主調，「以直報怨」僅僅只是扮演輔助的角色，絕不能反客為主。換言之，在與他人的互動之中，都是「以德」為主，「以德」為先，只要對方還未以「怨」對我，都是「以德」相對待，也就是，寧先給予對方利益，也絕對不會先背叛，損人利己以尋求自己更大的利益。而對方如果給予我方利益，當然也會增進對方利益以為回報。

第二，只要對方以「怨」對我，採取背叛行動而損減我方利益，就會立即回應。如果只有背叛或合作兩種選擇，回應之道會偏向寬容版的「以牙還牙」，也就是「一牙還二牙」，不會是嚴厲版的「以牙還牙」，也就是「二牙還一牙」。如果在現實的人生賽局，除了背叛與合作之外，還可以有「警告」或「中止合作」的選擇，那就會先選擇「警告」而仍然合作，如果再背叛，才採取「中止合作」的行動，而不是背叛對方以減損對方利益而增加我方利益。這也就是說，「以直報怨」的直道，仍然以君子之行對應對方小人之行，即使只有「背叛」的選擇，也是意在警告對方，而非意在尋求增加我方之利益。

第三，寬容對待以「怨」對我者。對方以「怨」對我，我當然也會立即回應，但在回應之後，如果對方改採合作的態度，仍然會給對方機會，以合作對合作，希望可以回到正向循環的軌道。這樣的寬容態度會持續到確定對方是惡性的背叛者之後，才會終止。「人非聖賢，孰能無過」，這是「以直報怨」的直道之具有寬容內涵的根本原因。

第四，「以德報德」必須具有不羨慕或嫉妒對方成就的心態。仁者「渾然與萬物同體」，並無人我之間，對手之成就也就是我之成就，此人我無間的仁者心態才是「以德報德」可以徹底實踐的基石。在彼我合作之下，如果對方所獲得的利益大於我方，無須羨慕或嫉妒，如果對方所獲得的利益小於我方，則須有分潤之心，這才是「以德報德」之道。

（2016.1.5初稿）

( 不分類｜不分類 )