미시건 대학교 로버트 액설로드(R. Axelrod) 교수는 전 세계 게임이론 전문가들에게 ‘컴퓨터 죄수의 딜레마 대회’에 대한 참여를 부탁했다. 잘 알려진 ‘죄수들의 딜레마’를 기본구도로 삼아 게임에서 이길 수 있도록 각자 고유한 게임 규칙을 프로그래밍해 출품해 달라고 한 것이다. ‘죄수들의 딜레마’는 이기적이고 계산에 밝은 두 ‘신고전학파 경제학적 인간’이 만나, 각 방에서 따로 검사의 취조를 받게 되면, 어떤 경우에도 둘은 서로 배신함으로써 최악의 상태에 이르게 되는 결과를 정식화한 게임이다. 이 게임은 원래 한 번만 치르게 되어 있다.

액설로드는 이 게임을 모든 프로그래머에게 일회성이 아니라 반복되도록 설계를 부탁했다. 이제 모든 경기자들은 앞에서 본 일회성 죄수들의 딜레마 게임과 달리 서로를 계속 만날 수 있다. 그 과정에서 서로에 대한 전략, 성격, 행동방식을 점차 알아가게 되고, 그 경험을 바탕으로 각자는 다음번 경기를 대비하게 된다. 경제학, 심리학, 사회학, 정치학, 수학 등 여러 분야의 게임이론 전문가들이 각자의 독특한 규칙으로 프로그램을 짜 다른 프로그램과 경기를 벌였다. 양자가 협력하면, 3점을 얻고, 둘 다 배반하면 1점만 획득한다. 그리고 상대가 “머저리”처럼 협력하고, 자신이 배반하면 5점을 얻지만, 상대는 0점을 얻게 된다. 보수행렬은 이전과 다르지 않지만, 이 게임이 계속해서 진행되는 점이 다르다. 그 끝도 정해져 있지 않다.
세상에는 이런저런 사람들이 모여 산다
대부분의 경제학 모델은 좋은 사람이든 나쁜 놈이건 ‘같은 사람’들이 사는 세상을 상상하고 있지만 실제 세상에는 여러 질의 사람들이 모여 산다. 이기적 호모에코노미쿠스만 살지 않는다. 남을 이용하려는 기회주의자 죄수도 산다. 그뿐 아니다. 배신을 모르고 협력만 추구하는 사회주의자도 살고, 배신에 눈감아 주는 선한 이타주의자도 산다. 더욱이, 못된 놈은 결코 용서하지 못하고 반드시 응징하며, 착한 사람 만나면 선한 마음을 보이는 정의파도 존재한다. 현실 세상은 실로 다채롭다. 모든 인간을 하나의 인간형으로 환원시켜 모델을 만드는 경제학자들은 얼마나 황당한 사람들인가!
전 세계적으로 참가한 게임이론 전문가들은 이러한 현실 세상을 자연스럽게 보여 주었다. 1차 게임에서 15개 프로그램이 출품되었고, 2차 게임에서는 62개 프로그램이 출전해 겨루었다. 누구든 한 번씩은 만나 경기를 치러야 했고, 그 모든 경기에서 각자가 얻은 점수를 평균해 순위를 정했다. 순위를 알아보기 전에 출전한 경기자들의 전략을 살펴보자. 복잡성을 피하기 위해 1차의 15개와 2차의 62개를 뭉뚱그려 살펴보자. 모든 프로그램이 우리 인간군상의 면면을 잘 표현해 주고 있지만, 그 가운데서도 우리 주위에서 흔히 볼 수 있는 인간형, 곧 전형적인 인간을 묘사한 프로그램 몇 가지만 예를 들어 보는 것으로 만족하자.
첫째, ‘이에는 이, 눈에는 눈’의 ‘팃포탯’(Tit-for-Tat) 전략을 행동의 규칙으로 삼는 프로그램이 토론토 대학교의 아나톨 라포포트(A. Rapoport) 교수에 의해 제출되었다. 이 프로그램의 행위자는 절대로 ‘먼저’ 배반하지 않는다. 그러나 상대가 배반하면, 즉시 배반으로 응징한다. 물론 협력에 대해서도 곧바로 협력으로 보답한다. 이래서 ‘맞대응 전략’이라고도 한다. 그러나 이 프로그램은 과거의 배반에 대해 마음에 담아두지 않는다. 이전에 배반한 적이 있더라도, 다시 협력을 시도해 오면 두말없이 받아 주는 것이다. 뒤끝이 없는 사람이다. 또, 규칙이 대단히 간결하고 선명해 누구나 알아볼 수 있다. 자신을 숨기지 않는 솔직한 사람인 셈이다. 멋진 사람이긴 한데, 흔치는 않다.
‘프리드먼’이라고 이름 붙인 두 번째 프로그램은 뒤끝이 아주 심한 사람이다. 용서란 본래 상대가 배신한 다음 게임에서도 협력하는 관용성이다. 그러나 프리드먼은 끝까지 복수만 할 뿐, 용서라고는 모르는 프로그램이다. 결코 먼저 배반하지 않지만, 상대가 일단 배반하면 그때부터 자기도 배반한다. 그리고 상대의 배반을 영원히 잊지 않는다. 이 사람한테는 한번 밉보이면 끝이다. 먼 과거 행적에 눈감아 주는 팃포탯과 다른 점이다. 제 맘대로 사람을 부릴 수 있는 부자나 권력자들이 주로 이런 행동방식을 보여 준다.
세상에는 얌체족도 있다. ‘요스’라는 세 번째 프로그램인데, 요스는 팃포탯처럼 상대의 배반에는 바로 다음 게임에서 즉각 배반으로 응징한다. 그러나 상대의 협력에는 항상 협력하지 않고 열 번에 한 번 정도 배반한다. 그러니까 상대를 가끔가다 슬쩍 이용해 먹는 것이다. 잘 나가다 뒤통수를 치면서 시치미를 뚝 떼는 놈이다. 우리 주위에 돈 떼먹고도 아무 일 없었던 듯이 만나 즐겁게 노는 친구들이 있다.
‘다우닝’이라는 이름을 가진 네 번째 프로그램은 ‘성과 극대화 원칙’을 따랐다. 엄청나게 정교한 계산을 거쳐 장기적으로 최적의 해를 찾아낸다는 점에서 오리지널 호모에코노미쿠스에 속한다. 그러나 매우 신중하다. 확률적으로 만약 상대 경기자가 다우닝의 협력을 갚는 반응을 하지 않을 것 같으면, 배반함으로써 가능한 최대 이득을 얻으려 한다. 반대로 상대가 협력의 반응을 보이면 협력한다. 게임마다 매번 조건부 확률을 새로 계산한 후, 상대방을 정확하게 모형화하였다는 가정 아래 장기적 보상값을 극대화시킬 수 있는 행동을 선택한다. 이익에 밝으면서도 무척 수학적이다. 영리하다고도 말할 수 있다. 나도 경제학과 출신이고 경영학과에 소속된 적이 있지만, 이 학과 출신들이 주로 이런 것 같다.
다섯 번째로 소개될 프로그램 ‘테스터’는 2차 대회에 등장했다. ‘테스터’는 고의로 몇 번 배반해 보면서 이득을 살피는 프로그램이다. 이른바 ‘간보기’ 전략을 구사하는 것이다. 테스터는 호락호락한 상대를 찾아내도록 설계되었으나, 상대가 착취당하지 않겠다는 모습을 보일 때는 언제든 뒤로 물러서게 되어 있다. 이 프로그램은 상대방의 반응을 보기 위해 첫 게임에서 일단 배반해 본다는 점에서 특이하다. 이런 도전에 혹시 상대가 배반으로 나오면 사과의 뜻으로 협력하고, 나머지 게임은 줄곧 팃포탯으로 진행해 나간다. 반면 상대가 눈감아 주면, 두 번째와 세 번째 게임에서 협력하고 그다음부터는 한 게임 건너 한 번씩 배반한다. 엄청 친하지는 않은데, 어쩌다 동창회나 가족 경조사에 참석해 이런 일을 일삼는 빈대(!)들이 있다. 그들한테 당하기도 하지만, 떡 사먹었다고 생각해 버리며 잊곤 한다.
여섯 번째 ‘트랜퀄라이저’라는 프로그램은 좀 더 은근한 방법으로 많은 상대를 이용해 이득을 취하고 따라서 도전 방법도 간교하다. 이 프로그램은 우선 상대방과 상호이득 관계를 잘 다지고, 그 후에야 뭔가 몰래 취할 구석이 있는지 조심스레 탐색한다. 전형적으로 ‘키워 잡아먹는’ 놈이다. 이 프로그램은 보통은 협력하지만, 너무 자주 배반하면 언제든 같이 배반할 수 있다. 따라서 상대가 협력하고 있으면 처음 열 번 혹은 스무 번까지는 계속 협력한다. 그러다가 느닷없이 배반한다. 그러고 나서 아무 일도 없었던 듯, 입 싹 닦고 협력을 제시한다. 상호협력의 패턴이 다져지면, 또 배신한다. 그래도 상대가 계속 협력으로 나오면 배신은 차츰 빈번해진다. 믿는 도끼에 발 등 찍히는 격이지만, 이게 한두 번이 아니다. 못 말리는 진짜 피곤한 상대다. 처음 몇 번에는 이자와 수익금(?)을 꼬박꼬박 지급하는 금융사기꾼들이 트랜퀼라이저가 아닌가 싶다.
세상에는 이처럼 악인만 있는 게 아니다. 팃포탯처럼 정의로운 사람도 있지만 팃포탯보다 더 다정한 사람도 있다. 절대로 먼저 배반하지 않고, 오랜 과거의 배반을 용서한다는 점에서 팃포탯도 물론 다정한 축에 속한다. 하지만 일곱 번째 프로그램인 ‘팃포투탯’(Tit-for-Two-Tat)은 좀 더 ‘좋은’ 사람으로 보이는데, 왜냐하면 그는 상대방의 배반을 두 번까지는 용서해 주기 때문이다. 사람은 좋지만, 악마들의 먹잇감이 되기 쉬울 것 같은 느낌이 든다. 세 번 이상, 심지어 모든 배반을 용서해 주는 팃포올탯(Tir-for-All-Tat)도 있겠지만, 아무튼 내 복창이 터질 정도로 착하기만 한 사람들이다.
정의롭고 선한 사람이 승리한다
이 모든 프로그램의 특징들을 요약해 보자. 첫 번째 팃포탯 프로그램과 일곱 번째 ‘팃포투탯’ 프로그램은 ‘신사적’이다. 절대로 ‘먼저’ 배신하지 않기 때문이다. 또, 횟수는 서로 다르지만, 용서를 해주는 점에서 관용적이고 다정하다. 더욱이, 행동방식이 매우 심플해 누구나 이해할 수 있다. ‘크레믈린’처럼 속이 시꺼멓지 않고, 솔직하고 정직하다는 점이다. 마지막으로 첫 번째 ‘팃포탯’에만 해당되지만, 매우 정의롭다는 점이다. 잘못을 보고 결코 지나치지 않으며, 선행을 보면 반드시 칭찬하고 격려해 주는 것이다.
두 번째 ‘꼰대’를 제외한 나머지 프로그램은 모두 ‘비신사적’이다. 이들은 배반이 일상화되어 있고, 틈만 나면 뒤통수를 치는 기회주의자들이다. 은혜를 원수로 갚고, 배반에 대해서는 어떤 관용도 베풀지 않는 냉혈한이며, 흑심으로 가려진 행동방식은 예측을 불허하였다. 도덕심이라고는 찾아볼 수 없이, 오로지 상대를 착취하고 이용하기 위해 태어난 이들을 액설로드는 “비열한”이라고 불렀다.
게임의 결과는 어떨까? 이기심과 경쟁을 칭찬하고 도덕을 조롱하는 신고전학파 경제학자들은 정의롭고 신사적인 첫 번째 팃포탯과 착한 일곱 번째 티포탯투가 완패하고, 최고의 계산능력가인 다우닝, 얌체족 요스, 간보기꾼 테스터, 키워 잡아먹는 트랜퀼라이저 등 영악한 기회주의자들이 승전가를 부를 것이라고 확신하고 있을 것이다. ‘이기적이고 계산에 밝으며, 타인을 착취하는 본성에 충실하라. 그러면 쾌락, 이익과 성공을 얻을 것이며 사회는 조화롭게 발전할 것이다!’ 그러나 게임의 결과는 그들의 예상과 완전히 달랐다.
먼저 1차 대회와 2차 대회 모두 신사적 프로그램들의 성적이 압도적으로 좋았다. 1차 대회에서 상위 8위 안에 든 것은 팃포탯을 포함해 모두 ‘신사적’ 프로그램이었다. 이들이 얻은 성적은 600점 만점에 472점과 504점 사이를 오갔다. 신사적 프로그램의 성적이 기대에 약간 못미치는 이유는 이들이 끝없이 배반을 일삼는 비신사적 프로그램과 대결하는 과정에서 이용당하고 착취당하기 때문이다. 나쁜 놈과 만나면, 성과가 줄어들 수밖에 없다. 이런 악조건 속에서도 얻어낸 이 점수는 신사적 행동의 경쟁력을 입증하는 것이다.
물론, 신사적 프로그램끼리 만나면 모두 600점을 달성했다. 신사적 프로그램들은 처음부터 끝까지 서로 확실하게 협력하기 때문이다. 반면, 나머지 7개 비신사적 프로그램의 점수는 신통치 못했다. 7개 중 4개가 300점 언저리나 그 이하에 머물렀다. 좋은 사람끼리 만나면, 삶이 행복해지고 세상은 멋지게 변하는 것이다.
거론된 비열한들의 성적을 알아보자. 1차 대회에 참가한 영리한 다우닝과 얌체족 요스는 15개 프로그램 가운데 각각 10위와 12에 머물렀다. 그렇다면 1위는 누구인가? 평균 504점을 얻은 팃포탯이다. 물론 얌체족 요스와의 대결에서 팃포탯은 224점의 낮은 점수를 기록하고 말았다. 못된 놈 앞에서 당할 자가 없다. 그러나 요스도 팃포탯으로부터 크게 얻은 게 없다. 팃포탯을 착취해서 얻은 이익은 230점에 불과했다. 팃포탯이 제대로 응징해 버렸기 때문이다. 2차 대회에 참가한 ‘키워 잡아먹는’ 트랜퀼라이저와 ‘간보기꾼’ 테스터도 62개 프로그램 중 각각 27위와 46등에 머물렀다. 2차 대회에서의 승자도 팃포탯이었다.
팃포투탯의 운명이 궁금할 것이다. 아쉽게도 좀 더 다정하고 관대한 티포투탯은 3위 안에 들지 못했다. 두 번 연속 배반은 응징하지만, 드문드문 딱 한 번씩만 하는 배반에 대해서는 관용을 베푸는 팃포투탯의 너그러움을 이용해 득을 보는 비열한들이 있었기 때문이다. 이들에게 팃포투탯은 호구(!)였다. 그러나 다른 신사적 프로그램과의 경기에서 팃포투탯은 매우 좋은 성과를 보여주었다. ‘선을 행하다 낙심치 말라. 때가 이르면 거두리라.’ 물론 이는 팃포탯처럼 선하면서도 정의로운 프로그램이 많을 때에 통하는 말씀이다!
의로운 사람, 선한 사람, 공리주의자, 기회주의자, 비열한 등 각양각색의 인간들이 서로 수세대를 걸쳐 대결하고 협조해 나가면 최종적으로 어떤 사람들이 살아남을까? 진화의 미래를 예측해 보는 것이다. 액설로드는 이전 경기, 곧 앞 세대에서 성공하지 못한 프로그램을 제외해 나가면서 1,000세대에 거쳐 모의실험을 시행해 보았다. 50세대에 이르자 하위권 1/3이 멸종되고, 중위권 대부분은 축소되며 상위권 1/3은 계속 성장하였다. 1,000세대에 이르자 팃포탯은 명실공히 가장 성공적인 프로그램이었고 다른 어떤 프로그램보다 빠른 속도로 성장하고 있었다. 1, 2차 경기와 미래세대 모의실험 결과를 종합해 볼 때 팃포탯은 성공을 보장하는 최고의 전략이자 가장 강건한 전략임이 분명하다.
액설로드는 팃포탯의 성공요인을 이렇게 정리한다. “팃포탯의 강건한 성공은 신사적이고, 보복적이고, 관대하고, 명료한 특성들이 조합된 결과다. 신사적이라 쓸데없는 문제에 휘말리지 않고, 보복적이라 상대가 배반을 시도할 때마다 더 이상 지속하지 못하게 억제한다. 관대함은 상호협력을 회복하는 데 도움이 되며, 명료성은 상대로 하여금 이해하기 쉽게 해서 장기적 협력을 이끌어 낸다.”(액설로드, 2024, p.86) 협력은 이렇게 진화해 온 것이다. 그리고 협력은 팃포탯이 견지한 이러한 ‘호혜주의’의 덕에 진화에 성공할 수 있었다.
제도가 개선되지 않으면 팃포탯도 도태된다
비신사적 프로그램의 운명과 관련해 흥미로운 결과 하나가 지적되었다. ‘해링턴’이라는 프로그램인데, 그것은 2차 대회의 상위 15개 전략 중 유일하게 비신사적이었던 프로그램이다. 처음 200여 세대까지 팃포탯과 다른 성공적인 신사적 프로그램들이 집단 내 비율을 늘려가는 동안 해링턴 역시 세를 증가시키고 있었다. 그 이유는 해링턴이 착취적 전략을 구사하기 때문이었다. 해링턴은 자신의 동료격인 비신사적 프로그램은 물론 신사적 프로그램을 호구로 전락시켰다. 착취로 인해 성공 가도를 달리는 듯했다.
그러나 200여 번째 세대에 이르자 판도가 바뀌기 시작했다. 덜 성공적인 프로그램들이 멸종되기 시작했다. 이것은 해링턴이 이용할 먹잇감이 점점 적어짐을 의미했다. 해링턴은 곧 성공적인 신사적 규칙들의 성적을 따라잡기 어렵게 되었고, 1,000번째 세대에 이르자 자신의 먹잇감이었던 착취적 규칙과 함께 멸종의 운명을 맞았다. “비신사적인 것이 처음에는 유망해 보이지만 장기적으로 그것은 자신의 성공에 필요한 환경 자체를 스스로 파괴하는 게 된다.”(p.84) 호혜주의의 번영과 함께 기회주의 멸종을 액설로드는 이렇게 전망했다.
액설로드의 실험결과는 비주류경제학자, 특히 그 중에서도 제도학파 경제학자인 내게 매우 고무적이다. 진보 특히 ‘좋은삶’의 성공적 진화 가능성과 더불어, 신고전학파적 정글세계의 도태가능성을 가장 강력하고도 정교한 방식으로 전망할 수 있게 해주기 때문이다. 컴퓨터 프로그램은 그 어떤 실험실 실험과 fMRI(기능적 자기공명영상) 촬영 결과보다 객관적이다.
하지만 게임 결과에 대한 그의 해석에 대해 나는 약간의 유보조항을 달고 싶다. 팃포탯이 협력에 성공한 이유는 그것이 호혜주의를 채택했기 때문이다. 팃포탯이 보여 준 호혜주의는 배신하지 않는 의로움, 단호한 공정성, 다정한 관용, 밝은 진솔함인데, 이는 바로 우리가 주목하는 도덕적 덕목과 다르지 않다. 우리 종은 협력을 통해 진화에 성공했고, 이 도덕적 본성 없이 협력은 불가능했을 것이다. 협력의 진화에 도덕의 진화가 선행한다는 말이다!
그는 세계 제1차 대전 당시 서부전선에서 프랑스군과 독일군이 서로 전투를 자제한 사실을 근거로 삼아 “우정”이나 사랑이 없어도 협력은 일어날 수 있었다고 주장한다. 하지만, 그러한 협력은 매우 간헐적이고 단기적으로만 가능했는데, 거기에는 인류애와 관용, 그리고 보편적 사랑 같은 도덕이 자리를 잡을 수 없었기 때문이다. 우정과 사랑이 뒷받침되지 않는 협력은 사상누각과 같다. 정의, 공정, 진솔함, 그리고 관용, 다정함, 우애와 친화력과 같은 도덕적 본성 없이 협력은 진화에 실패했을지도 모른다.
제도경제학자만이 지적할 수 있는 액설로드가 놓친 또 하나의 중요한 조건이 있다. 다양한 프로그램들이 경기를 벌이는 컴퓨터의 세계는 ‘제도적 진공상태’와 같다. 경제력, 정치력, 사회적 공모, 문화적 이념으로부터 자유로운 공간이라는 말이다. 가상공간이 아닌 실제공간은 경제적 불평등이 만연하다. 그것은 전략의 합리적 선택을 불가능하게 만든다. 더욱이 불균등한 정치권력은 지배와 피지배관계를 고착시켜 합리적 선택을 봉쇄한다. ‘사회적 자본’을 악용하는 지배엘리트의 사회적 공모는 팃포탯을 지속적으로 배제한다. 더욱이 매스미디어, 교육, 관습을 통한 지배세력의 이데올로기는 신사적 프로그램들을 비신사적 프로그램으로 바꾸어 버린다.
이런 ‘비열한’ 친화적 제도환경 아래서는 액설로드의 실험결과와 반대로 신사적 프로그램이 멸종하고, 비신사적 프로그램이 오히려 진화에 성공할 수 있다. 미래세대 모의실험에서 해링턴이 성공가도를 달리는 것과 같다. 액설로드의 게임에서 해링턴은 200세대에서 멸종의 길을 걷게 되었지만, 비열한들의 제도환경에서 그것은 1,000세대를 지속할 수도 있다. 물론, 대다수 프로그램을 호구로 만들어 착취하면서 말이다.

살인적인 입시경쟁, 폭등하는 사교육비, 학교폭력, 열악한 육아제도, 반출생적 기업문화, 극단적 지역불균형, 불안정한 노동환경! 이 모든 것은 요스, 다우닝, 트랜퀼라이저, 테스터, 그리고 해링턴처럼 비신사적이고 착취적인 종들이 성공할 수 있는 제도적 환경이다. 액설로드의 게임실험은 실로 고무적이다. 그리고 우리 종의 도덕적 본성에 주목하면 그 전망은 더 밝고 탄탄하다. 하지만, 이런 비열한 제도가 혁파되지 않는 한, 전망이 그리 밝아 보이지도 않아 여전히 우울하다.

글·한성안
문화평론가. 경제학자. 영산대학교수를 역임했다. 현재 '좋은경제연구소장'으로 활동하면서 집필, 기고, 강연 중이다. 페이스북과 블로그를 통해 진보적 경제학을 주제로 시민들과 활발히 소통 중이다.
- 정기구독을 하시면, 유료 독자님에게만 서비스되는 월간 <르몽드 디플로마티크> 한국어판 잡지를 받아보실 수 있고, 모든 온라인 기사들을 보실 수 있습니다. 온라인 전용 유료독자님에게는 <르몽드 디플로마티크>의 모든 온라인 기사들이 제공됩니다.