알파고의 언어를 어떻게 이해할 것인가: 하나의 가설
2017-08-31 배인철 | 문화평론가
바둑의 미래 서밋 직후 딥마인드사가 공개한 ‘알파고 간의 대국(Self-play games)’ 강화학습 50국에는 전통적인 바둑이론을 정면으로 부정하는 수법들이 자주 발견된다. 그 수법들은 매우 난해해서, 프로기사들조차 규명하기 어려운 해석의 문제, 즉 기호학적 해독의 문제를 내포한다. 이 글에서는 초보적 가설이나마, 알파고 간의 착수교환이 게임이론에서 통용되는 내쉬 균형(Nash equilibrium) 경로와 유사하다는 해석을 제시한다. 이 관점은 ‘바둑=조화(調和)’라는 기성 우칭위안의 정의를 되돌아보는 계기를 제공하며, 고차원적 전략게임에 내재한 인간의 제한적 합리성(Bounded rationality)을 인지하고 보완하는 데 인공지능이 도움을 줄 수 있음을 시사하는 것이기도 하다.
다시 알파고를 논하는 이유
이 글은 본지 6월호에 게재된 기사(<들뢰즈의 눈으로 본 ‘알파고 바둑’의 미학>)의 후속편에 해당한다. 당시 필자는 알파고의 등장이 인간 인식영역을 확장하는 동시에, 승부가 아닌 예(藝)로서의 바둑 미학 복원에 중요한 계기가 될 것이라고 전망했다. 그런데 송고 직후인 5월 27일 바둑의 미래 서밋 행사가 종료된 후 매우 흥미로운 일이 벌어졌다. 구글 딥마인드사가 인공지능 강화학습 기록물에 해당하는 ‘알파고 간의 대국(Self-play games)’ 50편을 공개한 것이다. 프로기사들은 충격에 빠졌다. 알파고와의 상담기(일류기사 5명이 상의한 최선의 결과로 알파고와 겨룬 대국) 일원이었던 중국의 스웨 9단은 “여태까지 결코 본 적이 없는 대국이며, 상상하던 저 먼 미래의 대국 같다”는 소감을, 이세돌 9단의 라이벌이었던 구리 9단도 “알파고 간의 대국은 정말 놀랍다”며, “이를 통해 많은 것을 배울 수 있을 것”이라는 의견을 피력했다.(1)
과연 어떤 점이 놀라운 것인가? 앞으로 두 가지 관점, 즉 1)기보를 인공지능의 알고리즘에 의해 기호화된 하나의 메타언어(Meta-language)(2)로 간주할 때 발생 가능한 해독 불가능성 그리고 2)인공지능이 바둑이라는 게임의 룰을 이해하는 방식에 관한 필자의 추론에 기초해 살펴보고자 한다.
튜링테스트와 이종언어
‘튜링테스트’라는 것이 있다. 컴퓨터 공학의 아버지라 불리는 영국의 앨런 튜링이 고안한 것으로, 기계가 지능을 가졌는지 여부를 판단하기 위한 일종의 사고실험으로 알려져 있다. 실험 대상자는 상대방이 기계인지 인간인지 모른 채 교신하도록 설정된다. 그가 자신의 질문에 대한 응답을 보고서 그것이 기계로부터 온 것인지, 아니면 인간으로부터 온 것인지를 식별하지 못한다면, 기계는 비로소 지능을 가진 것으로 통과된다. 이런 기준에 따르면, 기계의 지능적 반응은 인간과의 장기간 교제를 거친 후에 더 이상 인간적인 것과 구분할 수 없게 되는 어떤 것에 해당한다.(3)
강화학습 기보가 주는 생경함은, 인간과 뒀던 내용과 현저히 다른 기계적 색채에서 비롯된다. 그 이질성은 한 언론의 보도기사 제목처럼 ‘외계인이 기보를 던져준 느낌’으로까지 묘사되기도 한다.(4)
대표적 사례인 1국을 보자([그림 1]). 초반 포석단계에서 백1~3 연속해 붙이는 수법은 인간이 둘 수 없는 수, 정확히 말하면 인간이 지금껏 두지 않았던 수에 해당한다. 일종의 응수타진(5)으로, 결과가 불확실한 만큼 금기의 수에 가깝다. 그런데 알파고는 어째서 저런 수를 두는가? 프로기사도 모른다. 멀리 떨어져 있는 흑백 두 개의 돌(원/세모 표시)과 관련이 있다고 추측할 수 있을 뿐이다. 약간의 이해를 돕기 위해 인간계의 바둑과 비교해 보자([그림 2]). 흑1과 3은 알파고의 감각에 가장 가까운 수를 뒀던 기사로 평가되는 우칭위안 9단의 수로, 그 의도는 명확하다. 하변에 흑 돌을 배치해 백 넉점(세모 표시)을 수중에 넣겠다는 연계 플레이다. 백이 4로 방비하자, 5~7로 두어 중앙 쪽 라인을 강화한다. 중앙에 고립된 흑 여덟 점(원 표시)의 진로를 염두에 둔 것으로, 백의 응수에 따라 전략을 달리하겠다는 고도의 계산이 깔려있다. 이에 비하면 [그림 1]의 백 1~3은 안개에 휩싸인 듯 모호하다. 이런 수들이 곳곳에 등장하니 다음과 같은 푸념이 나온다.
실전에서 즉시 써먹을 수 있는 수법 30%, 연구해야 할 수법 30%, 도저히 알 수 없는 수법 30%라 보면 된다. 마지막 30%는 솔직히 따라갈 수 없는 정도의 수준이다. 감각 자체도 따라가기 어렵고 이후의 진행이 전혀 예측이 안 된다. 프로와 아마의 차이라 말하면 설명이 쉬울까. 알파고의 바둑은 해설이라고 하면 안 되고 감상이라 해야 한다. 처음 한두 수 흉내 내는 것과 완벽히 알고 있는 것은 엄청난 차이 아닌가. 지금 우리가 알파고를 바라보는 시선이 그렇다. 집에 가면 보관하고 있던 바둑책부터 내다 버릴 작정이다.(6)
명해설자인 김성룡 9단은 커제 9단과의 대국에서 드러난 알파고 바둑의 기술적 특징을 다음과 같이 결론지었다.
1. 우리가 알고 있는 수를 적재적소에 두는 점
2. 예상치 못하게 찔러오는 응수타진
3. 몇 차원 높은지 예측하기 힘든 계산능력
4. 바둑을 간명하게 만드는 힘
5. 자유자재의 기풍
여기서 당연한 의문이 생긴다. 위의 특징들은 다섯 번째를 제외하면, 인간 또한 갖춰야 할 승리의 조건이 아닌가? 그런데 이미 언론이 보도했듯이, 작년 이세돌과 대국할 당시와 비교해 볼 때 금년 커제와 대국한 알파고의 바둑은 인간의 바둑에 보다 가까워진 것으로 알려졌다. 인공지능이 인간다워진다는 것은 일종의 진화이며, 간혹 발생하는 사소한 오류를 교정해나가는 ‘세련화’ 과정으로 이해됐던 것이다. 그런데 알파고 간의 대국에서 나타난 착수는 어째서 튜링테스트를 통과하지 못할 정도로 ‘기계다움’을 노출한단 말인가? 이종언어처럼 도저히 알 수 없다는 30%의 수법은 또 어떻게 이해해야 하는가?
내쉬균형(Nash Equilibrium)과 바둑
영화 ‘뷰티풀 마인드(Beautiful Mind)’의 주인공으로 잘 알려진 수학자 존 내쉬(John F. Nash)는 현대 게임이론 발전에 중대한 기여를 한 것으로 평가된다. 그의 균형개념은 게임 참여자들이 각자 어떤 특정 전략을 선택해 하나의 결과가 나타났을 때, 모두가 이에 만족하고 더 이상 전략을 변화시킬 의도가 없는 상태를 가리킨다. 흔히 ‘죄수의 딜레마’로 요약되기도 하는 이 개념은 그의 논문제목처럼 각자의 협조적 선택이 서로에게 최선임에도 불구하고 자신만의 이익을 고려한 선택으로 모두에게 나쁜 결과를 야기하는 비협조적 게임의 특성을 잘 묘사해, 경제학뿐만 아니라 심리학, 진화생물학 등 여러 분야에서 게임 참여자의 전략적 행위를 이해하는 분석 틀로 확장됐다.(7)
바둑에 내쉬 균형을 적용한다는 것은 무엇을 의미하는가? 크게 두 가지로 요약할 수 있을 것이다.
1. 균형에 도달하기 위해서는 상대방에 대한 완전정보를 가지고 있어야 한다.
2. 1을 전제로, 쌍방 모두를 만족시키는 최적상태, 즉 균형점이 존재한다.
바둑이 종료됐을 때 균형에 도달한다는 것은 무엇을 의미하는가? 승부를 짓는 것을 최종목적으로 삼는 인간계의 경우, 그것은 화국(和局) 즉, 무승부(덤이 없는 시대의 판빅, 덤이 합리적임을 가정하면 어느 한쪽의 반집 승, 또는 반집 패)에 해당한다. 기성 우칭위안이 설파한 “바둑은 조화”라는 이상적 상태가 실현되는 셈이다. 그러나 인간들끼리의 시합에 있어 부분균형이라 할 수 있는 정석의 합이 곧 전체균형(판빅)이 된다는 것은 거의 불가능하다. 승리를 지상목표로 한 대국자들은 상대의 의표를 찌름으로써 균형을 깨는 것이야말로 승리를 위한 최선의 전략으로 간주할 것이기 때문이다. 또한 상대방의 기호(Preference)를 모르는 상태에서, 최선의 전략적 선택은 불확실해 균형이 깨지기 쉽다. 결론적으로 현실적 시합에서 대국자는 매 수마다 균형의 파괴(극단적 상태는 불계승/패)를 도모한다.
반면 알파고 간 대국의 경우 ‘게임의 룰’ 자체가 다를 여지가 있다. 대국의 목적이 상대방을 제압하는 것이 아닌, “자체 경기력을 높이기 위한” 강화학습이기 때문이다.(8) 만약 알파고 알고리즘의 목적함수가 ‘승리’가 아닌 ‘최선의 수’를 찾는 것이라면, 매번의 착수는 전국적 균형에 이르는 길을 탐색하는 협조게임이 더 효율적일 수 있기 때문이다. 이런 가설을 세우면, 알파고의 착수는 새로운 의미를 갖는다. 자신의 기호(착수 성향, 인간의 경우 ‘기풍’에 해당)에 대한 기본지식이 갖춰져 있으므로, 인간에 비해 균형 값을 찾을 가능성이 훨씬 커진다. 이는 사람이 홀로 바둑판 앞에 앉아 흑백의 돌을 번갈아 놓으며 매번 최선의 수를 찾는 상황과 유사하다.
물론 쌍방이 일방의 전략 수정을 통해 이득을 볼 수 없다는 내쉬 균형의 조건이 완벽히 충족되기 위해서는 매번 상대의 착수에 대한 완전정보가 필요하다. 시시각각 판세가 미묘하게 달라지는 바둑의 속성에 비춰 볼 때 이는 상식적으로 불가능에 가깝다. 그러나 물리적 ‘시간’의 제약을 초월할 경우 이야기는 달라진다. 간단한 예를 들어보자. A, B 두 사람이 여름철 피서를 가기로 했는데, A는 강릉을, B는 제주도를 선호한다. 그러나 두 사람이 함께 가는 것을 우선시한다면, 함께 강릉으로 가거나 제주도로 가는 두 개의 균형이 존재한다. 이 경우 A의 입장에서 B의 선호체계를 파악해 타협점을 찾는 시간이 짧으므로 균형 달성이 용이한 것이다.
그런데 함께 갈 사람 수가 10명으로 늘어나고, 개인의 선호도가 다 다르다면 상황이 매우 복잡해진다. A가 실행할 수 있는 경우의 수가 2으로 늘어나고, 10명 모두 그만큼의 정보를 공유하는데 상당한 시간이 소요되기 때문이다. 이처럼 인간이라면 거의 실현 불가능한 상황이, 인공지능의 경우 가능해졌다. 바둑에서 의사소통 과정은 곧 착수인데, 알파고는 가치망을 통해 순식간에 계산하고 그 계산을 가치망에 반영해 착수를 결정할 수 있기 때문이다.(9) 단시간에 수천, 수만 판의 대국을 소화하는 알파고의 강화학습은 그 자체가 자신을 들여다보는 내면적 성찰과정이며, 스스로의 협조 때문에 매순간 균형을 쌓아가는 강력한 훈련과정이 될 수 있는 것이다.
이런 가설하에서는 알파고 간 대국을 보는 관점 자체가 달라지므로, 그 착수의 성격을 기호적(10) 특성으로 수정할 수 있다.
1. 간명한 정석을 선택한다.
2. 초반부터 응수타진이 잦다.
3. 대부분 반집 승부이다.
4. 두터움을 활용하는 능력이 탁월하다.
5. 손 빼는 타이밍이 인간과 다르다.
3과 4는 알파고의 계산능력과 직결되지만, 해석은 달라진다. 알파고 간 대결은 결과가 반집으로 끝날 만큼 균형을 ‘쌓아가는’ 과정이며, 실리를 포기하고 취하는 두터움도 [그림3]에서 보듯 그 기회비용과 등가이다. 1의 취향도 동일한 논리로 설명할 수 있다. 정석은 상당 기간 합의된 균형의 표현이지만, 간명한 것일수록 균형 값 계산이 쉬워진다. 2의 ‘응수타진’과 ‘손 뺌’은 앞에서 설명한 의사소통과 관계된다.
[그림1]에서 보이는 응수타진이 ‘초반’에 나타난다는 점을 주목하자. 균형을 쌓아가는 협조게임에서는 상대방의 전략을 일찍 파악할수록 착수를 결정하기 쉽다. 초반에 다짜고짜 붙이는 응수타진은 상대방 전략을 효율적으로 탐색하는 행위이다. 알파고의 때 이른 3·三 침입도(‘묻지마 3·三’이 아니라) 어느 쪽을 막을지 타진하는 합리적 행위이며, ‘손 뺌’은 전국적 균형을 감안한 대안적 선택이다. 상대방이 둔 착수의 가치에 상응하는 즉각적 보상(payoff)이 어렵다는 계산 하에 이루어진 선택이므로, 손을 뺀 계기에 대한 인간적인(?) 해석이 어려워진다.
제한적 합리성(Bounded rationality)과 직관
딥마인드사가 공개한 알파고의 강화학습 기보는 바둑의 이해를 위한 새로운 지평을 제공한다. 알파고의 착수교환이 내쉬 균형에 이르는 경로에 해당하는 협조게임이라고 가정하는 순간, 반대 방향에서의 해석도 가능해진다. 모양이 정돈되지 않은 상태에서의 응수타진과 손 빼기 등에 대한 인간의 해석이 이 균형파괴자(Equilibrium breaker)의 입장에서 제시된 것이라면, 균형모색자(Equilibrium seeker)로서의 인공지능을 이해하는 문이 열린 것이다. 그것은 오히려 기성 우칭위안이 설파했던 ‘조화(調和)’를 달성하기 위한 이상적 원리에 더 가깝다.
인지과학(Cognitive science)을 도입해 노벨경제학상을 받은 허버트 사이먼은 인간이 확신해 온 합리성의 실질적 토대가 실은 매우 취약하다는 점을 ‘제한적 합리성’이라는 용어로 요약한 바 있다. 인간이 소유한 직관은 분석과 별도로 작용하는 과정이 아니라, 잠재적인 패턴인식 과정이며 효과적인 의사결정의 구성요소라는 것이다. 주목할 것은 바둑계의 상식과 정반대로 인공지능이 바로 이 ‘설명되지 않은 영역’의 탐구에 있어서 특별한 도움을 줄 수 있다는 그의 예언이다.
인공지능은 능히 두 개의 목적을 갖는다. 그 하나는 우리가 마치 인간이나 말(馬)의 힘을 보강하기 위해 모터를 이용하는 것처럼 인간의 사고력을 키우는데 컴퓨터를 활용하는 것이다. 또 하나는 인간의 사고방식을 이해하기 위해 컴퓨터의 인공지능을 활용하는 것이다.(11)
인간의 지적 활동의 본질은 체스(또는 바둑)를 두는 기계에 의해 가장 잘 알 수 있다는 그의 주장은 과연 어느 영역까지 확장 가능한 것일까? 야심에 찬 딥마인드사 프로젝트의 출발점이 바둑이라는 사실은 의미심장하다. 필자의 가설이 허황된 것일지라도, 인간은 향후 인공지능의 도움으로 사고영역을 계속 확장해 나갈 것이다. 알파고가 몰고 온 신선한 바람은 그 상징적 지표다.
글·배인철
대학원에서 경제학설사로 박사학위를 받은 후, 공기업 연구소에서 공공성과 제도에 관한 실사구시 연구를 하고 있다. 논문으로 <스라피안 화폐접근 방식의 가능성과 한계> <슘페터의 동학에 내재된 시장제도론>, 역서로 <현대거시경제학 : 기원, 전개, 그리고 현재> 등이 있다.
(1) 기보들은 딥마인드사의 홈페이지 자료실에서 누구나 볼 수 있으며 다운로드도 가능하다.
https://deepmind.com/research/alphago/alphago-vs-alphago-self-play-games/
(2) 기호의 배열인 한, 기보는 인공지능의 착수 메커니즘이 기술된 메타언어로 볼 수 있다.
(3) 이 고전적 테스트는 그 단순성으로 인해 많은 비판을 받아왔지만, 인공지능을 소재로 한 Sci-fi 장르의 영화들에서 여전히 반복 인용되곤 한다. A. Turing, “Computing Machinery and Intelligence”, Mind, 59, 1950. 433~60쪽. 영화는 ‘Blade Runner(1982)’와 ‘Ex Machina(2014)’가 대표적이다.
(4) “외계인이 기보 던져준 느낌”…알파고가 남긴 ‘절세무공비급’, 6월 8일 자 <일요신문>
(5) 다음 수를 결정하기 전에 먼저 상대방의 뜻을 묻는 착수행위로, 바둑전술의 하나다. 한국기원 <바둑용어사전>.
(6) ‘알파고가 우리에게 일깨워준 5가지’, 인터넷 싸이버오로 기사, 6월 10일
(7) Nash, John. (1951) “Non-Cooperative Games”, The Annals of Mathematics 54(2) : 286-295.
(8) 딥마인드 홈페이지의 원문 “Since our match with Lee Sedol, AlphaGo has become its own teacher, playing millions of high level training games against itself to continually improve.”에 따르면 강화학습의 목적은 이기는 것이 아니라 실력향상이다.
(9) 알파고 간 50국의 한판 평균 수는 267수(총 1만 3,343수)이고, 한 수에 2분씩 두도록 설정됐다. 이는 알파고에게 ‘매우’ 충분한 시간이지만, 인간의 경우 초속기에 해당한다.
(10) 미국의 실용주의 철학자 퍼스(Charles S. Peirce)에 따르면, 기호가 기호가 되기 위한 표상적 조건은 기호의 기반과 연결된다. 기호가 대상과 연결되기 위해서는 기호 자체의 성질을 가지고 있어야 하며, 대상과 맺는 상관관계에서 만들어진 기반은 해석체가 특정한 관점으로 해석되게 한다. 세미오시스의 목적론적 과정으로 요약되는 그의 기호론에 대해서는 Short, T. L.(2017). Pierce’s Theory of Signs, Cambridge; New York : Cambridge University Press를 볼 것.
(11) Stewart, D.(1994). Interview with Herbert Simon, Omni Magazine, June, 1994.