구글의 언어 제국주의

2014-12-29     프레데릭 카플란 외

 

구글의 언어 제국주의

 

프레데릭 카플란 | 로잔 연방폴리테크닉대학 교수

다나 키안파르 | 로잔 연방폴리테크닉 대학교

 

12월 초에 ‘그녀는 예쁘다(Cette fille est jolie)’라는 문장을 구글 번역기로 이탈리아어로 번역했더니 ‘Questra ragazza è abbastanza’라는 이상한 문장이 나왔다. ‘그녀는 충분하다’라는 뜻이다. ‘예쁘다’라는 형용사가 번역 과정에서 어디론가 사라져버렸다. 수십억 개의 문장을 보유한 독특한 언어적 자산을 가진 세계에서 가장 강력한 자동번역기인 구글 번역이 어떻게 그런 기초적인 실수를 했을까? 답은 간단하다. 영어를 거쳐 번역되기 때문이다. ‘예쁘다’는 영어 ‘pretty(‘꽤, 충분히’라는 뜻의 부사이기도 하다)’로 번역되고 ‘pretty’는 이탈리아어로 ‘abbastanza(충분히)’가 되었다.

구글 번역을 이용하다보면 이런 식으로 엉뚱하고 때로는 재밌는 문장을 만나게 된다. ‘나는 당신 나라의 대통령이 훌륭하다고 생각한다’는 이탈리아어로 ‘Penso che tu abbia una bella sedia(나는 당신 나라의 의자가 훌륭하다고 생각한다)’로 번역된다. ‘대통령(président)’이 영어로 ‘의자(chair)’로 번역되었기 때문이다.

 

영어를 중개어로 한 이상한 번역

 

영어를 기본언어로 사용하면 가끔 반대되는 의미로 번역되기도 한다. 이탈리아어 문장 ‘Hai fatto un compito terrificante(숙제를 끔찍하게 했구나)’를 구글로 번역하면 ‘숙제를 훌륭하게 했구나’라는 반대 의미의 문장이 나온다. 영어 ‘terrific’이라는 단어 때문이다. 관용적인 표현인 ‘Il pleut des cordes(비가 장대처럼 내린다)’는 ‘Piove cani e gatti(비가 개와 고양이처럼 내린다)’라는 매우 시적인 문장으로 번역된다. 그런데 문제는 영어 표현인 ‘It rains cats and dogs’에서 이탈리어로 번역된 이 문장을 이탈리아인들은 이해하지 못한다는 것이다.

자동번역기를 설계하기 위해서는 한 언어에서 다른 언어로 번역되는 동일한 텍스트의 거대한 언어자료가 있어야 한다. 구글은 미국 기업이기 때문에 당연히 거의 언제나 영어를 축으로 사용한 텍스트의 쌍을 기반으로 자동번역기를 설계했다. 그래서 프랑스어를 이탈리아어로 번역하려면 ‘설계상’ 중개언어인 영어를 거쳐야 한다.

이런 식으로 번역을 하게 되면 중대한 언어적 편차가 생기게 된다. 프랑스어와 이탈리아어는 상대적으로 가까운 언어다. 이에 비해 영어는 독특하고 압축적이고 숙어가 많아 문맥을 잘 이해하지 못하면 실수를 할 가능성이 높아진다. 그런데 먼저 영어로 번역되고 다시 목적 언어로 번역되는 과정에서 의도하지 않는 언어상의 혁신이 일어나기도 한다.

자동번역기가 만들어 낸 이상한 문장은 지엽적인 것이다. 자동번역은 말할 것도 없지만 번역이라는 것 자체가 기본적으로 많은 문제를 내포하고 있기 때문에 기계의 실수는 아무 것도 아니다. 그런데 실수가 전혀 무의미한 것은 아니다. 실수를 통해 각 언어의 특성에 대해 생각해볼 수 있기 때문이다. 그리고 앞으로 영어를 거치지 않는 두 개 언어의 언어자료가 개발되고 네티즌들이 스스로 틀린 번역을 수정하다보면 번역의 질이 높아지게 된다. 아마 이 기사에 언급된 틀린 번역 문장은 ‘윤전기가 돌아가기도 전에’ 이미 수정되었을 수도 있다. 참고로 구글 번역은 ‘윤전기가 돌아가기 전에(nous mettons sous presse)’라는 관용표현을 스페인어로 ‘Vamos a presionar(누르기 전에)’로 번역하고 있다. 그런데 이런 현상이 정말로 걱정스러운 것일까?

영어를 기본언어로 사용했을 때 어떤 결과가 생기는지 제대로 이해하기 위해서는 인터넷상에서 알고리즘을 이용해 텍스트를 작성하는 더 큰 그림에서 자동번역을 이해하는 것이 필요하다. 알고리즘을 이용한 프로그램은 자동번역 뿐 아니라 자동 기사작성, 위키피디아 내용 수정, 표적광고 문구작성, 검색엔진을 통한 웹페이지 내용 최적화 등 여러 가지 혁신을 가능케 해주었다. 그렇다면 알고리즘의 도움 없이 사람이 만든 1차 언어(대화기록, 전자책 등)와 1차 언어에서 알고리즘을 거쳐 변환된 2차 언어를 구분할 수 있을까?

거의 모든 데이터 입력 인터페이스에서 자동완성기능(사용자가 앞 글자를 입력하면 컴퓨터가 나머지를 완성하는 프로그램)이 일반화되면서 온라인에서 알고리즘을 거치지 않고 글을 쓰는 것은 거의 불가능하다고 할 수 있다. 이제 사람들이 단어나 문장을 다 쓰지 않고 알고리즘이 제안하는 단어나 문장 중에서 선택하는 것이 일반화되었다. 게다가 그것이 더 빠르고 효과적이다. 자판이 휴대폰의 크기로 줄어든 상황에서는 더욱 그렇다. 이렇게 새로 변한 환경에서 글을 쓴다는 것은 예상 가능한 수많은 표현 중에서 신속하고 영리하게 원하는 것을 선택하는 것이 되었다. 몇 년 후에는 이 기술을 이용하지 않는 인터페이스는 아마 존재하지 않게 될 것이다.

다른 2차 언어처럼, 알고리즘으로 자동 번역된 글은 자동번역기로 만들어진 글이라는 것이 식별이 안 된다. 오히려 종종 원래의 1차 언어처럼 소개되어 읽는 사람이 모델로 사용하기도 한다. 이탈리아어가 모국어가 아닌 네티즌이 ‘비가 개와 고양이처럼 내린다’라는 문장이 부정확한 것인지 알 수가 없지 않은가! 인위적으로 새로운 텍스트를 만들기 위해 언어를 골라내야 하는 알고리즘은 더 말할 것도 없다. 알고리즘이 번역능력을 최적화하기 위해 1차 언어를 찾다가 실수로 다른 알고리즘이 만든, 부정확한 단어나 형태는 같지만 다른 뜻을 가지고 있는 단어가 포함된 텍스트를 사용할 수 있는 것이다.

인터넷상에서 자동프로그램이 만들어낸 ‘오염된’ 언어가 널리 퍼지면서 데이터의 체계적인 품질관리보다는 데이터의 양을 우선시하는 기술체계 전체가 위협을 받고 있다. 이미 인터넷상에는 수많은 이상한 문장이 사용되고 있다. 예를 들어, 애플의 온라인 부티크인 앱스토어에 올라온, 걸으면서 문자를 보낼 수 있는 애플리케이션에 대한 의견을 보면 “직관 사용하고 결과를 만족한다. 다시 기분이 좋아진다. 애플리케이션 개발자를 감사한다! 쿨한 앱이고 추천!”이라고 되어 있다. 좀 더 아래에 있는 또 다른 의견도 이상한 문장이기는 마찬가지다. “가로와 세로로 입력하는데, 문자 보내고, 이메일 보내고, 트위터와 페이스북에서 메시지 보내고 도와준다. 재밌다! 감사합니다!”

이상한 표현이 포함된 이 문장들이 모델로 사용되어 우리가 인터넷에서 입력하고 있는 문장을 완성시켜주는 날이 올 것이다. 얼마 안 있으면 어느 이탈리아인이 컴퓨터에 ‘Pivoe…’라는 단어를 입력하면 이탈리아 언어 역사에 한 번도 입 밖으로 발설된 적이 없고 글로도 옮겨진 적이 없는 ‘Piove cani et gatti(비가 개와 고양이처럼 내린다)’라는 문장이 제안될 수도 있는 것이다.

기본언어로 영어를 사용하게 되면 언어의 크리올화(혼성화, creolization)가 초래될 수도 있다. 언어학자들에게 잘 알려진 이 현상은 여러 언어가 혼용되어 사용되면서 새로운 언어가 만들어지는 것으로, 현재 알고리즘을 거쳐 만들어져 변형된 언어는 두 개의 언어체계 사이에서 일시적으로 존재하는 접촉어인 일종의 사비르어(여러 언어가 혼용된 단순어)가 된다. 새로운 세대가 변형된 언어에 지속적으로 노출되면 일관성이 있고 독립적인 크리올어(단순어에서 체계가 복잡하고 어휘가 풍부한 언어로 변화된)로 자리 잡게 된다. 이 변화는 미래의 표현 형태에 강력한 영향력을 행사할 수 있는 친밀한 언어로 된 새로운 입력 인터페이스로 중개되면 더욱 가속화될 것이다.

결론적으로 영어의 언어 제국주의는 ‘언어의 전쟁’이라는 측면보다 더 민감한 결과로 이어질 수 있다. 한 개의 언어를 기준으로 삼게 되면 모르는 사이에 특정의 사고방식이 고유한 체계를 가지고 있는 모든 언어에 침투하게 되고 알고리즘이 중요한 역할을 하게 되는 언어의 전반적인 변화도 일어날 수 있다. 영어가 유럽어의 기본언어 기능을 담당하고 있다면 다른 언어도 다른 언어권에서 기본언어 역할을 할 수 있을 것이다(예를 들어, 힌두어가 그렇다). 그렇게 되면 여러 중개 언어가 동시에 작동되는 전 세계적인 번역 체인망이 만들어질 수도 있다.

5년 후에도 알고리즘을 거치지 않고 순수한 1차 언어로 글을 쓰는 사람이 있을까? 알고리즘으로 만들어진 언어가 자연적인 형태의 1차 언어로 여겨지는 데 얼마의 시간이 걸릴까? 알고리즘이 만들어낸 혼성 표현에 대한 진지한 연구가 필요하다. 어쩌면 알고리즘의 영향을 더 잘 이해하고 감시하기 위해 알고리즘을 대량으로 사용하는 새로운 언어가 개발될지도 모르는 일이다.

 

글·프레데릭 카플란 Frédéric Kaplan, 다나 키안파르 Dana Kianfar

카플란은 로잔 연방폴리테크닉 대학교 디지털 휴머니티 연구소 소장을 겸하고 있다.

 

번역·임명주 mydogtulip156@daum.net