Prologue: You Are What You Have Read
The Great A.I. Awakening
How Google used artificial intelligence to transform GoogleTranslate, one of its more popular services — and how machine learning is poised to reinvent computing itself.
BY GIDEON LEWIS-KRAUS
11월 초의 어느 금요일 늦은 밤, 도쿄대학교의 저명한 휴먼-컴퓨터 인터랙션 교수인 레키모토 준이치(暦本純一)는 온라인으로 강의 준비를 하고 있었다. 그때 그는 소셜미디어에서 특이한 포스팅이 돌고 있음을 알아차리기 시작했다. 유명한 구글의 기계번역 서비스인 Google Translate의 품질이 갑자기 괄목할 정도로 좋아졌다는 점이다. 레키모토 교수는 직접 사이트로 가서 테스트를 해 봤고, 그도 놀랐다. 일단 잠을 자야 했지만, 그는 잠결에서도 Translate에 대해 생각 안 할 수 없었다.
레키모토 교수는 블로그 포스팅을 통해 자신이 발견한 사실을 적어뒀다. 우선 그는 “위대한 개츠비(The Great Gatsby)”의 1957년 일본어 번역판(노자키 타카시/野崎孝)과 최근 번역판(무라카미 하루키/村上春樹)을 새로운 Google Translate로 비교했다. 이메일을 통해 레키모토 교수가 말해준바에 따르면, 무라카미의 번역은 “매우 세련된(polished) 일본어”이지만 문체가 “무라카미-스타일”이라 말했다. 반면 “어느 정도의 부자연스러움”에도 불구하고 Google Translate는 “보다 투명”했다고 한다.
레키모토 교수의 나머지 반은 일본어를 영어로 번역할 때를 조사했다. 헤밍웨이의 “킬리만자로의 눈(The Snows of Kilimanjaro)” 서장을 일본어로 번역한 다음, 구글을 통해 영어로 또 번역했다. 그는 헤밍웨이의 오리지널과 구글 번역문을 같이 올렸으며, 어느 번역이 기계번역인지 맞춰보라 독자들에게 물었다.
NO. 1: Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.
NO. 2: Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.
영어 네이티브라 하더라도, 2번 글이 기계번역이라 맞춘다면, 표범에 부정관사가 없다는 점을 찾아내는 방법 밖에 없다. 이전 구글 번역 서비스의 기능을 레키모토 교수가 잘 알고 있었던 까닭에 두 글의 유사성은 감탄스럽다. 불과 24시간 전이라면, 구글은 똑같은 일본어 구절을 아래와 같이 번역했을 것이다.
Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, “Ngaje Ngai” in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.
레키모토는 트위터의 수 십 만 팔로워들에게 자신의 발견을 알렸고, 수 시간만에 다들 각자 기계번역 서비스를 시험한 결과도 수 천 건 나왔다. 성공적인 사례도 있었고 유머스러운 사례도 있었다. 도쿄에 여명이 동트자, 일본어 트위터에서 Google Translate는 트렌드 1등으로 올랐다. 오랜 기간 기대를 모아온 걸그룹의 새로운 싱글 음반과 컬트 아니메 시리즈보다도 앞섰었다. 이제 모두들 궁금해했다. Google Translate의 번역 기교가 왜 이렇게 좋아졌을까?
4일 후, 전세계의 저널리스트와 기업가, 광고주 수 백여 명이 구글의 런던 엔지니어링 사무소에 모여 특별 발표를 기다리고 있었다. 구글은 손님들에게 Translate 브랜드가 붙어 있는 포춘쿠키를 나눠줬다. 안에 들어간 쪽지 한 면에는 외국어가(필자 것에는 노르웨이어) 쓰여 있었고, 다른 면에는 새로운 Translate 앱 다운로드 초대권이 있었다. 탁자에는 도너츠와 스무디가 있었는데, 각자 맛이 독일어(Zitrone/레몬), 포르투갈어(baunilha/바닐라), 스페인어(manzana/사과)로 쓰여 있었다. 잠시 후, 모두들 어두운 극장으로 안내 받았다.

Sundar Pichai, chief executive of Google, outside his office in Mountain View, Calif. Credit Brian Finke for The New York Times
사딕 칸(Sadiq Khan) 런던 시장이 개회사를 했다. 그에 따르면 최근 친구가 자기보고 구글같다고 말했다고 한다. “왜? 제가 모든 해답을 알아서요? 그랬더니 친구가 아니라고 하더군요. 제가 항상 자기 문장을 마무리하려고 노력한데요.” 청중이 예의바르게 킥킥거렸다. 칸 시장은 구글의 CEO, 순다르 피차이(Sundar Pichai)를 무대 위로 소개했다.
일단 피차이는 King’s Cross에서 건술중인 “knowledge quarter”의 금자탑으로서 런던에 구글이 새로 세운 빌딩을 소개했다. 그리고는 지난해 발표했던 구글의 기업 변화의 첫 단계가 완수됐음을 알렸다. 피차는 여러 차례, 미래의 구글이 “A.I. first”가 되리라 말했다. 이론상 복잡하며, 수많은 추측을 낳았지만, 실질적으로 운이 좋으면 곧 구글 제품이 더 이상 전통적인 컴퓨터 프로그래밍이 아닌 “기계 학습”을 나타내리라는 의미였다.
구글 내 비밀스러운 부서인 Google Brain은 5년 전, 인공 “신경(neural) 네트워크”가 마치 걸음마를 배우는 아이처럼 시행착오를 거쳐 스스로를 학습하고 인간스러운 유연함으로 발전다는 원칙 상에 만들어졌다. 새로운 개념은 아니다. 1940년대 현대적인 컴퓨팅 초기 단계까지 거슬러 올라가는 개념이지만, 컴퓨터의 역사상 컴퓨터 과학자 대다수는 모호하고 신비주의스럽다 여겼었다. 하지만 2011년 이래 Google Brain은 인공지능에 대한 위와 같은 접근이야말로 고질적인 문제에 해법을 제시할 수 있었음을 보여줬다. Brain이 맡기 전까지는 음성 인식도 잘 작동하지 않았었다. 기계학습의 적용으로 인해 구글 모바일 플랫폼인 안드로이드의 성능 개선은 거의 인간의 속기 만큼이나 좋아졌다. 이미지 인식도 마찬가지였다. 대략 1년 전, Brain은 전체 소비자용 제품군의 내부를 처음으로 리노베이션하기 시작했으며, 그 결과를 축하하는 자리가 바로 그 날이었다.
Translate는 2006년 첫 선을 보였으며, 그때 이후로 구글에서 제일 신뢰받고 유명한 서비스가 됐다. Translate는 매달 5억 명 이상이 사용하며, 여러 다른 언어를 통해 매일 1,400억 단어를 번역한다. 별도의 앱으로 존재할 뿐 아니라, Gmail과 Chrome 외 여러 구글 제품의 통합 기능으로서 우리는 Translate를 디지털 거래의 일부로서 자연스럽에 여긴다. 강연에서 피차이는 구글이 Translate의 지정학적인 중요성을 난민 위기 때문에 깨달았다고 한다. 그의 뒤에 떠오른 화면에는 최근 아랍어와 독일어 간의 번역 건수가 5배 이상 늘어났음을 가리키는 그래프가 나타났다. (피차이 개인사도 관련이 있다. 그는 10여 가지의 언어로 나뉘어 있는 인도에서 자라났다.) 구글 팀은 새 언어와 기능을 꾸준히 추가시켰지만, 지난 4년간 품질 개선은 상당히 지체된 상황이었다.
그것도 오늘까지다. 지난주, Translate는 트래픽 대다수를 인공지능 기반 시스템으로 교체했다. 미국만이 아니라 유럽과 아시아에서도 마찬가지로서, 영어와 스페인어, 불어, 포르투갈어, 독일어, 중국어, 일본어, 한국어, 터키어를 포함했다. Translate의 100여개 나머지 언어도 나올 예정이며, 매월 8개씩, 내년 말까지 끝내는 것이 목표이다. 새로운 Translate는 구글 엔지니어들마저 놀랄 정도로서 9개월만에 완성됐다. 인공지능 기반의 Translate 시스템은 예전 Translate가 보여준 수준의 개선을 하룻밤 사이에 보여줬다.
피차이는 잘 알려져 있지 않은 문학의 사례를 좋아한다. 한 달 전 캘리포니아 구글 본사 사무실에서, 필자에게 그는 모두가 로버트 오펜하이머(Robert Oppenheimer)와 같은 물리학자가 될 수는 없기 때문에 Translate가 존재한다고 말했었다. 오펜하이머는 바가바드 기타(Bhagavad Gita)를 원어로 읽기 위해 산스크리트를 배웠었다. 런던의 발표회에서 피차이는 보르헤스(Borges)의 말을 인용하는 슬라이드를 띄웠다. “Uno no es lo que es por lo que escribe, sino por lo que ha leído.”
피차이는 활짝 웃으며 이전 Translate 시스템이 번역한 어색한 영어 버전을 크게 읽었다. “One is not what is for what he writes, but for what he has read.”
새로운 인공지능 버전으로는 이렇게 나왔다. “You are not what you write, but what you have read.”
알맞는 사례였다. 어떻게 보면 새로운 Google Translate는 뭐라도 읽을 줄 아는 최초의 머신에서 돌아갔었다.
자기 자신을 인공지능 위주로 재조직하기로 한 구글의 결정은 업계 전반에 퍼진 기계학습 섬망에 대한 최초의 중대한 선언이었다. 지난 4년간 특히 구글과 페이스북, 애플, 아마존, 마이크로소프트, 중국의 바이두 이 여섯 기업들은 대학을 목표로 인공지능 인력 확보를 위한 경쟁에 몰두했다. 각 기업은 최고 수준의 학계 인물을 영입하기 위해 자유와 자원을 약속했다. 페이스북의 CEO인 마크 저커버그가 최고의 졸업생들에게 접근하기 위해 전화와 영상통화로 직접 작업에 나선다는 사실은 실리콘밸리에서 이미 널리 알려져 있다. 백만 대의 연봉도 희귀한 사례가 아니다. 중요한 인공지능 컨퍼런스 참가자들도 거의 네 배가 늘어났다. 이제는 개별 혁신이 아니라 은은하게 스며드는 인공지능이라는 완전히 새로운 컴퓨터 플랫폼을 대표할 수 있을 기술을 누가 통제하느냐가 화두이다.
모두들 “인공지능”이라는 단어를 마치 자명한 이치로 언급하고 있지만, 인공지능은 언제나 혼란과 논란의 원천이었다. 1970년대로 돌아가서 거리 상의 아무나 붙잡고 스마트폰을 꺼내 구글맵을 한 번 보여 주시라. 이상하게 입은 마술사가 아니고, 주머니에서 꺼낸 스마트폰도 무슨 흑마술 부적이 아니라 단순히 조그마하지만 아폴로 우주선에 들어간 것보다 더 강력한 컴퓨터일 따름이라고 확신 시킨다 하더라도, 상대방은 구글맵이 거의 “인공지능”의 설득력 있는 사례라 여길 것이 분명하다. 현실적으로 볼 때, 지도를 읽을 줄 안다면 호텔에서 공항으로 안내한다든지 하는 지도로 할 수 있는 모든 일을 구글맵으로 더 빠르고 신뢰성 있게 할 수 있다. 더군다나 구글맵은 교통량 측정과 최고의 경로 선택, 잘못 접어들었을 때 방향을 다시 잡아주는 등, 인간이 아예 못 하는 일도 가능하다.
오늘날로 보자면 구글맵을 공포스러운 “인공지능”이라 여기는 이는 없을 테지만, “지능”이라는 단어는 너무나 정서적이고 잘 쓰지도 않는다. 우리는 인공지능이 HAL과는 다른, 뭔가 어렴풋이 보이거나 손수레로 할 수 있는 뭔가로 믿는다. 작업을 자동화 시키는 순간, 단순한 메커니즘 관련 기술 하나를 다운그레이드하는 뭔가이다. 경멸적으로 표현한다면 오늘날 구글맵은 로봇이다. 한 곳에서 다른 곳으로 향한다는 외부의 요청을 받아들여서, 최대한 효율적으로 요청을 만족시키기 위해 노력하기 때문이다. 그러므로 “인공지능”의 목표는 끊임 없이 희미해지기이다.
주의 깊게 차이를 설명할 기회가 오자, 피차이는 현재의 인공지능 구현과 “인공 일반 지능(artificial general intelligence)”의 궁극적인 목표를 구분했다. 인공 일반 지능은 외부 명령에 따른 결과를 포함하는 대신, 암묵적인 해석의 기능을 보여준다. 게다가 범용 툴로서, 일반적인 맥락에 따라 일반적인 목표용으로 디자인되어 있다. 피차이는 구글의 미래가 이런 것에 의존하리라 보고 있다. 구글맵에게 “공항에 가고 싶지만, 조카 선물 사러 중간에 들리고 싶어”라 말한다고 상상해 보자. 이 서비스의 보다 일반적인 지능 버전이라면 어떨까? 3년 전, 스파이크 존즈(Spike Jonze)의 영화 “Her”에서 스칼렛 조핸슨(Scarlett Johansson)을 분리했던 것처럼, 만능 비서일 것이다. 말하자면, 친한 친구나 성실한 인턴처럼 조카의 나이라든가 아이들 선물로 얼마나 지출하는지, 문 열린 점포를 어디에서 찾을지 모두 안다는 의미다. 그렇지만 진정 지능이 있는 맵이라면 친한 친구조차 모를 온갖 정보를 더 잘 알 것이다. 이를테면 조카가 다니는 학교에서 유행하는 것이 무엇인지, 혹은 조카가 실제로 무엇을 원할지와 같은 더 중요한 정보를 말이다.
우리가 과거에 해 놓은 데이터 안에서 희미한 규칙을 구별해내는 지능 기계가 있다면, 아마 이 기계는 설사 우리가 우리 스스로를 모른다 하더라도 뒤이어 우리가 무엇을 바라는지도 추정해낼 수 있을 것이다.
애플의 시리와 페이스북의 M, 아마존의 Echo와 같은 인공지능 기반의 어시스턴트는 모두 비슷한 의도를 가진 기계학습의 산물이다. 하지만 기계학습에 대한 기업의 꿈은 소비자 투시만이 아니다. 삼성전자의 의료기기사업부는 올해 유방암을 검출할 수 있는 새로운 초음파 장비를 발표했었다.
경영 컨설턴트들은 모두들, 스스로 프로그래밍을 할줄 아는 컴퓨터의 업계 활용도를 늘릴 준비를 하는 중이다. 2014년 구글이 인수했던 DeepMind는 오래된 게임인 바둑의 최고 수준 선수를 이기기도 했었다. 원래는 인간을 이기리라 예상했던 시점이 10년 후였는데도 말이다.
1950년 앨런 튜링(Alan Turing)의 유명한 에세이는 인공지능 테스트를 제안했었다. 텍스트를 5분 정도 교환해서 실제 상대자를 속일 수 있는지에 대한 테스트이다. 자연어 두 가지를 능숙하게 기계가 번역할 수 있다면 언젠가 인간의 언어를 잘 “이해”해서 그럴듯한 대화도 이끌어낼 수 있는 기계로 향하는 길이 닦여 있다는 뜻이다. Translate 프로젝트를 추진하고 관장했던 Google Brain의 멤버들은 그런 머신이 인공 일반 지능이 모든 개인용 디지털 어시스턴트를 능가하리라 믿고 있다.
본 기사는 구글의 연구자와 엔지니어들(처음에는 한 두 명이었다가 서너 명으로 늘었고, 이제는 100명이 넘는다)이 그런 방향으로 어떻게 커다란 진보를 이끌었는지에 대한 이야기이다. 여러모로 비범한 이야기인데, 특히 우리에게 익숙한 실리콘 밸리식 이야기의 많은 부분과 들어맞지 않기 때문이다. 차고의 땜장이들 때문에 다음 날이나 내일이면 모든 것이 완전히 바뀌리라 생각하는 사람들이 등장하지 않는다. 게다가 기술이 결국 모든 걸 뒤바꾸리라 생각한다거나, 우리의 모든 문제를 해결해주리라 생각하는 사람들의 이야기 또한 아니다. 적어도 세상이 이해하는 식의 파괴는 아니다.
사실 Google Translate의 성공적인 인공지능화에는 기술 측면과 기업적인 측면, 그리고 아이디어의 개발 측면이라는 세 가지 이야기가 상호 겹쳐져 있다. 기술 이야기는 한 회사의 한 제품을 작업하는 한 팀에 대한, 그리고 그들 모두 기대했던 기간보다 1/4 밖에 안 걸렸는데도 옛날 제품을 완전히 새로운 버전으로 개선시키고 실험하고 소개한 이야기다.
기업의 이야기는 작지만 영향력 있는 인공지능 그룹의 이야기이자, 개발 과정에서 그들의 오래됐지만 검증받지 않은, 널리 받아들이지 못한 컴퓨팅에 대한 인식이 넓은 범위에서 다른 모든 기업들을 뒤바꾼 이야기이기도 하다.
아이디어의 이야기는 음지에서 오랫동안 노력해온 인지학자와 심리학자, 고집스러운 엔지니어들, 그리고 개발 과정에서 그들의 (겉보기에) 비이성적인 신념이 기술만이 아니라 이론상 의식 자체에 대한 우리의 이해도 뒤바꿔버렸다는 사실에 대한 이야기이다.
첫 번째 이야기, Google Translate의 이야기는 9개월동안 마운틴뷰에서 일어났으며, 머신 번역의 전환을 설명한다. 두 번째 이야기, Google Brain과 여러 경쟁자들이 지난 5년간 실리콘밸리에 자리잡은 이야기이며, 전체 업계의 전환을 설명한다. 세 번째 이야기는 딥러닝 이야기이며, 스코틀랜드와 스위스, 일본, 그리고 거의 모든 캐나다 지역에 퍼져 있는 연구소들이 70년 동안 (최우선적으로 생각하는 존재로서) 우리 스스로에 대한 이미지를 재검토하도록 기여한 내용이다.
세 이야기 모두 주제는 인공지능이다. 우리가 기대하거나 바라는 바에 대한 70년에 걸친 이 이야기는 또한 가까운 장래에 일어날 5년간의 이야기이면서, 지금 순간 무엇을 할 수 있는지에 대한 9개월 간의 이야기이기도 하다. 이들 세 이야기는 그 자체로서 개념의 증명이며, 이 모두가 아직 시작일 뿐이다.
Part I: Learning Machine
1. The Birth of Brain
수석 펠로(senior fellow)라는 직함이 있기는 하지만 제프 딘(Jeff Dean)은 사실상 Google Brain의 총책임자이다. 딘은 길고 좁은 얼굴과 깊은 눈, 어린이용 조립 경주차 경주에 열광적인 근육질의 에너지-효율적인 사내이기도 하다. 인류학자와 공중보건 역학자의 아들이었던 딘은 미네소타와 하와이, 보스턴, 아칸소, 제네바, 우간다, 소말리아, 애틀란타 등 전세계에서 성장했으며, 고등학교와 대학교 시절 이미 세계보건기구에서 사용할 소프트웨어를 작성했었다.
그는 1999년 25번째 직원으로 구글에 들어갔으며, 그때 이후 중요한 작업이 있을 때마다 핵심 소프트웨어 시스템 하부를 손봤었다. 기업 문화의 인기 많은 이야기 중에 제프 딘에 대한 진실(Jeff Dean Facts)이 있다. 척 노리스에 대한 진실을 따라한 스타일이다. “제프 딘의 PIN은 원주율의 마지막 숫자 4개이다.”, “그레이엄 벨이 전화를 발명했을 때, 그는 제프 딘으로부터의 부재중 통화를 발견했다.”, 제프 딘은 최대 레벨이 10인 시스템에서 레벨 11로 승진했다.” (마지막 사례는 사실, 진실이다.)

The Google engineer and Google Brain leader Jeff Dean. Credit Brian Finke for The New York Times
2011년 초의 어느 날, 딘은 구글 캠퍼스의 “마이크로키친(microkitchens)”에 들어선다. 마이크로키친은 구글 컴플렉스 빌딩 층 대부분에 있는 공공 휴식 장소로 구글이 만들어낸 단어였다. 마이크로키친에서 그는 젊은 스탠포드 컴퓨터학과 교수인 앤드루 응(Andrew Ng)을 만난다. 응은 구글 자문관으로 일하고 있었다.
응은 구글 내부 프로젝트인 프로젝트 마빈(Marvin)에 대해 얘기했다(인공지능의 개척자였던 마빈 민스키의 이름을 따라 지었다). 응은 당시 구글 “신경망 네트워크” 실험의 수립을 도왔다. 두뇌의 구조에 느슨하게 기반을 둔 나긋나긋(pliant)한 디지털 격자라 볼 수 있었다.
그런데 딘은 1990년 미네소타 대학 학부생으로 있을 때 이미 해당 기술의 초보적인 버전을 작업한 적이 있었다. 신경망 네트워크가 주류화가 될 뻔 했던 짧았던 시절이었다. 다만 최근 5년 동안 신경망 연구자가 수 명에서 수십 명 수준으로 다시 자라나기 시작했다. 응은 구글의 비밀스러운 X 랩에서 작성중이었던 프로젝트 마빈이 이미 성과를 좀 내기 시작했다고 딘에게 말해줬다.
모든 구글 직원들은 자신의 핵심 업무 외에, 자기가 지정하는 다른 프로젝트를 할 수 있는 시간 비중을 가리키는 “20%” 규칙이 있다. 딘은 자신의 20%를 신경망 프로젝트에 쏟기로 했다. 곧 그는 응에게 신경망 경력이 있는 그레그 코라도(Greg Corrado)를 영입해야 한다고 제안한다. 코라도는 대학원을 다닐 때, 신경망 기술 수업을 짧게 들은 적 있지만, 곧 역사적인 호기심을 가졌다고 한다. 그는 필자에게 “그날 수업에 관심을 기울였어서 다행이지 뭐에요”라 말했다.
늦은 봄, 그들은 응이 최고로 꼽는 대학원생인 꾸옥 래(Quoc Le)를 프로젝트 첫 인턴으로 고용한다. 당시 프로젝트 마빈을 Google Brain이라 부르는 구글 엔지니어들이 있었다.
“인공지능”이라는 단어의 유래는 이렇다. 1956년 여름의 다트머스에서 제정의회 식으로 연구자들이 모였었다. 당시 연구자들은 인공지능을 만들기 위한 제일 좋은 접근법은 논리적인 사고방식과 세상에 대한 충분한 지식 둘 다 갖춘 매우 거대하고 포괄적인 프로그램을 작성하기라 여기고 있었다. 예를 들어서 영일 번역이 하고 싶다면, 영어 문법을 컴퓨터에 입력하고 옥스포드 사전에 있는 모든 어휘를 컴퓨터에 집어 넣은 다음, 일본어 문법과 일본 사전 단어도 같이 입력한다. 그래서 기준어(source language) 문장을 넣고 목표어(target language)로 번역(tabulate)을 요청해서 결과를 내는 식이다. 보르헤스가 했듯이 언어 지도를 기계에게 제공하는 방식으로서, 보통은 “기호적(symbolic) AI”라 불렀다. 인지의 정의가 기호논리(symbolic logic), 혹은 좀 폄하하는 의미로서 “구식(good old-fashioned) AI”에 기반을 뒀기 때문이다.
구식 접근방식에는 문제점 두 가지가 있다. 첫째는 인간 입장에서 너무나 시간을 많이 소모한다는 점이다. 둘째는 규칙과 정의가 명확한 영역에서만 돌아간다는 점이다. 즉, 수학이나 장기에서만 확실할 뿐, 번역의 경우는 단어를 사전적 의미로 제한할 수가 없고, 언어에 규칙 만큼이나 예외도 많이 존재하기 때문에 실패할 수 밖에 없다. 이런 시스템은 “농림부 장관”을 “농업의 신부” 식으로 번역하게 마련이다. 물론 수학과 장기에서는 훌륭하게 돌아가며, 기호적 AI 지지자들은 수학과 장기보다 더 “일반 지능(general intelligence)”의 신호를 주는 활동은 없다고 당연스럽게 여기기도 한다. https://youtu.be/aygSMgK3BEM
An excerpt of a 1961 documentary emphasizing the longstanding premise of artificial-intelligence research: If you could program a computer to mimic higher-order cognitive tasks like math or chess, you were on a path that would eventually lead to something akin to consciousness. Video posted on YouTube by Roberto Pieraccini
그러나 이 시스템에는 한계가 있었다. 1980년대 카네기 멜론 대학교의 한 로봇 연구자는 컴퓨터가 인간 행위를 쉽게 할 수 있겠지만, 공을 잡고 고양이를 구별하는 등, 한 살 짜리 아이도 할 수 있는 일을 하게는 못 한다고 지적했었다. 1990년대에는 컴퓨터 체스의 발전에도 불구하고, 인공 일반 지능에는 근접조차 못 하고 있었다.
물론 언제나 다른 버전의 인공지능도 존재했다. 규칙으로부터, 그러니까 상의하달식이 아닌 데이터로부터, 그러니까 데이터로부터 하의상달식으로 학습하는 방식이다. 1940년대에 이미 개념이 나오기는 했었다. 당시 연구자들은 자동화된 지능의 최고 모델이 두뇌 그 자체라는 점을 깨달았었다. 두뇌는 신경이라 불리우는 작은 장치의 모음일 뿐으로서, 전자 신호를 주변에 보내거나 안 보낼 뿐이었다.
또한 신경간 여러 가지 연결이 개별 신경보다 더 중요하다. 이 구조 덕분에, 그 단순성에도 불구하고 두뇌는 풍부한 적응 우위(adaptive advantage)를 갖는다. 두뇌는 정보가 부족하거나 없을 때조차 작동을 하며, 완전한 통제 불능 없이 심각한 손상을 견딜 수 있다. 게다가 매우 효율적인 방식으로 거대한 양의 지식을 저장할 수 있으며, 뚜렷한 패턴을 구분하면서 모호함을 다룰 정도의 혼잡성도 유지할 수 있다.
이 구조를 전자적인 형태로 흉내내지 말라는 법은 없다. 1943년 간단한 인공 신경이 기초적인 논리 함수를 전달할 수 있다는 점을 보인 적이 있었다. 적어도 이론상 우리가 하는 방식으로도 가능했다. 특정 사람의 시행착오에 의존한 인생 경험으로, 신경들 사이의 신경접합은 강해지거나 약해질 수 있다. 인공 신경망도 시행착오 기반과 인공 신경들 간의 수(數) 관계에 따라 유사하게 돌아갈 수 있다.
인공지능에 대한 이런 태도는 창조적이라기보다는 점진적이었다. 유연한 메커니즘을 원한다면 환경에 적응할 수 있기를 원한 것이다. 적응할 수 있는 뭔가를 원한다면, 장기 규칙의 주입(indoctrination)으로 시작하고 싶지는 않을 것이다. 진보적인 기술이 유기적으로 나타나리라는 희망 속에, 감각지각(sensory perception)과 운동제어(motor control)와 같은 매우 기초적인 기능으로 시작하고 싶을 터이다. 인간은 사전과 문법책을 보면서 언어를 이해하지 않는데, 컴퓨터가 그렇게 해야 할 까닭이 무엇인가?
Google Brain은 인공지능에 대한 위와 같은 개념을 갖고 가능성에 투자한 최초의 대규모 상업 조직이었다. 딘과 코라도, 응은 파트타임으로, 협동 실험으로 작업을 시작했지만 곧바로 성과를 만들어낸다. 1980-1990년대로부터 내려온 아이디어만이 아닌, 최근 이론의 아웃라인으로부터 모델 구조를 착안했고, 둘째 가라면 서러워 할 구글의 데이터와 컴퓨팅 인프라를 이용했다. 예를 들어서 그들은 거대한 “분류(labeled)” 데이터상의 네트워크를 지도했고, 컴퓨터는 현실을 훨씬 더 잘 반영하도록 자신의 답변을 개선시켰다.
딘은 으레 절제된 표현으로 말한다. 항상 그랬듯 우리는 칠판으로 가득 찬 회의실에 앉아 대화를 나눴다. 그는 Google Brain의 어지러운 연대표를 칠판에 그리면서 설명했다. “동물이 눈을 개발했던 것과 맞먹을 정도의 큰 발전이었어요. 이제 컴퓨터에게도 눈이 생겼습니다. 사진을 이해하는 기능을 구축할 수 있어요. 로봇도 완전히 바뀔 겁니다. 알려지지 않은 환경이나 훨씬 다른 문제점들이 있어도 활동할 수 있겠죠.” 이들 기능이 아직 기초적이라고 할 수는 있겠으나 의미는 매우 심오하다.
2. The Unlikely Intern
생긴, 혹은 존재를 시작한 첫 해 동안 Brain의 개발 실험은 딘에 따르면 한 살배기의 능력을 갖춘 기계의 개발이었으며, 그 효과는 거대했다. 음성인식 팀이 예전 시스템을 신경망으로 바꿨더니 지난 20년을 능가하는 품질 개선이 하룻밤 사이에 일어났었다. 객체-인식 기능 또한 기하급수적으로 개선됐다. Brain의 팀원들이 1년만에 새로운 급진적인 아이디어를 쏟아내서가 아니었다. 오랫동안 아웃라인으로만 존재했던 부문에 구글이 마침내 자신의 자원을 대량 투자(결국은 컴퓨터와 인력 충원)하기로 했기 때문이다.
박식한 영국 출신, 제프리 힌튼(Geoffrey Hinton)이 제안하고 개선했던 개념도 큰 몫을 차지한다. 앤드루 응이 구글을 떠나면서(그는 현재 바이두에서 1,300명 규모의 인공지능 팀을 이끌고 있다) 구글에 들어온 힌튼은 원래 3개월 동안만 토론토 대학을 떠나 있기 원했었다. 그래서 관료적인 이유로 구글은 그를 인턴으로 고용할 수 밖에 없었다. 인턴 훈련시, 오리엔테이션 리더는 “LDAP(사용자 로그인)을 치세요”라는 요구를 해서, 그는 도움을 요청하여 LDAP이 뭔지 물었었다. 인공지능의 필수 욧소가 딥러닝으로 알고 있을 영리한 25살 짜리로 가득찬 교육실에서 훈련생들은 도대체 저 늙은 아저씨가 누구인지, 왜 이해를 못 하는지에 대한 낄낄거렸다. 힌튼의 말이다.
“점심 시간 때 누군가가 ‘힌튼 교수님! 제가 교수님 수업 들었었는데, 여기서 뭐하시나요?’ 하고 외치더군요. 그 후로는 다 좋았습니다.”
수개월 후, 힌튼과 그의 학생 둘이 ImageNet이라는 오픈소스로 돌아가는 거대한 이미지-인식 컨테스트에서 빛나는 성과를 보여준다. 컴퓨터들이 원숭이를 식별해낼 뿐 아니라, 거미원숭이와 짖는원숭이를 구분도 할줄 알고, 아무도 모를 고양이 품종 구분까지도 할 줄 알았다. 구글은 곧 힌튼과 그의 학생들에게 자리를 제안했으며 그들은 받아들였다. 힌튼은 구글이 자기들의 지재권에 관심 있는 줄 알았다고 말한다. “알고 보니, 우리들한테 관심이 있더라구요.”

Geoffrey Hinton, whose ideas helped lay the foundation for the neural-network approach to Google Translate, at Google’s offices in Toronto. Credit Brian Finke for The New York Times
힌튼은 지위가 뭐든 간에 유체역학이나 천문학의 사소한 문제에 대해 사소한 기여를 할 것 같은 인물들로 가득 찬 지적 인물들 사이에서, 괴짜로 통했던 다윈 가문과 같은 오래된 영국 가문에서 나왔다. 그의 고조부인 조지 불(George Boole)은 컴퓨터의 근거가 된 기호논리학의 기초를 쌓았었다. 또다른 고조부는 유명한 외과의사였고, 그의 아버지는 대담한 곤충학자였으며, 아버지의 사촌은 로스알라모스(Los Alamos)의 연구자이며, 목록은 계속 이어진다.
그는 Cambridge와 Edinburgh에서 교육 받았고, 인생의 절반을 보낸(캐나다 정부의 후한 보조금이 그의 작업을 오랫동안 지원했다) 토론토 대학에 가기 전에는 Carnegie Mellon에서 가르쳤다. 필자는 구글의 사무실에서 그를 만났으며, 그는 노엘 갤러거(Noel Gallagher)가 좀 성숙해진 스타일의 헝클어진 노란 머리에 헐렁한 줄무늬 셔츠를 계속 내놓은 채, 타원형 안경이 두드러진 코끝에 미끄러져 있었다. 그는 “미국인들이 빈정대기를 이해하기 전에 컴퓨터가 먼저 이해할 겁니다”와 같은 말을 했다.
힌튼은 1960년대 후반, 케임브리지 학부생 시절부터 신경망 작업을 해왔으며, 신경망에 관한 지적인 시조(始祖)가 바로 힌튼이다. 당시 그가 기계 학습에 대해 거론하면 사람들은 그가 마치 프톨레마이오스의 지동설이나 거머리 방혈(放血)을 얘기하는 양 바라보곤 했었다. 신경망은 Perceptron이라는 과장광고된 인공 신경망 프로젝트 때문에 다들 틀렸음이 입증됐다 여겼었다.
Perceptron은 1950년대 Cornell의 심리학자였던 프랭크 로잰블랫(Frank Rosenblatt)이 개발했으며, 당시 뉴욕타임스 기사에 따르면, 프로젝트의 스폰서인 미국해군은 Perceptron이 “자기 스스로를 재창조하고 걸어다니며 대화하고 보고 적을 수 있으며, 자신의 존재감을 인식할 수 있으리라 기대”하고 있다고 했다. 하지만 Perceptron은 아무 것도 하지 못 했으며, 미국 인공지능의 거두인 마빈 민스키는 1954년 Princeton 박사논문으로 신경망을 다뤘었지만, 당시 브롱크스 과학고(Bronx Science)의 동창이었던 로잰블랫이 신경(neural) 패러다임을 만들었다는 과장된 주장에 염증을 느끼고 있었다. (그는 국방부 예산을 두고도 로잰블랫과 경쟁 관계였다.) MIT 동료와 함께 민스키는 Perceptron이 결코 해결할 수 없을 간단한 문제가 있음을 증명하는 책을 출판한다.
Perceptron에 대한 민스키의 비판은 “레이어” 하나의 망으로만 확장된다. 즉, 기계에 넣는 신경과 신경으로부터 기대하는 결과 사이의 인공적인 레이어 하나다. 후에 민스키는 현재의 딥러닝과 매유 유사한 아이디어를 고안했다.
하지만 힌튼은 당시 이미 여러 레이어를 붙이면 복잡한 임무도 수행할 수 있다는 사실을 알고 있었다. 신경망의 제일 간단한 묘사는, 데이터의 패턴을 발견할 수 있는 능력에 기반하여 분류하거나 예측할 수 있는 기계이다. 레이어가 하나일 경우, 단순한 패턴만 찾아낼 수 있지만, 하나 이상이 될 경우에는 패턴의 패턴도 찾을 수 있다.
이미지 인식의 사례를 보자. 이미지 인식은 “나선형 신경망(convolutional neural net)”이라 부르는 장치(contraption)에 의존한다. (프랑스인 얀 르퀑(Yann LeCun) 이 주저자인 중요한 논문이 1998년에서 다룬 개념인데, 얀 르퀑 자신이 힌튼의 지도 아래 토론토에서 박사후과정에 있었다. 르퀑은 현재 페이스북에서 거대한 인공지능실을 이끌고 있다.) 네트워크의 첫 번째 레이어는 매우 기초적인 “가장자리(edge)”의 매우 기초적인 윤곽(trope)을 식별하기 위해 학습한다. 가장자리는 뭔가(온-픽셀), 혹은 기타 등등에 따라오기는 하지만, 아무 것도 의미하지 않는다(오프-픽셀). 망 내 각각의 후속 레이어(successive layer)는 이전 레이어의 패턴을 찾고, 가장자리의 패턴은 원형이나 사각형일 수 있다. 이 패턴은 얼굴일 수 있으며 다른 뭔가일 수도 있다.
시각령(visual cortex)을 통해 망막 내 광수용체(photoreceptors)로부터 추상적인 방식으로 정보를 주고받는 과정과 다소 유사하다고 할 수 있겠다. 각 개념 단계에서 곧바로 관련성 있지 않은 디테일이면 버린다. 만약 여러 가장자리와 원이 모여서 얼굴을 구성한다면, 이 얼굴을 시계(visual field) 어디에서 찾을 수 있는지를 신경쓰지는 않는다. 그저 얼굴임이 중요할 뿐이기 때문이다. https://youtu.be/FwFduRA_L6Q
A demonstration from 1993 showing an early version of the researcher Yann LeCun’s convolutional neural network, which by the late 1990s was processing 10 to 20 percent of all checks in the United States. A similar technology now drives most state-of-the-art image-recognition systems. Video posted on YouTube by Yann LeCun
다중 레이어에서는 문제가 있다. “딥(deep)” 신경망에서 시행착오 부분(trial-and-error part)이 극도로 복잡해지기 때문이다. 단일 레이어에서라면 쉽다. 아이와 놀고 있다고 해 보자. 아이에게 “녹색 공을 집어서 A 상자에 넣으렴”이라 말했을 때, 아이가 녹색 공을 집어 B 상자에 넣는다면, “다시 녹색 공을 집어서 A 상자에 넣으렴”이라 말하면 된다. 그러면 아이가 A 상자에 공을 집어 넣는다. 브라보.
이제 “녹색 공을 집어서 3번 문을 통과한 다음, 녹색 공을 A 상자에 넣으렴”이라 말한다고 해 보자. 아이가 빨간 공을 집어 들고 2번 문을 통과 하여 빨간 공을 B 상자에 집어 넣는다면? 어떻게 아이의 행동을 수정할 텐가? 어느 지점에서 자기가 잘못했는지 모르기 때문에, 명령을 단순히 반복할 수는 없다. 현실에서는 녹색 공과 붉은 색 공을 나란히 든 다음 공 색깔을 알려줄 것이다.
하지만 기계 학습은 이런 종류의 명백한 지시를 피한다는 점이 중요하다. 힌튼과 동료들은 이 레이어-실수 문제에 대해 해결책을 하나 고안했다(혹은, 예전 해결책을 재발명한다). 1970년대 후반-1980년대 간간히 컴퓨터 학자들이 가졌던 신경망에 대한 흥미가 짧게나마 되살아났다. 힌튼은 다들 정말 기뻐하더라고 말했다. “하지만 우리가 좀 과장했었죠.” 학자들은 힌튼과 같은 이들이 괴짜들이고 신비주의자라고 생각했었다.
그래도 철학자와 심리학자들 사이에서 이 아이디어는 계속 인기 있는 주제였다. 그들은 이 아이디어를 “결합주의(connectionism)”이나 “병렬분산처리(parallel distributed processing)”라 불렀다. 힌튼의 말이다. “이 아이디어는 계속 멋진 신화로 살아남았습니다. 인공지능에 대해서는 사실이었어요. 그러나 심리학에서는 이 접근을 아주 많은 이들이 믿기는 했어도 어떻게 할 수가 없었습니다.” 관대한 캐나다 정부의 보조에도 불구하고 힌튼 역시 아무 것도 할 수 없었다. “충분한 데이터나 컴퓨팅 파워가 없었거든요. 우리 업계는 계속, ‘정말 큰 게 있으면 해볼 만할 텐데’라고들 말했습니다. 하지만 이정도로는 설득력이 없죠.”
3. A Deep Explanation of Deep Learning
구글이 “인공지능 우선”임을 알렸을 때 피차이는 구글의 비즈니스 전략을 선언한 것만이 아니라, 오랫동안 작동하지 않던 아이디어에 회사의 운을 걸고 있었다. 피차이가 자원을 몰아 넣는 통에, 딘과 같은 사람들이 힌튼과 같은 사람들에게 설득력 있는 제안을 위한 충분한 컴퓨터와 충분한 데이터를 드디어 제공할 수 있게 됐다.
평균적인 두뇌는 1천억 개의 신경을 처리한다. 각 신경은 1만 개의 다른 신경과 연결되어 있으며, 시냅스는 100조 개에서 1,000조 개에 이른다. 1940년대 제안됐던 단순한 인공 신경망에서 우리 두뇌 수준의 재현은 상상할 수 없었다. 물론 그 정도 규모로 네트워크를 건설하기는 아직도 시기상조이지만, Google Brain의 투자 덕분에 쥐의 두뇌와 비교할 만한 인공 신경망을 만들 수 있었다.
규모가 왜 중요한지 이해하기 위해서는, 기계 지능이 데이터를 소비할 때 하는 일이 정확히 무엇인지에 대한 기술적인 디테일 이해부터 해야 할 필요가 있다. 인공지능에 대한 모호한 공포감은 많은 부분, 언젠가 인공지능이 인간을 개미나 상추 정도로 간주하기로 결정하리라는 소시오패스와 같은 생각 때문이다. 인공지능은 그렇게 돌아가지 않는다. 인공지능은 기초적인 패턴부터 더 복잡한 패턴에 이르기까지 공통성(commonality)을 검색하여 정보를 정리한다. 당장 제일 큰 위험은 우리가 제공하는 정보 자체가 처음부터 왜곡됐을 가능성이다.
이 짧은 설명으로 충분히 안심된다면, 기술을 잘 모르는 독자들은 다음 섹션으로 넘어가도 좋다. 고양이에 대한 섹션이기 때문에, 그렇지 않다면 계속 읽으시라. (이 섹션 역시 다행히도 고양이에 관한 섹션이다.)
예전의 기호적 AI 모델을 기초로 하여 고양이 인식 프로그램을 원한다고 해 보자. 며칠에 걸쳐, “고양이”에 대한 완전한 정의를 머신에 입력해야 한다. 고양이에게는 다리가 4개 있고 뾰족한 귀와 수염, 꼬리 등이 있다고 말이다. 메모리의 특정 장소에 저장된 이 모든 정보를 Cat이라 해 보자. 이제 사진을 한 장 보여준다. 우선 기계는 이미지의 여러 요소를 별도로 바라보고, 이들 요소를 메모리에 미리 저장된 규칙에 적용해 본다. 만약 다리가 4개이고, 귀가 뾰족하고, 수염을 가졌으며, 꼬리가 있고, 표정이 거만하다면, 고양이다.
하지만 만약 이 프로그램에게, 가슴이 미어지는 유전자 결함으로 귀가 축 늘어진 스코티시 폴드(Scottish Fold)의 사진을 보여주면 어떨까? 우리의 기호적 AI는 귀가 뾰족하지 않다는 이유로 “고양이가 아님”이라 엄숙히 선언할 것이다. 너무나 문자 그대로의 해석이거나 “불안정(brittle)”하다. 걸음마를 갗 땐 아이라도 훨씬 추론적인 예리함을 보여줄 것이기 때문이다.
이제 메모리의 한 영역에 저장된 분류 규칙의 컴퓨터 대신, 신경망을 가정해 보자. “고양이”의 정의를 내릴 수 있는 특정 장소가 없다. 그저 서로 연결된 스위치의 거대한 군집(blob)만 있을 뿐이다. 한쪽 면에서 입력(사진)이 들어가면, 다른 면에서는 관련 결과물(레이블(lable))이 나온다. 그러면 서로 연결된 스위치의 개별 측정(calibration)을 통해 스스로를 산출(work out)하라 명령내린다. 데이터가 어느 경로를 택하든지 간에, 입력된 데이터를 올바른 산출물로 그려낸다(map).
그리고는 주어진 입력을 적절한 산출에 연결짓는, 미로와 같은 정교한 터널 시리즈를 통해, 군집을 통해 발굴한 데이터를 훈련(training)시킨다. 데이터를 더 많이 훈련시킬수록, 데이터를 파낼 수 있는 터널 수와 복잡성도 더 거대해진다. 훈련이 끝나면 충분한 수의 터널을 통해, 이제까지 못 봤던 데이터를 어떻게 다룰지에 대한 신뢰성 있는 예측을 할 수 있다. 이 과정이 바로 “지도 학습(supervised learning)”이다.
왜그리 많은 신경과 데이터를 요구하는지에 대한 이유가 거대한 머신 민주주의와 같은 방식으로 네트워크가 돌아가기 때문이다. 5개의 별다른 아이템을 구분하기 위해 컴퓨터를 훈련시키고 싶다고 해 보자. 여러분의 네트워크는 수 백만 개의 신경 “유권자”로 구성되어 있으며, 각각 5개의 카드를 받는다. 각각 고양이, 개, 거미원숭이, 숟가락, 세동제거기(defibrillator)이다.
유권자에게 사진을 보여주고, “고양이인지, 개인지, 거미원숭이인지, 숟가락인지, 세동제거기인지” 물어 보시라. 같은 투표를 하는 신경을 그룹화하고, 네트워크 전체적으로 어느 그룹이 과반수인지 본 다음, 감독(foreman)이 “개”라고 확인할 수 있을 것이다.
그럼 여러분이 답한다. “아닙니다. 고양이에요. 다시 해 보세요.”
이제 네트워크 감독은 어느 유권자들이 고양이에 표를 던지고 어느 유권자들이 던지지 않았는지 알아본다. “고양이”를 바로 맞춘 그룹은 다음 번에 할 때(적어도 고양이 쪽으로 투표할 때), 더 많은 비중을 갖는다. 이들은 개와 세동제거기를 고를 때에도 선택을 잘 하는지도 증명해야 할 테지만, 각 개별 유닛은 별다른 바람직한 결과를 내기 위해 서로 다르게 기여할 수 있기 때문에 신경망은 상당히 유연하다.
정확히는 개별 투표라기보다는 투표의 패턴이 더 중요하다. 조와 프랭크, 매리가 같이 투표한다면 개, 조와 케이트, 제시카가 같이 투표한다면 고양이, 케이트와 제시카, 프랭크가 같이 투표한다면 세동제거기. “인간들이 ‘고양이’라 부르는 픽셀 조합이 나타날 가능성”을 말할 수 있을 정도로, 신경망은 충분한 신호를 등록할 필요가 있다.
즉, “유권자” 수가 많이지고, 그들이 투표를 더 많이 할수록, 매우 약한 신호조차도 더 예리하게 등록할 수 있다는 의미다. 만약 조와 프랭크, 매리만 있다 하더라도, 고양이와 개, 세동제거기를 구분할 정도로만 사용할 수 있을 것이다. 만약 수 십억 가지의 별다른 방식으로 작동할, 수 백만 유권자를 갖고 있다면, 단위가 다르게 데이터를 구분하도록 학습할 수 있다. 레이블이 없는 사진을 보고 다소 정확하게 규명지을 수 있을 정도로 유권자들을 훈련시킨다는 의미다.
컴퓨터 과학에서 이 아이디어에 대해 수많은 저항이 있었다. 산출이 패턴의 패턴에 기반을 둔 예측일 뿐이므로 완벽해질 수 없고, 결국 기계는 고양이가 정확히 뭔지 정의내릴 수 없으리라는 점 때문이다. 그저 뭔가 봤을 때 알 뿐이다.
하지만 이 선명치 못한 점이야말로 주안점이다. 그동안 수 백만 가지의 다양한 고양이 사진에 노출된 신경 “유권자”들은 태양 아래 행복하게 조는 고양이와 더러운 고양이 변기에 열받은 눈초리의 고양이를 인식할 것이기 때문이다. 가령 축 늘어진 귀를 가진 스코티시 폴드처럼, 네트워크의 일부가 매우 약한 규칙(regularity)을 집어낼 수 있도록 유권자가 더더욱 많아지고, 어떤 현상에 있어서 가장 넓은 변화를 보일 수 있도록 분류(labeled) 데이터가 많아지면 된다.
그렇지만 성격상 신경망이 확률에 기반한다는 의미가, 모든 임무에 신경망이 들어맞는다는 뜻은 아님을 지적해야겠다. 1%의 고양이를 개로 잘못 분류하고 가끔 잘못된 극장으로 보낸다든지 할 경우에는 그리 비극이 아니겠지만, 자율주행 자동차의 보험비 관점에서 보면 비극일 수 있기 때문이다. 게다가 문제점은 또 있다.
지도학습은 분류 데이터에 기반한 시행착오 절차이다. 학습을 기계가 하기는 하지만, 입력의 첫 범주화(categorization)에는 인간 요소가 강력히 개입된다. 누군가가 “상사와 함께 한 여자”라 이름을 붙인 정장 차림의 남녀 사진 데이터가 있다면, 그들의 관계는 향후 모든 패턴 인식으로 들어가버린다.
그러므로 분류 데이터는 인간의 분류가 오류를 일으키는 방식대로 오류를 일으킬 수 있다. 대출 우량후보를 선별하라고 기계에게 명령을 내렸을 때, 유죄판결이 우선 불공정한 기준이 될 수 없다면(가령 차별적인 마약법 기반이라면), 대출 권장 후보 또한 부득이하게 오류일 수 있다는 얘기다.
이미지-인식 네트워크는 우리의 고양이 식별기처럼 딥러닝의 수많은 형태 중 하나일 뿐이지만, 가장자리를 먼저 골라서 원형을 감지하고 얼굴임을 인식하는 등, 각 레이어를 적어도 모호하게나마 인간이 인지하도록 하기 때문에 교육용 사례로 언급했다.
즉, 오류에 대한 안전장치(safeguard)가 있다는 의미다. 예를 들어서 구글의 이미지-인식 소프트웨어는 수많은 운동 카테고리를 포함하여 훈련을 시켰는데도 불구하고 처음에 항상 바벨을 별도로 인식하지 못했다. 시각화 툴을 보면 머신은 “덤벨”의 개념이 아닌, “덤벨+팔”의 개념을 배웠었다. 그래서 구글은 바벨 단독 사진을 넣어서 훈련을 시켜 문제를 해결했다. 아무 것도 쉽지 않다.
4. The Cat Paper
Google Brain의 첫 두 해는 1살배기 아이의 기능을 갖는 머신을 육성하기였다. 너무나 상서로운 목표여서 X 랩에서 나온 팀들이 들어올 정도였다. (Google X의 수장은 한때 Brain이 X 비용 전체를 지불했다고 인정했다.) 팀원은 아직 10명이 채 안 되며, 결과물이 무엇일지 모호한 감각만 갖고 있을 뿐이다. 그렇지만 다음에 무엇이 일어날지를 앞서 생각한다. 첫째로 인간의 마음은 공을 인식하고 그 다음 순간 공이라는 인식에 매달리지만, 곧 공에 대해 물어보기를 원한다. 그리고나서 언어의 영역으로 들어간다.
그 방향의 첫 단계가 Brain을 유명하게 만들어준 고양이 논문(cat paper)이다.
고양이 논문이 보여줬던 것은, 10억 가지 이상의 “시냅스(synaptic)” 연결(당시 발표된 그 어떤 신경망보다 100배 더 컸지만, 그래도 우리 두뇌보다는 훨씬 작다)이 원형의 미분류 데이터를 관측하고, 인간의 개념대로 순위를 매겨 뽑아낼 수 있다는 사실이었다.
Brain의 연구자들은 YouTube 영상 프레임 수 백만 장을 신경망에 보였고, 신경망이 안정적인 패턴을 구분해 놓은 엄청난 양의 지각(知覺)으로부터, 누가 봐도 고양이 얼굴임을 주저 없이 말할 수 있을 정도에 이르렀다. 이 머신은 고양이에 대한 사전지식 프로그래밍이 전혀 되어 있지 않았다. 직접 세상에 들어가서 고양이가 무엇인지 스스로 알아낸 것이다. (연구자들은 MRI와 같은 신경망으로 이 사실을 발견했다. 유령과 같은 고양이 얼굴 때문에, 인공신경은 대단히 열광적으로 “투표”했었다.) 대부분의 기계 학습은 분류 데이터의 양때문에 제한을 받는다.
고양이 논문은 머신이 원형의 미분류 데이터도 다룰 수 있음을 보였으며, 아마 인간이 사전지식으로 쌓아놓지 않은 데이터도 가능할 것으로 보인다. 이는 고양이-인식만이 아니라 전체적인 인공지능에 있어서도 큰 발전이었다.
고양이 논문의 주저자는 꾸옥 래였다. 래는 짧으면서 호리호리하고 부드럽게 말하지만 수수께끼와 같은 재빠른 미소를 가졌으며, 빛나는 검정 가죽신을 신고 다닌다. 그는 베트남 후에(Hue)에서 자라났으며 부모님은 농부였고 집 안에 전기가 없었다. 그의 수학적인 자질은 어렸을 때부터 분명했으며, 과학 공부를 위한 마그넷 스쿨로 진학할 수 있었다. 1990년대 후반, 아직 학교에 있을 때, 그는 대화를 위한 챗봇을 하나 만들려고 노력했었다. 이 일이 얼마나 어려워질 수 있을지 그는 생각했다. 그는 진지하게 얘기했다.
“하지만 사실, 정말 어렵더라고요.”
그는 논을 떠나 장학금으로 호주 캔버라에 있는 한 대학으로 진학했으며, 그곳에서 컴퓨터 시각장치(vision)와 같은 인공지능을 작업했었다. 당시 지배적인 방식은 가장자리와 같은 것에 대한 정의를 기계에게 먼저 주는 식이었다. 이런 방식은 그가 느끼기에 속임수 같았다. 당시 그가 그랬던 것처럼 머신이 근본부터 배울 수 있음을 깨달은 컴퓨터 학자는 적어도 10명 정도 있었는데, 그 사실은 그는 몰랐거나 희미하게 알고 있었다.
2006년 래는 독일의 중세 대학 도시인 튀빙엔의 막스플랑크 생물 사이버네틱스 연구소의 자리를 잡았다. 연구소의 독회 모임에서 그는 제프리 힌튼의 새로운 논문 두가지를 만난다. 오랜 디아스포라에 들어간 이들은 모두들 개종의 이야기를 갖고 있으며, 래는 힌튼의 논문을 읽고 눈의 비늘이 떨어지는 느낌을 받았다.
“큰 논쟁이 있었어요. 매우 컸죠.” 우리는 작은 내부 회의실에 있었다. 좁았지만 천장이 높고 작은 탁자에 칠판이 2개 있었으며, 그가 곡선을 칠판에 그리면서 부드럽게 비밀을 털어놓았다. “그런 큰 논쟁을 본 적이 없었어요.” 독회 모임에서 그는 이것이 미래라고 말했다고 한다. “당시로서는 인기 없는 결정이었습니다.” 래와 가까이 지냈던 호주의 예전 선배는 래의 결정을 잘 이해할 수 없었다. 그는 이메일로 래에게 왜 이런 일을 하는지 물었다. 래의 말이다.
“당시에는 좋은 답변이 없었고 그냥 호기심이 있었습니다. 성공적인 패러다임이 있었지만 솔직히 저는 새 패러다임에 대해 궁금했을 뿐이에요. 2006년에는 활동이 거의 없었습니다. 그는 스탠포드의 응에게 가서 힌튼의 아이디어를 좇기 시작했다. “2010년 말 되어서, 뭔가 일어날 수 있으리라는 확신이 들었어요.”
래는 Brain 최초의 인턴이 되었다. Brain에서 래는 박사 논문(궁극적으로는 고양이 논문으로 확장된다) 작성을 계속했다. 간단한 수준에서 래는 컴퓨터가 주어진 이미지에서 절대적으로 본질적인 정보를 식별해내도록 컴퓨터를 훈련시킬 수 있을지를 보고 싶었다. 그는 유투브로부터 가져온 스틸을 신경망에 심었고, 신경망에게 이미지 안에서 정보를 몇 가지 버리라 말했다. 하지만 어느 정보를 버릴지, 어느 정보를 버리지 말아야 할지에 대해서는 특별히 지정하지 않았다. 그래서 머신은 랜덤으로 정보의 일부를 던졌다. 그리고 나서 그는 농담이었다고 말한다. “갖고 있는 정보만 의존해서 첫 이미지를 다시 만들라.”고 말한다. 마치 머신에게 이미지를 “요약”할 방법을 찾고 요약본으로부터 오리지널로 확대해 보라는 요구와 같았다.
이를테면 눈썹이 아니라 하늘 색상과 같은 별 관련이 없는 데이터를 기반으로 요약본이 나온다면, 머신은 만족할 만한 재구성을 수행할 수 없다. 이때의 반응은 예전 인공지능과 유사하다. (지금은 멸종된) 검치호랑이에 잠시 노출된 것만으로, 호랑이가 움직일 때 휙 소리를 낸다고 말하는 식이다. 래의 신경망은 조상과는 달리, 계속 반복해서 더 노력한다. 반복을 할 때마다, 정보의 다른 조각들의 우선 순위를 수학적으로 “선택”하여 결과가 점점 더 좋아진다. 우리의 고양이 개념을 공부한 동일한 네트워크가 오토만(가구)와 염소 간의 X자 표시처럼, 가구-동물 복합체처럼 보이는 패턴에 대해서도 열광적일 수 있다.
래는 젊은 시절 프로그래머로서 자신을 바라보지 않았고, 예전에 했던 챗봇과 연결점이 있다는 생각이 들었다. 고양이 논문 이후, 그는 사진을 요약하라고 네트워크에게 시킬 경우, 아마 문장을 요약하라고도 시킬 수 있으리라는 사실을 깨달았다. 래와 향후 2년간 Brain에서의 동료인 토마스 미콜로브(Tomas Mikolov)와 함께 이 문제에 사로잡혀 있었다.
당시 Brain 팀은 사무실을 몇 개 차지할 정도로 자라나 있었다. 당분간은 임원들과 같은 곳을 공유하기도 했으며, 한 번은 래리 페이지와 세르게이 브린 방 앞 소파에서 잠 좀 자지 말라는 행정실의 이메일을 받기도 했었다. VIP 방문객들을 당황시켰기 때문이다. 그래서 Brain 팀은 거리 건너에 있는 연구동을 배정받았으며, 마이크로키친에서 그들이 주고 받는 대화는 귀한 손님들과 주고 받는 시덥잖은 대화가 절대로 아니었다. 게다가 그동안 구글 경쟁사들도 일부 인공지능을 따라오려 하고 있었다. (토마스 미콜로브와의 긴밀한 협력을 말할 때, 래는 미콜로브의 이름을 계속 구슬픈 주문처럼 되뇌이곤 했었다. 래가 그토록 침통해 보인 적은 없었다. 결국 필자는 이 말을 할 수 밖에 없었다. “그 분 혹시…” 래가 끄덕였다. “페이스북에 있죠.”)
Members of the Google Brain team in 2012, after their famous “cat paper” demonstrated the ability of neural networks to analyze unlabeled data. When shown millions of still frames from YouTube, a network isolated a pattern resembling the face of a cat. Credit Google
그들은 간단한 사진 식별처럼 정적인 임무만이 아닌, 언어나 음악과 같은 시간이 갈수록 펼쳐지는 복잡한 구조도 다룰 수 있을 신경망 아키텍처를 만들기 위해 노력했었다. 첫 제안은 1990년대에다수 있었고, 래와 동료들은 오랫동안 무시됐던 여러 기여를 얻어 모을 수 있었다. 기초적인 언어 예측 기능을 한 번 이룩하면 예를 들어서 이메일에 적절한 답신이라든가, 합리적인 대화를 예측하는 등 영리한 온갖 일을 할 수 있다. 적어도 외부에서 보기에는 정말 생각하는 것처럼 보이는 수준까지 다가설 수 있다.
Part II: Language Machine
5. The Linguistic Turn
100여 명에 이르는 Brain은 전체 구글 조직으로부터 제일 존경받고 제일 자유로운 직원들로 구성됐다. 그래서 거대 기업 상하관계에 따른 부서라기보다는 클럽이나 대학교 동아리, 혹은 은하계 구내식당과 같은 분위기였다. 그들은 이제 2층 짜리 계란형 빌딩을 제공 받았고, 구글의 마운틴뷰 본사의 수풀이 무성한 북서형 빌딩의 거대한 창문은 위협적인 흑회색의 색깔을 띄고 있었다. 마이크로키친에는 사용하는 광경을 한 번도 못 봤던 푸스볼(Foosball) 탁자가 있었고, 역시 한 번도 사용하는 광경을 본 적 없는 Rock Band 게임 장비가 있었으며, 가끔 사용하는 걸 본 적 있는 Go kit도 있었다. (한 번은 어린 Brain 연구원이 동료들에게 잘 익은 잭프룻을 소개하는 광경을 봤었다. 타조처럼 거대하게 뾰족 뾰족 둥그렇게 잘라 놓았었다.)
6월 Brain 사무실에서 시간을 보내기 시작하면서, 빈 책상도 좀 있기는 했지만 책상 대부분은 “Jesse, 6/27″과 같은 포스팃 노트가 붙어 있었다. 이제 책상은 모두 채워져 있다. 필자가 처음 방문했을 때는 주차가 문제 없었으며, 제일 가까운 공간은 산모나 테슬라용으로 놓였고 나머지 주차장이 매우 넓었다. 그런데 10월에는 9시 반에 오자 아예 맞은 편 거리에 주차를 해야 했었다.
Brain의 성장 때문에 딘은 구글이 수요를 어떻게 감당할지 약간 조바심이 났다. 그는 구글이 실제 제품 구현보다 이론이 앞서나가는 상황을 가리키는 “성공 재앙(success disaster)”으로 가지 않기 바라고 있었다. 특정 시점에서 그는 어림 잡아 계산했었고, 결국 어느 날 임원진에게 이중 슬라이드 프리젠테이션을 보여줬다.

Members of the Google Brain team in 2012, after their famous “cat paper” demonstrated the ability of neural networks to analyze unlabeled data. When shown millions of still frames from YouTube, a network isolated a pattern resembling the face of a cat.CreditGoogle
“미래 모두들 하루에 3분은 안드로이드 휴대폰에게 말을 걸 겁니다. 얼마나 많은 머신을 우리가 필요로 할지가 여기 나와 있습니다. 전세계 컴퓨터의 두 배 내지 세 배가 필요할 거예요.”
그는 좀 과장하면서 눈을 크게 떴고, 결과를 상상하도록 만들기 위해 좀 뜸을 들였다. “좀 무섭게 들릴지는 몰라도 하셔야 합니다. 새 빌딩을 지어야 해요.”
그렇지만 다른 선택도 있다. 그냥 모든 것을 더 빠르게 하는 새로운 칩을 디자인해서 대량 생산한 다음, 데이터센터에 설치하면 된다. 이들 칩은 T.P.U.s, 혹은 “tensor processing units”라고 하며, TPU는 보통의 칩보다 덜 정확하려 노력한다는 점이 장점이다. 직관에 어긋나는 장점이다. 12.246 곱하기 54.392를 연산하는 대신, TPU는 형식적으로 12 곱하기 54를 답한다. 은유가 아닌 수식적인 수준으로 보자면, 신경망은 연속적인 수백 수천 수만 개의 행렬 곱셈이며 정확성보다는 빠른 처리가 훨씬 더 중요하다. 딘의 설명이다. “보통 특정한 목적을 가진 하드웨어는 아이디어가 안 좋습니다. 한 가지만 속도를 내는 데에 쓰이기 때문이죠. 다만 신경망의 범용성은, 특정한 목적의 하드웨어도 다른 일을 많이 할 수 있게 활용도를 넓힐 수 있어요.”
칩 디자인 공정이 거의 끝나자, 래와 다른 동료 둘은 마침내 신경망이 언어 구조를 다룰 수 있도록 조절할 수 있음을 시연한다. 그는 “word embedding”이라는 아이디어를 그려냈다. 이 아이디어가 나온지는 10년도 넘었는데, 이미지를 요약할 때, 이 요약된 이미지가 어떻게 보이는지 모서리나 원 등, 각 단계별로 사진을 나눌 수 있다. 언어를 요약할 때에도 마찬가지이다. 본질적으로는 언어의 각 단어마다 일반적인 사용에 기반해서 분포를 다중 방향으로 생산하는 식이다. 머신은 우리가 하는 것처럼 명사와 동사로 나누는 등의 문법적인 데이터 “분석”을 하지 않는다.
그 대신 머신은 지도 안에서 단어를 뒤틀고 변경시킨다. 2차원 평면에서 이 지도를 유용하게 만들 수는 없다. 예를 들어 “고양이”가 “개”에 근접하기를 원하지만, “고양이”가 “꼬리”와 “오만한 표정”과 “밈(meme)”에 가깝기를 원하기도 한다. “고양이”와 다른 단어들 간의 강하고 약한 모든 관계를 잡아두려 하기 때문이다. 단 각각 다른 차원에서 관련이 있을 경우에만 동시에 이들 다른 단어 모두와 관계를 가질 수 있다. 그렇지만 16만 차원의 지도를 쉽게 만들 수는 없으며, 단지 천 여가지의 차원 안에서 언어를 표현할 수 있음을 알 수 있는데, 달리 말해서 각 단어가 천여 가지 숫자의 목록으로 만들어진 차원을 의미한다. 래는 이러한 지도를 마음 속으로 그려달라는 필자의 거듭된 부탁을 잘 견뎌냈다. 래는 필자에게 직설적으로 말했다. “기디언, 저는 일반적으로 3차원 공간에서 천차원의 벡터를 가지고 시각화시키려 하지 않아요.”
그렇지만 특정 차원으로 보자면, 성(性)이나 상대적인 크기처럼 독해가 가능한 인간적인 범주도 표현하는 차원이 있다. “왕”을 의미하는 천 가지의 단어에서 “여왕”을 의미하는 천 가지의 단어를 뺄 경우, “남자”를 가리키는 단어에서 “여자”를 가리키는 단어를 뺀 수와 같은 똑같은 수(數)의 결과를 낼 수 있다. 영어 언어의 모든 공간과 불어 언어의 모든 공간은 적어도 이론상으로 한 공간에서 다른 공간으로 문장을 배워서 제안할 수 있도록 훈련 시킬 수 있다. 다만 영어 문장 수 백만 가지를 거듭해서 입력하고 다른 쪽에서는 그에 따른 수 백만 가지의 불어 문장을 거듭해서 내보낸다면, 이미지 분류기가 관련성 있는 패턴을 픽셀에서 인지하듯, 단어의 관련성 있는 패턴을 인식할 것이다. 결국 영어 문장을 줬을 때, 최고의 불어 번역 문장을 예측하라 요청할 수 있다는 의미다.
단 단어와 픽셀의 주된 차이는 이미지의 픽셀이 한꺼번에 나타나는 반면, 단어의 경우는 시간에 따라 나타난다는 점이다. 첫 단어부터 마지막까지 시간 순서의 진전에 따라 네트워크가 “염두에 둘(hold in mind)” 완전한 방법이 필요하다. 2014년 9월의 어느 한 주일 동안, 논문 3개가 나온다. 하나는 래, 다른 두 개는 캐나다와 독일의 학자들이 썼는데, 마침내 이런 종류의 일을 하기 위해 필요한 이론상의 툴을 동 논문이 제공했다. 논문의 연구 덕분에 머신이 예술과 음악을 어떻게 다루는지에 대한 조사인 Brain의 Magenta와 같은 조정 가능한(open-ended) 프로젝트가 가능해졌다. 또한 머신 번역과 같은 중요한 작업의 방법을 깔끔하게 해줬다. 힌튼에 따르면 당시 그는 이런 작업이 적어도 5년은 더 걸리리라고 봤다고 한다.
6. The Ambush
래의 논문은 신경망이 가능함을 보였지만, 그는 상대적으로 소규모인 공개 데이터셋만을 사용했었다. (구글 시각에서 볼 때 소규모라는 얘기이다. 실제로는 세계 최대의 공개 데이터 셋이었다. 10년에 걸친 Translate 서비스의 생산 데이터로서, 100배 1,000배 더 커졌다.) 더 중요한 점이 있다. 래의 모델은 7 단어보다 더 많은 단어로 이뤄진 문장의 경우 잘 돌아가지 않았다.
당시 Brain의 과학자였던 마이크 슈스터(Mike Schuster)가 바통을 이어 받았다. 그는 구글이 이론적인 통찰력을 생산 수준까지 끌어올릴 방안을 찾아내지 못 한다면 다른 누군가 할 것임을 알았다. 그는 이 프로젝트를 2년간 끌었다. 슈스터의 말이다. “아마 뭔가를 번역하면 데이터를 얻고, 실험을 돌려서 끝이라 여기시겠지만, 일이 그렇게 돌아가지는 않습니다.”
슈스터는 네온-그린 색의 나이키 플라이니트를 신고 무릎 아래 작업복 바지를 묶어 놓았으며, 좁은 어깨에 권총 모양의 머리, 햇볕에 탄 팽팽하면서 집중하는, 늙지 않은 듯한 인물이다. 그는 마치 책상다리를 하다가 깨어나 작은 무테 타원형 안경을 집어 들고, 적당량의 도토리의 형태로 칼로리를 좀 섭취한 다음, 사무실까지 거의 10종 경기를 하면서 오는 사람처럼 보이지만, 실제로는 바이크로 18 마일 밖에 안 걸린다고 한다. 슈스터는 용광로가 있던 서독의 뒤스부르크(Duisburg)에서 자라나 전기공학을 공부했으며, 쿄토로 옮겨서 초기 신경망을 작업했었다. 1990년대 그는 회의실 크기만한 신경망 머신을 실험했었다. 수 백만 달러가 들어갔으며, 지금은 데스크톱 컴퓨터로 1시간도 안 걸리는 일 가지고 수 주일 동안 훈련 시켜줘야 했었다. 그는 10년간 거의 인용을 못 받은 논문을 1997년에 냈는데, 2016년 인용회수만 150회 가량 된다. 그는 유머가 없으나 종종 거친 표현으로 무장한다. 아마 독일과 일본의 통제를 모두 다 조합했기 때문일 것이다.
슈스터가 해결해야 하는 문제는 복잡했다. 우선, 래의 코드는 손수 짠 것이었으며, 구글이 당시 개발하고 있던 오픈소스 머신러닝 플랫폼 TensorFlow와 호환성이 없었다. 딘은 2015년 가을, 슈스터와 다른 엔지니어 두 명(Yonghui Wu, Zhifeng Chen)에게 새 시스템에 래의 결과를 복제할 시간을 두 달 준다. 래가 있기는 했지만 래조차도 슈스터와 다른 이들이 한 것을 항상 이해하지는 못 했었다.
슈스터는 완전히 잘 아는 상황에서도 뭔가 안 됐다고 말한다. “어째서 돌아가는지 저희들도 몰랐어요.”
올해 2월, 구글의 느슨한 부서인 연구조직(미래지향적이고 분류가 불가능하다) 직원은 거의 1,000명인데, 구글은 구글 본사보다는 덜 럭셔리하지만 그래도 호화로운 호텔인 유니언 스퀘어의 Westin St. Francis 연찬회로 관리자들을 소집했다. 아침마다 연구 현황 업데이트를 다루는 “lightning talks”를 갖고 오후에는 부서별로 “facilitated discussions”로 느슨한 회의를 했다. 예기치 못한, 이를테면 벨 연구소처럼 구글을 성숙한 기업으로 유지해 줄 아이디어를 발굴할 기회를 만들어보자는 희망 때문이었다.
점심시간, 코라도와 딘은 구글 Translate 책임자인 맥더프 휴즈(Macduff Hughes)를 같이 찾았다. 혼자 점심을 먹고 있던 휴즈와 Brain의 두 멤버는 각각 자리를 잡고 앉았다. 코라도는 자기들이 매복해서 그를 공격했다고 말한다. 일단 코라도는 눈에 띄게 숨을 내쉬며 조심스러워하는 휴즈에게 OK라 말했다. “말해줄 게 있어요.”
그들은 휴즈에게 2016년은 10년 넘게 수 백 명의 엔지니어가 코드를 작성했던 구글 Translate를 신경망으로 바꿀 좋은 시기라 말했다. 이전 시스템은 지난 30년간 모든 기계번역이 하던대로 작업해왔었다. 각각 문장의 부분을 잘라내어서, 통계적으로 구성한 단어표에서 단어를 찾은 다음, 적절하게 끝내도록 후처리를 하고, 합리적인 문장이 되도록 재구성하는 순서이다. 당시 시스템이 순서대로 다음 문장을 찾지만 마지막 문장이 뭔지 모르도록 되어 있었기 때문에 이 접근법을 “문장-기반의 통계적인 기계번역(phrase-based statistical machine translation)”이라 불렀었다. 그래서 Translate가 종종 냉장고 자석이 뒤섞여 있는 가방처럼 보일 때가 있었다. Brain의 Translate 시스템은 전체 문장을 하나의 덩어리로 읽고 렌더링한다. 따라서 맥락을 집어낼 수 있으며, 맥락은 글의 의미와 유사하다.
그런데 바꿀 이유가 별로 없어 보였다. Translate의 수입은 보잘 것 없었으며 아마 앞으로도 그럴 것이기 때문이었다. 영어권 사용자들 대부분에 있어서는 Translate 서비스의 성능 개선이 급속도로 업그레이드된다 한들, 예측 가능한 개선 수준 이상의 반응을 낼리 만무하기 때문이다. 하지만 인간-수준의 기계 번역은 단기적으로 필요할 뿐 아니라, 장기적으로는 완전한 변형도 대응할 수 있음을 증명하기 때문에 매우 중요한 개발이었다. 가까운 장래, 구글의 사업 전략에 있어서도 중요했다. 구글은 인터넷의 50% 가량이 영어이리라 추측하며, 전세계 인구의 20% 가량이 영어를 구사한다. 구글이 중국이나 인도에서 경쟁을 벌여야 한다면(중국 시장 점유율의 과반수는 구글의 경쟁사인 Baidu가 차지하고 있다), 훌륭한 기계 번역은 인프라에서 뺄 수 없을 것이었다. Baidu 자신도 2015년 7월, 신경망 번역의 가능성에 대한 개척자적인 논문을 낸바 있었다.
그리고 보다 먼, 아직 추측 뿐인 미래에 있어서 기계 번역은 아마 인간 언어로 하는 범용의 컴퓨터 기관을 향한 첫걸음이 될 것이다. 진정한 인공지능처럼 느껴지는 뭔가를 개발하기 위한 큰 변곡점, 아니 유일한 변곡점이 될 수도 있을 일이었다.
실리콘밸리 대부분은 기계학습을 빠르게 접근하는 중인 지평선으로 알고 있기 때문에, 휴즈는 이런 제안이 올지 알고 있었다. 그래도 그는 회의적이었다. 관자놀이에 갈색 머리가 헝클어진 평범하지만 튼튼한 초중년인 휴즈는 전통적인 엔지니어로서, 1970년대 보잉 제도용 책상에 틀어박혀 있을 만한 인물이다. 그를 위해 일하는 더 젊은이들과는 달리 그의 청바지 주머니는 마치 줄자와 열전도선을 담고 다니는 것처럼 어색한 치수의 여러가지 툴이 들어간 것처럼 보인다. 그는 회사 도구에 의지하지 않는 의상 차림이며, 구글 내 여러가지 장소의 여러 사람들이 (실험실 수준이 아니라 제품 규모에서) 신경망 작업을 시도하고 있지만 별 실적이 없다는 사실 정도는 그도 알고 있었다.
휴즈는 그들의 말을 듣고는 어쩌면 3년 안에 할 수 있잖을까 하고 주의 깊게 말했다. 딘은 생각이 달랐다.
“마음만 먹으면 올해 말까지 할 수 있습니다.” 딘은 마음만 먹으면 뭐든 성공시켰던 기나긴 기록이 있으며, “마음만 먹으면”과 같은 말을 전혀 거리낌 없이 진중하게 한다. 그래서 사람들이 그토록 딘을 좋아하고 존경한다.
휴즈는 곧 일어날 일이라 확신하지는 않았지만, 개인적으로는 신경쓰지 않았다. 그는 팀에 돌아가서는 이렇게 말했다. “2016년 동안 준비해 봅시다. 제프 딘이 일정을 못 맞췄다고 말하고 싶지는 않습니다.:
마침내 한 달 후, 슈스터의 새 시스템과 휴즈의 옛 시스템을 나란히 놓고 실험해볼 수 있었다. 슈스터는 영-불을 돌리고 싶었지만, 휴즈는 다른 걸 해보자고 조언했다. “영-불번역은 이미 좋기 때문에 개선점이 그리 분명하지 않을 듯 합니다.”
슈스터로서도 저항하기 어려운 도전이었다. 기계 번역을 여러 신뢰성 있는 인간 번역 평균치와 함께 측정하는 벤치마크를 BLEU 점수라고 한다. 당시 영불에 있어서 최고의 BLEU 점수는 20점대 후반이었다. 1점 정도 더 올라가도 매우 좋은 개선이었으며, 2점이 올라가면 정말 뛰어난 개선이었다.
그런데 영불 언어에 있어서 신경망 번역은 이전 시스템에 비해 7점이 더 높았다. 휴즈는 슈스터의 팀에게 지난 4년 동안 그 절반 정도의 개선도 본 적이 없다고 말했다.
단지 요행이 아니었음을 확인하기 위해 그들은 인간 계약자들을 불러서 나란히 번역을 시켜보기도 했었다. 문장을 0점에서 6점까지 매기는 사용자 인지 점수는 평균 0.4점의 개선을 보였다. 이 점수 기준으로 볼 때, 그동안 전체 Translate 시스템이 거둔 개선과 맞먹는 수치였다.
휴즈는 3월 중순, 이메일을 통한 공지를 통해 예전 시스템의 모든 프로젝트를 즉각 중단 시킨다고 발표한다.
7. Theory Becomes Product
당시까지 신경망팀에는 3명(슈스터, 우, 첸) 밖에 없었지만, 휴즈의 지원이 가세하면서 팀이 더 커졌다. 어느 수요일 오후 2시, 그들은 Quartz 호수라 불리는 Brain 빌딩의 구석방에 슈스터의 소집으로 모였다. 이 회의에는 십 수 명이 참여했다. 휴즈나 코라도가 있을 때 보통은 영어 네이티브만 있었다. 엔지니어들은 중국어와 베트남어, 폴란드어, 러시아어, 아랍어, 독일어, 일본어를 말했지만 그들은 보통 수학과 나름의 영어로 말했었다. 구글에서 회의를 누가 돌리는지 항상 명확하지는 않지만 슈스터의 경우에는 그러한 모호함이 없었다.
다만 그 다음 단계는 당시로서도 전체적으로 확실하지 않았다. 한 번은 슈스터가 필자에게 했던 말이다. “아주 많은 부분이 불확실성에 대한 이야기입니다. 전체 공정에 걸친 불확실성이죠. 소프트웨어와 데이터, 하드웨어, 사람들 모두 그랬습니다.” 그는 자신의 가느다란 팔을 펼쳤고, 좁은 어깨로부터 팔꿈치를 약간 굽혔다. “거대한 진흙탕에서의 수영이기 때문에 이만큼 밖에 못 봅니다.” 그는 가슴팍으로부터 손을 8인치 정도 내밀었다. “목표가 이쯤에 있죠. 이쯤입니다.”
구글 회의실에는 대부분 영상채팅 모니터를 장비했으며, 아무 작업도 안 할 때에는 Reichstag이나 북구의 초현실적인 숲처럼 극도로 높은 해상도로 채워진 구글+ 퍼블릭 사진을 내보낸다. 슈스터는 패널 중 하나를 가리켰다. 마침 모니터에는 밤의 워싱턴 기념비(Washington monument)의 수정같은 사진을 보여주는 중이었다.
“외부로부터의 뷰는 모두들 두 눈으로 저만큼 볼 수 있다는 거죠.”
그 지점까지 가는 이론상의 작업만 하더라도 이미 고통스러웠고 오래 걸렸지만, 이론을 유망한 제품으로 바꾸는 것(학계의 과학자들은 이를 엔지니어링일 “따름”이라 일축한다)도 쉽지가 않다. 일단은 좋은 데이터 상에서 훈련하고 있음을 확인해야 할 필요가 있다. 구글의 수 십억 단어로 이뤄진 “독해” 훈련은 헤밍웨이에서 찾을 수 있는 글처럼 많이 복잡하지 않은 완전한 문장으로 대부분 구성되어 있다. 게다가 퍼블릭 도메인인 작품들도 있다. 통계적인 기계 번역의 원래 Rosetta Stone은 캐나다 의회의 완벽한 양대 언어 기록 수 백만 페이지었다. 데이터 다수는 10년에 걸친 데이터에서 골랐으며, 여기에는 열광적인 사용자들이 모아 놓은 인간의 번역도 포함되어 있다. 팀은 또한 9,700만 가지의 독특한 영어 “단어”도 갖고 있다. 다만 이모티콘과 오타, 반복을 지우고 나면 잘 돌아가는 단어는 대략 16만 단어 뿐이다.

Google’s Quoc Le (right), whose work demonstrated the plausibility of neural translation, with Mike Schuster, who helped apply that work to Google Translate. Credit Brian Finke for The New York Times
여기서 사용자들이 실제로 무엇을 번역하고 싶어하는지 다시 집중해야 하는데, 합리적인 언어와 별 상관이 없을 때가 종종 있었다. 구글이 보건데 많은 이들은 완전하고 복잡한 문장의 번역 서비스를 원하지 않는다. 언어의 자그마한 일부만을 번역한다. 사용자 쿼리를 다룰 수 있는 번역 네트워크를 원하면 그 방향으로 인도됨을 확실히 해야 하며, 번역 네트워크는 훈련받은 데이터에 매우 민감했다. 휴즈의 말마따나 신경망 시스템은 배울 수 있는 모든 것으로부터 배운다. 그는 웃으며 말했다. “‘아빠 화났을 때 그 단어 쓰더라!’라 말하는 아이와 같습니다. 주의해야 하죠.”
더군다나 비록 사용자들이 알아차리지 못 할 정도로 빠르거나 신뢰성이 있도록 할 필요도 있다. 2월에는 10 단어 짜리 번역이 10초 걸렸다. 그정도로 느린 서비스는 절대로 선보일 수 없었다. Translate 팀은 소수의 사용자들을 대상으로, 얼마나 잘 참는지를 시험해 보기 위해 일부러 지연 현상을 집어 넣기 시작했다. 두 배에서 다섯 배까지 느리게 했었는데 여덟 배가 느려지자 사용자들이 안 참았었다. 모든 언어에서도 마찬가지인지는 알 필요가 없었다. 불어나 중국어처럼 자주 사용하는 언어인 경우는 지연을 지지할 수 없다. 다만 잘 알려지지 않은 언어인 경우 더 나은 품질의 번역물을 얻을 수 있다면 약간의 지연 현상 정도는 참는다는 사실을 알았다. 포기하고 경쟁사 서비스로 건너가지 않기만을 원했었다.
슈스터는 자기들이 충분히 빠르게 할 수 있을지 몰랐다고 인정한다. 그는 마이크로키친에서 첸에게 “더 빠르게 못 하는 이유가 뭔가 있을 텐데, 무엇일지 모르겠어요”라 말했었다고 한다.
그렇지만 컴퓨터가 더 필요하다는 사실만은 그도 알고 있었다. 훈련용 GPU(신경망용으로 재구성된 그래픽 프로세서)다.
휴즈는 슈스터에게 가서 자기 생각을 얘기했다. “GPU 천 개를 요청할까요?”
슈스터는 2천 개는 안 되냐고 대꾸했다.
열흘 후, 그들은 추가적으로 2천 개의 프로세서를 얻을 수 있었다.
4월, 원래 3명이었던 직원이 30명 이상으로 늘었으며, 래와 같은 이들도 있었지만 다수는 Translate에서 왔다. 5월, 휴즈는 각 언어 쌍별로 임시 책임자들을 지정해서, 거대한 공유 성능표에 자기 결과를 체크했다. 그리고 적어도 20명이 한 주일 동안의 독자적인 실험을 돌려서 예기치 못한 문제를 아무 때나 다뤄야 했었다. 별 이유 없이 하루에 모델 하나씩, 문장 하나를 두고 나오는 모든 수치를 취한 다음 버렸다. 아슬아슬한 상황이 수 개월을 이었고, 슈스터에 따르면 거의 모두들 고함을 지르고 있었다고 한다.
지난 봄, 여러 조각들을 한데 모았다. 팀은 “단어조각 모델(word-piece model)”과 “정보범위 패널티(coverage penalty)”, “길이 정상화(length normalization)”라 불리는 것을 소개했는데, 각 부분이 결과를 개선했었다. 슈스터는 개선이 수 퍼센트 포인트에 불과하다 할지라도, 총합으로 보면 상당하다고 말한다. 모델을 표준화 시켜 놓으면, 현재 Translate가 사용하는 150가지 이상의 모델들보다, 단일한 다언어 모델만이 있을 것이다. 그렇지만 인간의 천재성과 노력을 들여 만든 자동화 절차인 기계 학습을 통한 범용화 툴의 의문은 남는다. 그들이 한 일 다수는 그저 직감이었기 때문이다. 사용한 레이어당 뉴런이 얼마나 많은가? 1,024개, 아니면 512개? 레이어는 몇 개인가? 한 번에 얼마나 많은 문장을 돌렸는가? 얼마나 오랫동안 훈련하는가?
슈스터는 필자에게 수 백번의 실험을 거쳤다고 말한다. “1주일 후 훈련을 멈출 수 있겠다는 점을 알기 전까지죠. 언제 멈추냐고 항상 물어볼 수 있습니다. 끝났는지 어떻게 알지? 그거, 모릅니다. 기계 학습 메커니즘은 완벽할 수가 없어요. 훈련해야 하고 언젠가는 멈춰야 하죠. 전체 시스템에서 매우 고통스러운 부분입니다. 어려운 점도 있죠. 멋지게 만들기 위해 붓을 놓는 지점에서는 어느 정도 예술이에요. 그냥 하면 나옵니다. 누구는 더 잘하고 누구는 더 못하죠.”
5월, Brain 팀은 제품으로서 구현을 더 빠르게 할 유일한 방법은 바로 딘이 이름 붙인 특수 목적의 칩, TPU에서 돌릴 수 있느냐에 달렸다는 사실을 깨달았다. 첸은 코드가 돌아갈지도 몰랐다고 말한다. “하지만 TPU 없이는 안 될 것이라는 점은 우리도 알았어요.” 그는 딘에게 가서 제발 우리 것좀 남겨달라 애원하다시피 했다. 딘은 남겨줬다. TPU는 꺼내자마자 돌아가는 칩이 아니다. 우는 두 달 동안 하드웨어 팀과 짝을 지어서 어떻게 돌아갈지를 연구했다. 그들은 모델을 디버깅만 하지 않고, 칩도 디버깅했다. 신경-번역 프로젝트는 전체 인프라스트락처 투자 개념의 증명이 될 것이었다.
6월의 한 수요일, Quartz Lake의 회의는 최근 온라인 포럼에 등장한 Baidu의 한 논문에 대한 소곤거림으로 시작됐다. 슈스터가 분위기를 정리했다. “맞아요. 바이두가 논문을 하나 냈는데, 우리 어깨너머 누군가 지켜본 느낌입니다. 아키텍처와 결과가 유사해요.” 구글의 BLEU 점수는 2-3월 동안 구글이 내부적으로 테스트를 해서 얻었었다. 래는 동요하지 않은 듯 했다. 구글이 올바로 가고 있다는 말이기도 하기 때문이었다. 래는 조용히 동의하면서 구글 시스템과 바이두가 매우 유사하다 말했다.
구글 팀은 경쟁사보다 일찍 결과를 논문으로 내서 공개할 수 있을 것으로 생각했었지만 슈스터는 논문 등재보다 제품 공개가 더 중요하다 잘라 말했다. “사람들이 ‘내가 먼저 했어’라 말들 하지만 마지막에는 누가 그거 신경 씁니까?”
그렇다면 구글은 이제 먼저 더 좋은 서비스를 내놓아야 한다는 의미였다. 휴즈는 사용자들에게조차 시스템이 변경됐다는 공지를 하지 않는 환상을 가졌다. 소셜미디어가 개선 사항을 알아서 퍼뜨리기를 그저 두고보는 것이었다. 휴즈의 말이다. 노동절 이틀 후 오후 5시 36분, 중국어-영어 신규 시스템 사용자가 1분 후 10%에 달했었다. 역시 아무런 발표가 없었다. “새로운 시스템이라고 말하고 싶지 않아요. 잘 돌아가는지 확인해야 합니다. 트위터에 퍼지는 편이 제일 이상적이에요. ‘구글 Translate가 얼마나 좋아졌는지 아세요?’식으로 말이죠.”
8. A Celebration
계절이 따로 없는 실리콘밸리에서 어떤 계절인지 알아보기 위한 신뢰성 있는 방법 두 가지가 있다. 하나는 마이크로키친의 제철과일 순환이다. 한여름에는 플루오트, 초가을에는 아시아배와 단감이 나온다. 다른 하나는 기술 진보의 지그재그이다. 9월 하순, 불편하리만치 따스한 어느 월요일, 팀의 논문이 마침내 나왔다. 저자는 우스울 정도인 31명이었다. 다음 날, Brain과 Translate 팀이 Translate 마이크로키친에 모여 축하 리셉션을 개최했다. Brain 빌딩의 방들 이름은 그들의 오랜 디아스포라의 겨울에 대한 헌정으로서 알래스카 지역의 이름을 갖다 붙였다. Translate 빌딩의 테마는 하와이이지만 말이다.
하와이 마이크로키친 벽에는 모래로 살짝 뒤덮인 사진이 걸려 있으며, 자그마한 하와이식 화환으로 만든 오두막 서비스 카운터 중앙에는 당근이 놓여 있고, 천장에는 제등(提燈)과 유사한 장식물이 달려 있다. 방어가 잘 안 된 열대우림에 대한 포스팅처럼, 대나무 장대의 막대그래프 두 개가 띄엄띄엄 표시되어 있으며, 대나무 장대 너머 유리벽과 문을 열면 똑같은 회색 책상이 양옆에 놓여 있다. 그날 아침, Translate 10주년을 기념하기 위해 후드 스웨터 차림의 팀원들이 책상을 떠나 파티장으로 향했다. 10년에 걸친 작업이 은퇴 가정에 들어섬을 축하하는 의미도 있었다. 또다른 기관에서는 후드티가 일종의 장례식복이 될 판이었지만, 양팀의 엔지니어와 컴퓨터 과학자들은 모두 기뻐하는 듯 보였다.
마침내 구글 신경망이 가동중이었다. 파티 막바지가 되자, 구글의 중국어-영어 테스트는 이미 1,800만 쿼리를 처리했다. Translate 팀의 한 엔지니어는 휴대폰을 꺼내 들고 중국어 전체 문장을 바이두 서비스를 통해 영어로 번역하려 노력하는 중이었다. 그는 기뻐하며 모두들에게 보여줬다. “두 글자 이상을 한꺼번에 넣으면 시간 대기로 아웃!” (바이두에 따르면, 사용자들이 이런 문제를 보고한 적이 없다고 한다.)
수 주일이 지나고 구글이 중영 번역에 신경망을 도입했다는 소문이 퍼지면서, 구글이 좋은 성과를 낸 언어가 중-영 뿐이라는 추측도 나돌기 시작했다. 하지만 파티장에 모였던 모두들 그 결과가 11월에는 확실해지리라 확신했다. 그때가 되면 자기들 중 다수는 다른 프로젝트로 갈 예정이었다.
휴즈는 목을 가다듬고, 티키(tiki) 바 앞에 섰다. 그는 중앙에 어두운 테가 가벼운 패턴으로 놓인, 헝클어진 칼라의 녹색 폴로 셔츠를 입고 있었다. 최후의 순간의 문제와 최최후의 순간의 문제도 있었다. 논문상에서 매우 커다란 측정 오류와 기괴한 구두점과 관련된 시스템 버그이다. 그러나 모든 문제는 해결됐거나, 순간 만큼은 충분히 해결됐고, 손님들은 조용해졌다. 휴즈는 잡담이나 주제와 관련 없는 얘기는 최대한 줄이고 효율적이고 생산적으로 회의를 이끌었지만, 분위기의 중력 때문에 잠깐 말을 멈췄다. 그는 자신이 아마 비유를 좀 늘리고 있다는 점을 인정했지만, 신경 번역 프로젝트 자체가 “여러 다른 언어를 얘기하는 그룹 간의 협력”을 대표한다는 사실을 강조해야겠다고 말했다.
그는 팀의 신경-번역 프로젝트가 “계단함수 진전(step function forward)”이었다고 평했다. 불연속적인 전개(展開)로서, 부드러운 개선이라기보다는 갑작스러운 도약이라는 의미다. 적절한 번역은 두 팀 간에만 있지 않고, 이론과 현실 상에 걸쳐 있었다. 그는 비싸 보이는 샴페인이 담긴 플라스틱 잔을 높이 올렸다.
“커뮤니케이션과 협동을 위하여!”
모인 엔지니어들은 서로서로를 쳐다본 다음, 와 하면서 박수를 쳤다.
제프 딘은 마이크로키친 중앙에 손을 주머니에 넣은 채, 코라도 및 슈스터와 함께 어깨를 약간 구부린 채 서 있었다. 딘은 관찰자의 입장에 기여하고 싶어 했었고, 성격에 걸맞게 절제된 태도를 보이고 있었다. 가볍고 빠르면서 정확하게 덧붙였지만 말이다. 딘의 말이다. “여러분이 보여준 것은, 거대한 일 두 가지를 한꺼번에 한 겁니다. 연구를 하고, 모르긴 몰라도 한 5억 명 앞에 그걸 보여줬죠.”
모두가 웃었다. 과장이라서 웃지 않았다. 과장이 아니어서 웃었다.
Epilogue: Machines Without Ghosts
아마 인공지능에 대한 제일 유명한 역사적인 비판, 혹은 주장이 바로 번역에 대한 의문이었다. 1980년 Berkeley의 철학자인 존 설(John Searle)이 제기했던 중국어방(Chinese Room)의 개념이다. 설의 사고(思考) 실험에 따르면 방 안에, 영어만 하는 죄수가 한 명 앉아 있다. 보이지 않는 교도소장이 문에 있는 틈을 통해 그를 지나면서 중국어 글자가 적혀 있는 종이를 떨어뜨린다. 죄수는 답변이 구성되어 있는 영어 표와 규칙을 갖고 있으며, 워낙 이런 명령에 익숙해져 있기 때문에 그의 답변은 곧 중국인 화자(話者)와 구분이 안 될 것이다. 그렇다면 이 불운한 죄수는 중국어를 “이해”하고 있다 말할 수 있을까? 설은 답변이 절대적으로 아니오라 생각했다. 컴퓨터로 비교하자면, 후에 설은 올바른 입출력을 지니고 적절하게 프로그램된 디지털 컴퓨터가 과연 인간이 갖는 마음과 같은 마음을 갖고 있을지 의문을 제기했다.
실리콘밸리에서 기계 학습을 작업하는 거의 전부, 혹은 구글 Brain의 팀원들은 그러한 의문이 관점을 벗어났다고 본다. 철학적인 의문을 무시한다는 의미가 아니다. 근본적으로 마음에 대한 다른 관점이라는 얘기다. 설과는 달리 그들은 “의식(consciousness)”이 뭔가 특별하다거나 신비한 정신적인 속성이라고 가정하지 않는다. 철학자인 길버트 라일(Gilbert Ryle)은 이를 “ghost in the machine”이라 부르지만 말이다. 그들은 그저 우리가 “의식”이라 부르는 복잡한 모음이 여러가지 다른 단순한 메커니즘의 협동된 행위로부터 이따금씩 나타난다고 본다. 생각의 레지스터가 더 높을 경우와 더 낮은 경우는 우리 생각과는 달리 종류로 볼 때 차이가 없다는 의미이기도 하다. 인공지능은 마음을 만들자는 이야기가 아니라, 문제 해결을 위한 툴의 개선일 따름이다. 필자가 구글에 갔던 첫 날 코라도가 했던 말이 있다. “‘알다’거나 ‘이해한다’의 머신이 아니라, ‘하다’의 의미입니다. 무엇을 ‘안 하다’가 더 중요하기도 하죠.”
“알다” 대 “하다”의 문제야말로 실질적인 문화/사회적인 영향력을 갖는다. 파티에서 슈스터는 필자에게 와서 언론의 구글 논문에 대한 관심을 두고 느낀 좌절감을 토로했다. “첫 기사를 보셨나요?” 그는 그날 아침 헤드라인을 손으로 단어 하나 하나 가리켰었다. “구글, 인공지능에 대해 말하다. 번역이 인간과 구분할 수 없을 정도다.” 논문 작성 막바지 단계일 때 팀 내에서의 논쟁이 하나 있었다. 슈스터는 논문의 메시지가 ‘이전보다 훨씬 낫지만 인간 만큼은 아니다’라고 반복했었다. 그는 자신들의 노력이 인간 대체가 아니라, 인간을 돕자는 쪽임을 확실히 하기를 원했었다.
그러나 기계 학습의 부상(浮上) 때문에 우리는 우리의 자리 얻어내기가 한층 어려워졌다. 설 박사로 돌아가 보자. 만약 인간의 통찰력(insight)”에 뭔가 특별한 것이 있다고 본다면, 자동화와 인간을 구분하는 확실한 선을 그을 수 있다. 그러나 설의 적대적인 해설에 동의한다면 선을 그을 수 없다. 첫 번째 관점을 왜그리 많은 사람들이 지지하는지도 이해할 만하다. 인공지능의 뿌리에 대한 2015년의 한 MIT 컨퍼런스에서 노암 촘스키(Noam Chomsky)에게 기계학습에 대해 어떤 생각인지 질문이 들어왔다. 그는 단순한 통계적 예측, 미화된 날씨 예측을 위주로 한 전체 사업에 대해 콧방귀를 뀌었다. 설사 신경 번역의 기능이 완벽하다손 치더라도, 언어 저변에 깔려 있는 심오한 성격을 신경 번역은 전혀 드러내지 않는다. 대명서가 여격(dative)인지, 대격(accusative)인지도 결코 말해줄 수 없다. 이 정도의 예측은 우리의 목표를 달성하기 위한 좋은 수단일 뿐이며, 어째서 번역이 이렇게 흘러가는지에 대한 우리의 이해를 발전시켜줄 기준은 아니다. 머신은 인간 방사선의보다 의료 스캔을 갖고 종양을 이미 더 잘 검출해낼 수 있지만, 머신은 무엇이 암을 일으키는지 알려줄 수 없다.
그렇다면, 방사선의는 알려줄 수 있을까?
의료 검진이야말로 기계 학습이 제일 즉각적으로 위협하되, 아마 예측이 불가능한 분야 중 하나다. 방사선의는 극도로 훈련된 집단이며, 보수도 매우 좋다. 우리는 그들의 기술이 아마 제일 높은 수준의 생각 레지스터인 전문적인 식견이리라 여긴다. 2015년만 하더라도 연구자들은 신경망이 의료 이미지에서 인간보다 종양을 훨씬 더 잘 찾아낼 뿐만 아니라, 병리학 기록만으로도 진단 내릴 수 있음을 보인바 있었다. 방사선의들은 기계 분석보다 예측성 패턴-매칭을 훨씬 잘 했었다. 무엇이 암을 일으키는지 그들이 알려주지는 않는다. 암 상태임을 알려줄 뿐이다.
한 가지 목적을 위한 견고한 패턴-매칭 장치를 만들어낸다면, 다른 서비스에도 활용하도록 수정할 수 있다. Translate의 한 엔지니어가 예술품을 판별하는 네트워크를 수정해서 자율주행 무선제어 자동차에 사용한 적이 있었다. 고양이 인식용으로 만든 네트워크는 CT 스캔 훈련용으로 바뀔 수 있으며, 최고의 의사가 검토하는 것 이상으로 무한한 사례를 볼 수 있다. 번역용 신경망은 짧은 시간 안에, 제일 비싼 법률가가 들이는 시간보다 훨씬 빨리 수 백만 페이지의 법률 문서를 검색하여 법적인 발견을 할 수 있다. 자동화가 맡을 작업은 한때 그랬던 것처럼 더이상 반복적인 작업만이 아니다. 반복적인 작업은 부당하게도 교육받지 않은 등급의 저지능과 연관돼 왔었다. 우리는 350만 명의 트럭 운전사들 일자리가 곧 사라질 것이며, 재고 관리자와 경제학자, 재무 자문가, 부동산 중개인 일자리도 거론하고 있지만, 지난 9개월 동안 Brain이 했던 사례는 거대한 기업의 한 소규모 그룹이 얼마나 빠르게 머신 관련 작업을 자동화 시킬 수 있는지를 보여줬다. 아무도 머신과 연관 짓지 않았던 작업을 말이다.
당장 실리콘 밸리에서 일어나고 있는 가장 중요한 일은 파괴가 아니다. 오히려 전대미문의 규모와 속도로 하는 구조적인 구축(institution-building)이며, 권력의 통합이다. Brain에는 다른 부서를 훈련시킬 인턴과 레지던트, “닌자” 급의 인물들도 있다. 구글은 도처에 무료 자전거 헬멧과 1년에 이틀 비내리는 날을 위한 무료 초록우산, 약간의 과일 샐러드, 낮잠용 침대, 트레드밀 책상, 마사지 의자, 가끔 나오는 고급 패스트리 상자, 아이 옷 기부 장소, 강사가 있는 2층 짜리 클라이밍 벽, 독서 그룹과 정책 토론, 다양한 지원망을 갖췄다. 인류의 함양을 위한 이러한 대규모 투자는 디지털 소금광산의 비급여 특전 그 이상이며, 이 특전의 수령자들은 네 곳의 대륙에 걸쳐 있는 13개소의 데이터센터에 분산된 복잡한 서버와 대도시를 밝힐 만한 전력을 사용하는 데이터센터의 힘을 가까이에 두고 있다.
하지만 구글과 같은 거대한 조직도 자동화의 물결을 피할 수는 없을 것이다. 인간의 언어를 기계가 학습한다면, 프로그래머 자리도 위험하다. 티키 바에서의 파티에서 긴장을 풀었던 한 Translate의 엔지니어는 자기 노트북을 가져와서 휴즈에게 뭔가 보여줬다. 화면상에는 밝은 색상의 구가 생생한 만화경 애니메이션으로 숨을 쉬고 있었으며, 긴 궤도를 돌며 흩어지기 전에 주기적으로 성운과 충돌하고 있었다.
휴즈는 당장 이게 뭔지 깨달았지만, 필자는 사람들과 파일 이름을 보기 위해 가까이 들여다봐야 했었다. 이 애니메이션은 지난 10년간 Translate 코드기반의 변화였으며, 모든 팀원들의 기여가 하나 하나 다 들어가 있었다. 휴즈는 부드럽게 장면을 2006년부터 2008년, 2015년으로 밀어 넘기면서 종종 멈춰서, 이제는 다른 곳에 흡수되거나 스스로 터져가는 예전의 캠페인과 성과 혹은 재앙을 기억해냈다. 휴즈는 제프 딘의 이름이 얼마나 종종 확장됐다가 빛나는 구 안에 들어가 있는지를 지적했다.
휴즈는 코라도를 불렀고 그들은 모두 얼어붙은 듯 서 있었다. 우울한 향수(鄕愁)를 깨기 위해, 좀 상처받은 듯 보였던 코라도는 얼굴을 들고 “언제 지울 겁니까?” 하고 물었다. 휴즈는 걱정하지 말라 답했다.
“새로운 코드 기반이 자라날 거예요. 모두가 자라날 겁니다.”
Gideon Lewis-Kraus is a writer at large for the magazine and a fellow at New America. He last wrote about the contradictions of travel photography.
Sign up for our newsletter to get the best of The New York Times Magazine delivered to your inbox every week.
A version of this article appears in print on December 18, 2016, on page MM42 of the Sunday Magazine with the headline: Going Neural.