본문 바로가기

언론과 시사

이세돌 꺾은 알파고마저 100전 100패…'알파고 제로' 등장








게티이미지뱅크




z.jpg




이세돌 꺾은 알파고마저 100전 100패…'알파고 제로' 등장



구글 딥마인드, 네이처 소개백지 상태서 기보 없이 바둑 깨우쳐 "창의성까지"



이세돌 9단과 커제 9단 등 인간 바둑 고수들을 잇달아 격파한 인공지능(AI) 바둑 프로그램 '알파고'를 능가하는
 '알파고 제로'가 등장했다.

알파고 제로는 알파고처럼 대국 상대나 인간의 학습 지도없이 순수한 독학으로 바둑을 익혀 바둑의 도(道)를 스스로
 깨달았다. 교과서나 기보 등 바둑 고수들의 도움을 전혀 없었다.
그럼에도 이세돌과 커제를 꺾은 기존 알파고를 압도하는 능력을 갖췄다.
창의성을 발휘해 기존에 없던 새로운 정석도 고안해 냈다.

19일 구글 딥마인드는 이같은 연구 성과가 담긴 논문 '인간 지식 없이 바둑 마스터하기'(Mastering the game of Go
without human knowledge)를 세계 최고권위 학술지 '네이처'에 발표했다. 

연구진은 논문을 통해 "인간이 입력한 전략이나 기보를 학습하는 방식으로 바둑을 배웠던 기존 버전과는 다르다"면서 "인간의 한계를 초월하는 '강화학습'(reinforcement learning) 방식 인공지능 연구의 중요한 이정표가 될 것"이라고
 강조했다. 

알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발,바둑판만 놓고 '셀프 바둑'을 둔다. 스스로 바둑의 이치를 터득하는 것이다.
승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 쌓으면서 알파고 제로가 바둑을 이해하는 수준이 더 높아진다.

이런 학습 방식은 개에게 먹이를 주면서 '앉아' 등 행동을 훈련시킬 때와 비슷한 '강화 학습'이다.
인간으로부터 요령을 배우는 것이 아니라,인공지능이 스스로 많은 시행착오를 통해 요령을 터득하도록 하는 방법이다. 
강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전 중 가장 강력하다. 

알파고 제로는 한동안 '어이없는' 수를 두기도 하는 등 처음에는 인간으로부터 가르침을 받은 기존 버전들보다 약했지만, 강화학습을 시작한지 며칠 후에는 오히려 훨씬 강해졌다. 
특히, 똑같은 알파고 제로끼리 비교해도 하루쯤 후에는 강화학습만으로 스스로 공부한 쪽이 인간으로부터 '지도학습'을 받은 경우보다 실력이 더 뛰어났다.

지난해 3월 '구글 딥마인드 챌린지'에서 이세돌 9단을 4대 1로 이긴 알파고와 비교하면, 알파고 제로는 독학 36시간만에 이 버전의 실력을 넘어섰다.
72시간 독학한 뒤에는 알파고 제로가 같은 대국 조건에서 100전 100승 무패를 기록했다.
알파고 제로가 한 수에 0.4초가 걸리는 '초속기' 바둑으로 490만 판을 혼자 두면서 연구한 결과다. 

알파고 제로가 40일에 걸쳐 2900만 판을 혼자 둔 뒤에는, 지난 5월 세계랭킹 1위 커제 9단을 3대 0으로 꺾었던 기존
 최강 버전 '알파고 마스터'의 실력마저 압도하게 됐다.
알파고 제로는 알파고 마스터에 100전 89승 11패를 거뒀다.

딥마인드는 "알파고 제로가 다른 모든 알파고 버전 등을 능가하고 세계 최고 선수가 되는 데 걸린 시간은 40일"이라면서 "이 과정에서 알파고는 그간 이세돌, 커제 등과 맞붙으며 보여줬던 수가 아닌 바둑계에 처음 나온 이른바 '비관습적인 전략'까지도 선보였다"고 밝혔다. 

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO)는 "우리 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될 뿐아니라 컴퓨팅 파워도 덜 든다"며 "불과 2년만에 알파고가 얼마나 멀리
왔는지를 보면 놀라울 따름"이라고 밝혔다. 

알파고 제로는 독학하는 과정에서 인간이 알고 있는 정석을 스스로 깨달았을뿐만 아니라, 독특한 정석을 개발하기도
 했다. 
교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 독학으로 바둑을 배운 알파고 제로가
 기존 버전들보다 오히려 강한 이유에 대해 "인간 지식의 한계에 더 이상 속박되지 않기 때문"이라고 설명했다.

기존 알파고 버전들은 일부 정석 등을 인간으로부터 배웠고 인간이 둔 기보도 공부했지만, 알파고 제로는 "백지 상태에서 세계 최고 실력을 갖춘 알파고 스스로가 자가학습을 거쳤기에 가능했다"면서 "인간으로부터 전혀 배운 것이 없기
때문에 인간의 선입견과 한계에 얽매이지 않는다는 것"이라고 강조했다.

이는 인간의 직관이 전혀 통하지 않아 온 분야에 인공지능을 적용하면 인간을 초월하는 성과를 낼 수 있음을 시사하는 결과여서 더욱 주목된다.
딥마인드는 "알파고 제로를 통해 인공지능이 인간의 독창성을 배가하고 나아가 인류가 마주한 난제를 해결하는 우리의 임무를 도와줄 수 있을 것"이라며 자신감을 내비쳤다.   








<그래픽=픽사베이>




알파고 제로에 들어가는 TPU 장치. /사진=구글 제공



알파고제로의 끝은 어디일까. 

인간 최고수들을 격파한 바둑 프로그램 `알파고`를 능가하는 최신 버전 `알파고 제로`가 공개돼 화제가 되고 있다. 
알파고제로는 이 때문에 주요 포털 핫이슈 키워드로 등극했다.

알파고 제로는 대국 상대조차 없이 순수한 독학으로 바둑을 익혀 바둑의 도(道)를 스스로 깨달았다. 교과서나 기보 등 인간의 지식에 전혀 도움을 받지 않고도 인간 고수들과 기존 알파고 버전들을 압도하는 능력을 갖췄으며, 인간이 아는 정석뿐만 아니라 독창적인 새로운 정석도 고안해 냈다. 

이는 인간이 입력한 전략이나 기보를 학습하는 방식으로 바둑을 배웠던 기존 버전들과는 다른 점으로, 인간의 한계를 초월하는 `강화학습`(reinforcement learning) 방식 인공지능 연구의 중요한 이정표가 될 것이라 연구진은 강조했다. 

연합뉴스에 따르면 구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 19일(한국시간) 이런 내용을 포함한 `인간 지식 없이 바둑을 마스터하기`(Mastering the game of Go without human

knowledge)라는 논문을 과학 학술지 `네이처`에 발표했다. 

알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발한다. 바둑판만 놓고 `셀프 바둑`을 두면서 스스로 바둑의 이치를 터득하는 것이다.

 승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 쌓으면서 알파고 제로가 바둑을 이해하는 수준이 점점

높아진다.

이런 학습 방식은 개에게 먹이를 주면서 `앉아` 등 행동을 훈련시킬 때와 비슷한 `강화 학습`이다. 인간으로부터 요령을 배우는 것이 아니라, 인공지능이 스스로 수많은 시행착오를 통해 요령을 터득하도록 하는 방법이다. 
강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전 중 가장 강력하다.

연합뉴스에 따르면 알파고 제로는 한동안 `어이없는` 수를 두기도 하는 등 처음에는 인간으로부터 가르침을 받은 기존 버전들보다 약했지만, 강화학습을 시작한지 며칠 후에는 오히려 훨씬 강해졌다. 
특히, 똑같은 알파고 제로끼리 비교해도 하루쯤 후에는 강화학습만으로 스스로 공부한 쪽이 인간으로부터 `지도학습`을 받은 경우보다 실력이 더 뛰어났다.

작년 3월 `구글 딥마인드 챌린지`에서 이세돌 九단을 4대 1로 이긴 버전(`알파고 리`로 지칭)과 비교해 보면, 알파고

제로는 독학 36시간만에 이 버전의 실력을 넘어섰다.

또 알파고 제로가 72시간 독학을 한 후 `이세돌 九단 대 알파고 리` 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과, 100전 100승 무패를 기록했다.

알파고 제로가 한 수에 0.4초가 걸리는 `초속기` 바둑으로 490만 판을 혼자 두면서 연구한 결과다.

알파고 제로가 40일에 걸쳐 2천900만 판을 혼자 둔 후에는, 올해 5월 현 세계랭킹 1위 커제 九단을 3대 0으로 꺾었던

기존 최강 버전 `알파고 마스터`의 실력마저 압도하게 됐다.

 알파고 제로는 알파고 마스터에 100전 89승 11패를 거뒀다. 



알파고 제로는 독학하는 과정에서 인간이 알고 있는 정석을 스스로 깨달았을뿐만 아니라, 독특한 정석을 개발 했다. 

교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 독학으로 바둑을 배운 알파고 제로가

기존 버전들보다 오히려 강한 이유에 대해 "인간 지식의 한계에 더 이상 속박되지 않기 때문"이라고 설명했다고

 연합뉴스는 전했다.

기존 알파고 버전들은 일부 정석 등을 인간으로부터 배웠고 인간이 둔 기보도 공부했지만, 알파고 제로는 인간으로부터 전혀 배운 것이 없기 때문에 인간의 선입견과 한계에 얽매이지 않는다는 주장. 
허사비스는 "우리 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될 뿐 아니라 컴퓨팅 파워도 덜 든다"며 "불과 2년만에 알파고가 얼마나 멀리 왔는지를 보면 놀라울 따름"이라고 말했다. 




알파고제로 이미지 = 연합뉴스 




구글이 개발한 TPU 칩/사진출처=구글 미국 블로그


구글이 개발한 TPU 칩/사진출처=구글 미국 블로그

구글 딥마인드 팀이 19일(한국시간) 이세돌 9단을 이긴 알파고 리(이세돌 성을 딴 이름)를

상대로 '백전백승'을 거둔 '알파고 제로'를 공개한 가운데 알파고 제로의 두뇌 역할을

 하는 TPU(Tensor)



Processing Unit)에 관심이 모아지고 있다.
기본적으로 알파고 리와 알파고 제로에는 모두 TPU가 들어가 있지만, 불과 일 년 만에 기보(棋譜) 학습도 없이 어떻게 스스로를 뛰어넘었는지에 대한 궁금증이다.

이날 국제 학술지 네이처지에 따르면, 구글 딥마인드의 공동 창업자 데미스 허사비스와 수석과학자인 데이비드 실버

 박사는 "알파고 제로가 알파고 리를 100대0으로 눌렀다"고 밝혔다.

알파고 리는 이세돌 9단과 같은 '인간계 최강'을 상대로 바둑을 두며 기보를 학습해 수십만에 달하는 수를 터득한 반면, 알파고 제로는 바둑의 기본 규칙만 입력한 다음 대국도 없이 스스로 만든 빅데이터를 통해 진화한 것이 결정적인 차이점이다.


고작 36시간 만에 알파고 리를 넘어선 것을 감안할 경우 경이로운 수준이 아닐 수 없다는 게 IT(정보기술) 업계 안팎의 평가다.

5000년 동안 보이지 않게 쌓여온 인류의 바둑 지식을 알파고 제로는 어떻게 정복했을까.

이를 엿보기 위해서는 무엇보다 TPU부터 짚고 넘어갈 필요가 있다.
TPU는 구글이 만든 인공지능(AI)에 특화된 전용 칩(ASIC·주문형 특별 생산 반도체)이다.

이세돌 9단과 붙은 알파고 리에는 TPU가 48개 들어갔으나, 알파고 제로에는 단 4개만 장착됐다.


구글은 데이터센터에서 TPU를 1년 이상 구동 끝에 자체 개발한 AI 엔진 '텐서 플로'(Tensor Flow)와 최적화에 성공

했으며,앞서 구글 최초의 TPU는 이미 대중에게 익숙한 '구글 번역기' 등을 통해 적용됐다.
TPU는 혹독한 머신러닝(기계학습) 학습을 견뎌야 한다. 바둑 기보처럼 인간이 셀 수 없을 정도로 많은 경우의 수를

1초 미만으로 연산하는 작업을 처리해야 한다. 알파고 제로가 한 수를 두는데 걸리는 시간은 0.4초에 불과했다.

최적의 GPU(그래픽처리장치)와 CPU(중앙처리장치) 상태에서 최대 몇 주 동안 컴퓨팅 작업을 견뎌야 하는 만큼 에너지 효율이 중요하다.

 알파고 제로에 들어간 TPU는 최신 GPU·CPU보다 15배에서 30배 빠르고, 소비전력(1W)당 인공지능 연산 성능도

 30배에서 80배까지 향상된 것으로 알려졌다.

이 같은 과정 끝에 알파고 제로는 네이처지에 실은 논문의 첫 머리에 기재된 것처럼 백지(白紙) 상태인 '타불라 라사'

(tabula rasa)에서 새로운 경지에 이른 것으로 평가된다.


업계에서는 구글이 반도체 생산공장이 없는 데다 TPU가 범용 반도체가 아닌 ASIC인 만큼 삼성전자나 대만 TSMC 등

파운드리반도체 회사에서 만드는 것으로 추정하고 있다.

 다만, TPU가 대량 양산 제품이 아닌 것을 감안하면, 구글에서 자체적으로 만들었을 가능성도 배제할 수 없다.

업계의 한 관계자는 "TPU는 AI 딥러닝(Deep Learning)을 처리하기 위한 프로세스이기 때문에 외부에 알려지는 정보는 상당히 제한적인 수준일 것"이라면서 "구글이 당분간 차세대 TPU 개발에 집중할 것으로 보인다"고 말했다.





구글 데이터센터/사진출처=구글 한국 블로그


글 데이터센터/사진출처=구글 한국 블로그







바둑 완전히 평정했다"…완전체 '알파고 제로' 등장


인간과의 바둑 대결에서 '인간계 최강'으로 꼽히는 이세돌 9단과 커제 9단을 잇따라 연파한 구글 딥마인드의 인공지능(AI) 바둑 프로그램 알파고의 새 버전 '알파고 제로(Zero)'가 공개됐다.
알파고 제로는 그간 3차례 공개됐던 이전 버전의 알파고와 달리 인간의 '학습지도' 없이 스스로 수천만번에 달하는
바둑을 두면서 기보를 학습하고 실력을 키우는 자가 강화학습을 통해 업그레이드됐다.


19일 구글 딥마인드는 이같은 내용으로 '인간 지식 없이 바둑 마스터하기'(Mastering the game of Go without

human knowledge)라는 논문을 세계 최고권위 학술지 '네이처'에 발표했다.
논문을 통해 공개된 알파고 제로의 가장 큰 특징은 '자가 학습' 능력이다. 처음 알고리즘 설계 때 입력된 바둑의 기초

규칙 외에는 인간이 전혀 개입되지 않고도 뛰어난 바둑 기술을 습득한 것이다.

딥마인드는 논문에서 "알파고 제로의 가장 큰 특징이면서 이전 버전과 달라진 점은 강화학습 기반의 셀프바둑으로

수련했으며 인간의 데이터를 전혀 사용하지 않았다는 점"이라고 강조했다.

지금껏 공개된 알파고는 총 3종류다. 2015년 유럽 챔피언 판후이를 꺾은 '알파고 판(Fan)'이 최초 버전이며 지난해

3월 인간계 대표 이세돌 9단을 꺾은 '알파고 리(Lee)'가 두번째 버전이다. 이어 올 5월에 세계 랭킹 1위 중국의 커제

 9단을 꺾은 것이 '알파고 마스터(Master)'다.






구글 딥마인드가 개발한 인공지능(AI) 바둑 프로그램 알파고에 사용된

 칩셋의 현황. 2016년 버전 알파고 리에 48개나 쓰였던 칩셋이 알파고

제로에서는 4개로 줄었다.


(제공=구글 딥마인드) © News1





알파고 판, 알파고 리의 경우 '정책망'과 '가치망'이라는 2개의 인공지능 신경망을 활용했다. 정책망은 돌을 놓을 위치를 선택하는 역할을 담당한다.

가치망은 해당 수를 뒀을 때 이길 수 있는 확률을 분석하면서 최적의 방안을 도출해낸다.

그러나 새롭게 공개된 알파고 제로는 단일 신경망으로 작동된다. 그만큼 알고리즘이 단순해졌지만 더욱 빠르고 강력한 의사결정이 가능해진 것이다.

실제 효율성이 높아지면서 알파고 리에 인공지능칩셋인 텐서플로세싱유닝(TPU)가 48개가 탑재됐지만 알파고 제로에서는 4개로 줄어들었다.

알고리즘 강화와 가치판단의 속도가 빨라지면서 알파고 제로의 실력은 무시무시한 속도로 성장했다. 딥마인드에 따르면 알파고 제로는 프로그램 시작 19시간만에 바둑의 고난위도 문제인 '사활'도 배웠다. 인간 기사를 뛰어넘는 '초인간

레벨'에 등극하는데 필요한 시간은 불과 70시간이었다.

딥마인드는 알파고 제로는 불과 40일만에 세계 최강 바둑기사 레벨에 등극했다고 강조했다.

딥마인드에 따르면 알파고 제로가 이세돌 9단을 4대1로 꺾었던 알파고 리를 뛰어넘는데 걸린 시간은 3일이다.

 이때 알파고 제로가 알파고 리와 기록한 전적은 100전 100승이다.










구글 딥마인드가 개발한 인공지능(AI) 바둑 프로그램 알파고의 '엘로 평점'

수준. 점수가 높을수록 실력이 뛰어나다.


(제공= 구글 딥마인드) © News1





이어 21일만에 커제 9단을 3대0으로 완파한 알파고 마스터까지 꺾었다.

알파고 제로는 알파고 마스터와 100번 붙어 89승 11패를 기록했다.

 딥마인드는 "알파고 제로가 다른 모든 알파고 버전 등을 능가하고 세계 최고 선수가 되는 데 걸린 시간은 40일"이라고 밝혔다.


이 과정에서 알파고는 그간 이세돌, 커제 등과 맞붙으며 보여줬던 수가 아닌 바둑계에 처음 나온 이른바 '비관습적인

 전략'까지도 선보였다.
딥마인드는 "알파고 제로는 바둑 인간 챔피언을 세계 최초로 꺾은 AI 알파고의 가장 최신 버전이면서 바둑 역사상 가장 강력하고 우수한 선수"라고 평가했다.

체스, 바둑 등 2인 게임에서 우열 판정을 통해 실력 측정 수단으로 쓰이는 '엘로(Elo) 평점' 결과에서도 알파고 제로는

5185점을 기록해 △알파고 마스터 4858점 △알파고 리 3739점 △알파고 판 3144점을 모두 넘었다.

알파고 제로가 극강의 실력으로 성장할 수 있었던 비결에 대해 딥마인드는 "인간의 지식의 한계에 묶여있지 않
았기

때문"이라며 "백지 상태에서 세계 최고 실력을 갖춘 알파고 스스로가 자가학습을 거쳤기에 가능했다"고 설명했다.
끝으로 딥마인드는 "알파고 제로를 통해 인공지능이 인간의 독창성을 배가하고 나아가 인류가 마주한 난제를 해결하는 우리의 임무를 도와줄 수 있을 것이라는 자신감을 갖게 됐다"고 밝혔다. 

  


sho218@















'알파고 제로' 등장에 바둑계 "더 인간처럼 두는 것 같다"



'알파고 제로'라는 바둑 괴물의 등장에 바둑계는 '동반성장'을 기대했다.

2016년 바둑 인공지능 '알파고'를 내놓았던 구글 딥마인드 연구자들은 19일 최신 버전 '알파고 제로' 연구 논문을

 과학 학술지 '네이처'에 발표했다.


알파고 제로는 이세돌 9단을 4대 1로 이겼던 '알파고 리', 커제 9단을 3대 0으로 제압했던 '알파고 마스터'와는 차원이 다른 방법으로 바둑을 학습해 기존 버전의 실력을 뛰어넘었다.

알파고 제로가 72시간 독학 후 '이세돌 9단 대 알파고 리' 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 

알파고 리와 대결한 결과, 100전 100승 무패를 기록했다.


알파고 제로가 40일에 걸쳐 2천900만 판을 혼자 둔 후에는, 올해 커제 9단을 꺾었던 종전 최강 버전 알파고 마스터를

 100전 89승 11패로 제압했다.


인간의 지식에 속박되지 않은 알파고 제로는 인공지능 스스로 시행착오를 거쳐 '바둑의 신' 경지에 다다랐다.

이에 대해 한국기원 국가대표팀 감독인 목진석 9단은 "바둑계는 이미 기존 알파고의 수법을 많이 모방하고, 거기서 

새로움을 창출하고 있다"며 "알파고 제로의 등장으로 새로움이 더 많이 나올 것"이라고 예상했다.


일부 국가대표 기사들은 "몇 판만 봤을 때 오히려 알파고 제로가 기존 버전보다 '더 인간처럼 두는 것 같다'"는 인상

 받기도 했다고 목 9단은 전했다.

알파고 제로는 독학하는 과정에서 인간이 알고 있는 정석을 스스로 깨닫는가 하면, 독특한 정석을 개발하기도 했다.


알파고 제로가 제시한 새로운 정석이 인간 바둑을 더욱 풍요롭게 하는 자극제가 될 수 있다는 기대다.

알파고와 싸워 유일하게 승리를 거둔 인간 기사인 이세돌 9단은 "이전의 알파고가 완벽한 것은 아니었으니,

 그런 의미에서 알파고 제로가 나온 거라고 본다"고 밝혔다.

그는 알파고의 발전을 "좀 더 지켜봐야 할 것"이라며 "어린 기사들에게 많은 영향을 줄 것 같다"고 전망했다.



주홍철 기자 | jhc@ggilbo.com  







▲알파고 제로가 커제 9단을 꺾은 알파고 마스터 버전의 기력을 압도했다.

100전 89승 11패를 거뒀다. 40일간 2900만판을 혼자 두면서 스스로 바둑을

 깨우친 결과다.