세계 최고의 기업은 어떻게 위기에 더 성장하는가 - 결국 이기는 기업의 경영 원칙
리즈 호프먼 지음, 박준형 옮김 / 포레스트북스 / 2024년 2월
평점 :
장바구니담기


 

빌 애크먼을 좋아하든 좋아하지 않든 이 책은 코로나 시국에서 살아남기 위해 사람들이 어떻게 했는지 엿볼 수 있는 역사자료 같은 책이다. 마치 2008년 위기 상황을 추적하는 책이 있듯, 이 책 또한 역사적인 위기 속에서 기업들은, 그리고 사람들은 어떤 생각을 가졌고, 어떤 상황을 맞았는지 추적해 나간다. 

 

그렇기에 책 제목은 그리 적절한 제목이 아니라고 생각이 들었다. 책 제목만 보면 마치 경영전략서적처럼 보이지만, 실상은 그렇지 않기 때문이다. 어떻게 해야 한다보다도 어떤 상황이었다라는 사실 묘사가 이 책의 가장 중요한 목적이기 때문이다. 

 

그리 먼 옛날 이야기는 아니기에, 책을 읽다보면 시간대가 나올 떄마다 이때 나는 어떤 걸 하고 있었고, 정부 정책은 어떠했는지 회상을 하며 읽었다.

 

 

 

p.80~81

2015년에 델타 항공은 중국 내 기반을 강화하고 정부에 자사의 의도를 증명하기 위하여 중국의 3대 항공사 중 하나인 차이나 이스턴의 지분을 약간 매입하기 위하여 4억 5,000만 달러를 투자했다. 하인스타인은 너무 빠른 조치 때문에 중국 내에서 델타 항공의 계획이 피해를 입을 것이라고 경고한 것이었다. 또한 바이러스의 위세가 생각보다 약할 수도 있었다. 미국 정부가 항공 스케쥴을 취소하도록 명령한다면 따르면 되지만, 델타 항공사가 자발적으로 모든 항공 스케쥴을 취소한다면 중국 내 입지를 강화할 때 승인을 받아야 할 관리들의 눈길이 곱지 않을 것이다. 하인스타인은 바스티안에게 모든 가정을 고려하도록 부드럽게 권하고 있었다.

 

"지금 상황에서 당신이라면 중국행 비행기를 조종하고 싶나요?" 바스티안이 눈을 가늘게 뜨면서 물었다. 승객들은 국제선으로 여행하는 위험에 대한 가치를 판단할 수 있었다. 하지만 델타 항공의 조종사들과 승무원들에게는 이동을 거부할 선택권이 없었다. 게다가 바스티안은 정부가 항공사에게 중국으로 가는 항공기를 취소하도록 명령한다면, 남보다 앞서 나가는 것이 가치가 있다고 덧붙였다.

 

스티브 시어는 마침 술잔을 들고 주위를 배회하던 페리 칸타루티에게 "지금 델타 항공의 중국 스케줄이 전면 취소된 것 같다"고 말했고, 칸타루티는 어리둥절했다.

 

그의 결정은 며칠 후 발표되었고, 유나이티드 항공과 아메리칸 항공 모두 같은 정책을 발표했다. 치열하게 경쟁하고 있는 미국의 3대 항공사들이 모두 같은 결정을 내렸다는 사실은 당시의 두려움이 얼마나 극에 달했는지를 보여주는 것이었다. 경쟁사가 물러났을 때를 시장점유율을 확대하는 기회로 삼을 상황이 아니었다.

 

p.89

와츠는 2011년 일본 후쿠시마 대지진 이후 처음으로 아시아 전역에서의 대응을 위해 힐튼 경영자들로 구성된 위기 대책반을 조직했다. 중국의 국영 매체가 발표하는 확진자 정보는 믿을 수 없었다. 그보다 얼마나 신속하게 비즈니스가 증발해 버리는지 추측하기 위해서 국제 항공기 스케쥴의 취소 상황을 확인하고, 지방정부에 의하여 폐쇄된 수십 개의 호텔을 확인하는 편이 더욱 확실한 데이터를 제공했다.

 

p.137

상업용 어음, MMF, 환매조건부채권(repos) 등 세 가지 금융시장은 금융 경색을 알리는 조기 신호로 여겨진다. 광산의 카나리아 같은 존재들이다. 이들 시장은 단기 차입과 관련이 있으며, 종종 투자자들의 실시간 감정을 반영하고, 더 중요한 시장의 움직임을 예고한다.

 

p.138

역사적으로 미국의 연방준비제도는 다른 중앙은행과 마찬가지로 개인 소비자의 주택담보대출부터 기업 대출까지 모든 대출의 기준이 되는 단일 기준 금리를 설정한다. 그런데 2008년에 역사상 최초로 금리를 제로까지 낮춰야 하는 어려움을 피하기 위해 0에서 0.25%까지로 금리의 범위를 설정했다. 경기가 회복한 이후, 연방준비제도는 해당 기준금리를 높이기 시작하면서 범위를 유지했다.

 

p.146~147

힐튼은 세계에서 가장 큰 호텔 기업에 속했지만, 실제로는 많은 호텔을 소유하고 있지 않다. 2007년에 최고경영자로 취임한 나세타는 10년 전 메리어트가 그랬듯이 단순한 브랜딩과 소유자에 대한 서비스를 강조하는 전략을 채택했다. 간단히 말해 물리적인 건물을 소유하는 부담을 다른 사람에게 양도하고, 그들에게 디자인이나 개발 및 경우에 따라 관리를 제공하면서 안정적인 수수료를 받았다. 메리어트는 1996년에 호텔 자산의 일부를 호스트라는 회사로 분할했고(나세타는 한때 호스트를 경영했다), 2011년에는 타임쉐어 사업(이용 기간에 맞는 오너십을 구매하면 지정된 리조트와 체인 리조트를 사용할 수 있도록 하는 방식 - 역자 주)에서도 같은 방식을 적용했다. 이 방식은 회사의 자본을 새로운 브랜드와 이니셔티브에 재투자할 수 있게 해주었기 때문에 월스트리트의 환영을 받았다.

 

2017년에 힐튼은 자사 호텔 중 절반을 파크 리조트(Park Resorts)라는 새로운 기업으로 분할했다. 휴가 예약과 타임쉐어 사업은 46개의 리조트를 가지고 있으면서 포인트 기반의 리워드를 제공하는 힐튼 그랜드 배케이션즈(Hilton Grand Vacations)라는 새로운 기업으로 변경되었다. 여러 면에서 변화된 힐튼은 이제 부동산 회사가 아니었다. 나세타의 말에 의하면 힐튼은 소비자 경험의 제공자였으며, 부동산을 소유하는 위험(막대한 대출, 지역 정부 관계자의 간섭, 물이 새는 수도꼭지 등)을 다른 사람들에게 맡기고, 자신의 브랜드, 객실 예약 소프트웨어, 심지어 자체 키 카드 기술의 사용을 통해 안정적인 수수료를 받았다. 

 

월스트리트 용어로 일종의 '자산 경량화'였다. 힐튼은 월도프 아스토리아와 더블트리를 포함한 18개의 브랜드로 운영되는 호텔들을 실질적으로 소유하고 있는 부동산 투자회사로부터 수익의 일부(8%부터 최대 20%까지)를 받아 돈을 벌었다. 평균적으로 힐튼이 벌어들이는 돈은 약 2,500만 달러였고, 그 중 2,000만 달러를 고정경비, 급여, 기타 운영에 지출했다.

 

그런데 이제 힐튼의 수익이 빠르게 사라지고 있었다. 하지만 세금, 공과금, 수천 명 직원들의 급여, 그리고 자체적으로 소유하거나 관리하는 60여 개 호텔의 유지비와 직원들의 급여 등 고정비를 지출해야 했다.

 

p.163~164

신용부도스와프는 금융계의 보험과 비슷하다고 회자되지만, 중요한 차이점이 하나 있다. 그들이 보호하려는 사건이 발생하지 않더라도, 다시 말해 채무자가 채무 불이행을 선언하지 않더라도 돈을 벌 수 있다는 것이다. 신용부도스와프는 채무 불이행이 발생할 가능성만 있어도 그 자체로 돈을 벌 수 있는 금융 투자 상품이었다. 내재된 채무, 이 경우 회사채의 가치가 하락하면 신용부도스와프를 팔아 수익을 남길 수 있었다. 퍼싱 스퀘어가 배팅해서 돈을 벌려면 시장이 공포에 질리기만 하면 되었다.

 

투자자들이 기업에 빚을 갚을 돈이 없을지도 모른다고 우려하게 되면서 회사채 가격은 급락했다. 금융 서비스 기업인 블룸버그와 투자은행 바클레이스가 제공하는 회사채 기준 지수는 3월 초 최고를 기록했으나, 3월 20일이 되자 15%나 하락했다. 퍼싱 스퀘어의 투자는 장부상 20억 달러 이상의 가치를 갖게 되었다.

 

투자자라면 누구나 기뻐할 만한 막대한 수익이었다. 하지만 신용부도스와프의 가치가 크게 상승하는 동안, 퍼싱 스퀘어 투자의 상당 부분을 차지하는 애크먼의 주식 포트폴리오는 4분의 1 이상의 가치를 잃고 말았다.

 

3월 첫 번째 금요일이 되자, 신용부도스와프는 퍼싱 스퀘어 자산의 40%를 차지하게 되었다. 완전히 균형이 깨진 포트폴리오가 된 것이다. 게다가 연방준비제도는 회사채를 보증하여 가격을 안정시키고, 투자자들을 달래기 위해 회사채를 매수하는 방식으로 시장의 안정을 위해 개입하려고 했다. 연방준비제도가 어떤 조치를 취하든 회사채 가격은 반등할 것이고, 퍼싱 스퀘어가 보유하고 있는 20억 달러가 넘는 장부상 이익은 상당 부분 사라지게 될 위기였다. 3월 6일, 단 하루 만에 퍼싱 스퀘어의 신용부도스와프의 장부 가치는 8억 달러나 하락했다. 여전히 상당한 수익이었지만, 불안정하다고 판단한 애크먼은 트레이더들에게 매도 포지션을 구축하라고 지시했다.

 

p.166

역사는 탈레브의 블랙스완 이론에 대한 설명에 네 번째 기준을 추가할지도 모른다. 운과 배짱을 가지고 이후에는 당연하게 여겨지게 될 사건을 미리 예측한 사람들은 매우 드물지만 어마어마한 수익을 벌 수 있다는 기준이다. 



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
된다! 맥북 & 아이맥 : 맥OS 소노마 판 - 한 시간이면 초보 뗀다! 빨리 익혀 바로 들고 나가자! 된다! 업무 능력 향상 200%
쌤쌤티비.케이트 지음 / 이지스퍼블리싱 / 2024년 1월
평점 :
구판절판


 

맥북을 처음 사용하는 사람이든 아니면 사용을 해본 사람이든 아마 이 책을 보면 최소한 1개 이상의 팁은 얻을 거라고 생각한다.

 

업무를 하면서 맥북을 사용하곤 했지만, 여기 책을 보다보니 그동안 활용하지 못한 기능 몇 개를 발견하고 덕분에 조금 더 내가 원하는 대로 환경설정을 할 수 있었다. 

 

이 책은 그 용도다. 마치 드라이버와 같은 공구 같은 책이다. 그러니 너무 많은 걸 기대하지 말길 바란다.

다만, 맥북을 처음 써보는 사람에겐 이 책이 많이 도움이 될 거라고 생각한다. 윈도우에서 맥북으로 전환할 때 가장 먼저 헷갈리는 게 한/영 전환인데 그것도 그렇고, 기본적인 환경 셋팅을 알려주기 때문이다. 

 

맥북이라고 해서 무조건 어렵진 않다. 다만 낯설 뿐이다. 

이왕이면 업무때문에 어쩔 수 없이 윈도우에서 맥으로 전환해야 하는 경우, 이 책은 더 도움이 될거라고 생각한다. 돈을 받고 일하는 이상 더 효율화를 추구할 수밖에 없고 그렇다면 이 책을 빠르게 보면서 자기에게 적합한 환경셋팅을 금방하고 완독할 수 있을것이기 때문이다. 

 

윈도우를 기반으로 컴퓨터 활동을 해왔고 이 책만 어느정도 훑어본다면 맥을 사용하지 못해서 업무나 자신이 원하는 일을 못하는 건 별로 없을거라고 생각한다. 

 

그러니 책보다도 더 중요한 건 겁내지 말고 새로운 걸 발견하는 즐거움을 느껴보는 것 뿐이다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
머신러닝 엔지니어링 인 액션 - 머신러닝 엔지니어링 개념부터 프로덕션까지 성공적인 머신러닝 프로젝트 구축하기
벤 윌슨 지음, 김대근.심대열 옮김 / 한빛미디어 / 2023년 12월
평점 :
장바구니담기



한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.


머신러닝 붐이 일었을 때와 달리 점점 더 시간이 가면 갈수록 머신러닝 기법에 대한 강조보다는 어떻게 프로젝트를 구성하는지, 실무에서 어떤 점들을 고려해야 하는지, 재무적인 관점을 어떻게 어필해야 하는지와 같이 조금 더 실무와 가까운 내용의 책들이 나오고 있다. 


이 책도 그런 책 중 하나다. 챕터 4까지 코드 한 줄 안나온다. 

계속해서 문제 정의와 스코프 설정에 대한 내용을 강조한다. 

저자는 처음부터 현자였던 걸까? 


그렇게 포장할 수도 있겠지만, 저자는 포장하지 않고 자신의 아픈 상처를 드러낸다. 


66쪽을 보면 이런 구절이 나온다.

흥미로운 최신 알고리듬을 사용하고 싶은 열정이 프로젝트에서 형편없이 발휘된 사례를 여러 번 목격했습니다. 대표적인 예는 이미지 해상도 업스케일링을 위한 GAN 프로젝트로, 12명의 데이터 과학자로 구성된 팀이 10개월이 걸려서야 프로덕션 준비 및 확장 가능한 상태에 도달할 수 있었습니다. 제가 경영진과 대화할 때는 회사가 이탈 모델, 사기 탐지 모델, 수익 예측 모델을 구축하기 위해 컨설턴트를 고용한 상태였습니다. 경영진은 내부 팀이 R&D 프로젝트를 하느라 너무 바쁘기에 중요한 모델링 작업을 외부 컨설턴트에게 맡겨야 한다고 생각했죠. 결국 이 회사와 일한 지 12주 만에 데이터 과학 팀 전체가 해고되었고 회사는 이미지 프로젝트를 포기했습니다.


경영진과 대화를 한다고 하는 걸 봐서, 저자가 팀 리드였던거라고 추론해본다면 저자는 잘못된 프로젝트 선정과 잘못된 스코프 설정 등으로 인해 3개월만에 팀이 폭파되는 경험을 온전히 감내해야만 했다. 단순히 실무자도 아니고 책임자이니 팀원들의 비난까지 얼마나 받았을지 쉽게 상상해볼 수 있다.


그만큼 머신러닝 프로젝트는 예상외로 쉽지 않다. 아무리 ChatGPT가 나오고 코딩을 배워본 적 없는 초심자라도 크롤링도 하고 모든 걸 다 할 수 있는 세상이라고 하지만, 돈이 왔다갔다 하는 실무 환경에서 성과를 내기 위해선 그 이상의 뭔가가 있어야 하고, 그건 예전부터 강조되어왔던 문제정의와 커뮤니케이션 그리고 이를 뒷받침해 줄 적절한 시스템이다. 


XGBoost를 써서 Accuracy가 98.9%나왔느냐 99%가 나왔느냐는 캐글 컴피티션에서는 중요할지 몰라도, 실무에서는 중요할 수도 있고 중요하지 않을 수도 있다. 아니 오히려 전혀 중요하지 않을 수도 있다. 그렇기에 저자는 계속해서 오컴의 면도날 법칙, 즉 간단하게 문제를 처리할 수 있다면 간단하게 처리하는 게 최선이며, 복잡성은 차근차근 높여갈 것을 조언한다. 어느 정도 기법에 대해서 익히고 실무가 궁금한 사람에게 이 책은 적합할 듯 하다.



밑줄긋기

p.16



p.35

ML 프로젝트가 더욱 복잡해지는 이유는 전통적인 소프트웨어 개발 프로젝트와는 다른 두 가지 중요한 요소 때문입니다.


첫째는 프로젝트의 기대치에 대한 세부 사항이 부족하다는 점과

둘째로 ML을 활용함에 있어서 산업의 성숙도가 상대적으로 떨어진다는 점입니다.


1990년대 초반의 소프트웨어 엔지니어링의 상황을 떠올려 보면 이해하기 쉬울 겁니다. 그 당시 기업들은 소프트웨어 기술을 잘 활용하는 방법을 알지 못했고, 관련 도구 또한 턱없이 부족했습니다. 따라서 많은 프로젝트에서 소프트웨어 엔지니어링 팀이 업무 기대치를 충족시키지 못하는 상황이 발생할 수밖에 없었습니다. 과거를 비춰볼 때 현재 2020년대의 ML 업무는 30년 전 소프트웨어 엔지니어링 위치에 있다고 볼 수 있습니다.


p.37~38

잘못된 문제를 해결하기 위한 ML 솔루션 구축만큼 사기를 저하시키는 일은 없습니다.


프로젝트가 실패하는 다양한 원인 중에서 프로젝트 계획 수립 실패는 프로젝트가 무산되는 가장 큰 이유입니다. 여러분이 새로 입사한 데이터 과학자라고 생각해보세요. 첫째 주에는 마케팅 팀의 임원이 찾아와 심각한 비즈니스 문제를 그들의 용어로 설명합니다. 마케팅 팀에서는 고객과 소통할 수 있는 효율적인 방법을 찾아내 고객이 관심 있어 할 만한 행사를 이메일로 홍보해야 하는 상황입니다. 하지만 경영진은 세부적인 내용을 완전히 무시한 채 "이메일 열람 비율이 올라갔으면 좋곘다"라고만 말합니다.


이 상황에서 마케팅 팀의 팀원들에게 이메일 열람률 상승이라는 최종 목표에만 촛점을 두고 질문한다면 그들은 이를 달성할 무수한 방법을 이야기할 것입니다. 고객에게 맞춤화된 콘텐츠를 추천해주는 이메일을 작성하고 싶은가요? 자연어 처리 기반의 시스템으로 각 고객에게 적합한 제목을 찾고 싶은가요? 아니면 추천 시스템을 구축해 일별 판매 데이터를 기반으로 고객과 연관성이 높은 제품 목록을 예측하려고 하나요?


문제에 대한 가이드가 거의 주어지지 않은 채 선택할 수 있는 옵션이 매우 다양하고, 복잡성 또한 각기 다르기 때문에 경영진의 기대에 부합하는 솔루션을 만들기란 거의 불가능합니다. 하지만 적절한 계획 수립에 대해 논의해본다면 더 디테일한 부분을 파악할 수 있고, 경영진이 기대하는 바를 명확하게 정의할 수 있습니다. 즉, 경영진의 목적은 이메일을 읽을 가능성이 가장 높은 시간을 예측하는 것이었죠. 경영진은 단지 전 세계에 있는 사용자들의 출퇴근 시간과 수면 시간을 파악해 각 사용자의 시간대에 맞춰 읽을 가능성이 높은 고객에게만 이메일을 보내고 싶을 뿐입니다. 하루 종일 효율적으로 이메일을 발송하고 싶은 것이지요.


안타깝게도 대부분의 ML 프로젝트가 이런 식으로 시작되곤 합니다. 프로젝트 시작에 앞서 의사소통이 거의 이루어지지 않는 경우가 많으며, 보통은 데이터 과학 팀이 어떻게든 알아서 해줄 거라 기대하곤 합니다. 하지만 무엇을 구축해야 하는지, 어떤 기능을 해야 하는지, 최종 목표가 어떤 것인지에 대한 적절한 가이드가 없다면 프로젝트가 실패할 확률이 매우 높습니다.


사용자의 IP 주소로 알아낼 수 있는 접속 위치 기반으로 쿼리하고, 사용자의 시차를 간단히 분석만 해도 되는 작업이었는데, 수개월의 개발 시간과 노력을 들여 기능이 다양한 추천 시스템을 구축했다면 어떤 일이 발생했을까요? 프로젝트는 중간에 취소되었을 확률이 가장 높고, 만약 구축을 완료했다 하더라도 이렇게 거대한 시스템을 구축한 이유와 막대한 개발 비용이 어떻게 쓰였는지 추궁하는 역공에 시달렸을 것입니다.


p.39



p.41~42




p.49



p.50

배포 전략 중심으로 프로젝트를 계획하지 않으면 손님이 몇 명이나 올지 모르는 채로 디너파티를 여는 것과 같습니다. 돈을 낭비하거나 경험을 망칠 수도 있죠.


p.51

ML 아키텍처를 구축할 때는 가능한 한 가장 단순하게 설계하기 위해 노력하세요. 프로젝트의 추론 주기가 1주일인 경우 실시간 스트리밍이 아닌 배치 프로세스를 사용하는 것이 좋습니다. 데이터 볼륨이 메가바이트 단위인 경우, 데이터베이스와 간단한 가상 머신(VM)을 사용할 수도 있습니다. 여러 노드가 달린 아파치 스파크 클러스터까지는 필요 없습니다. 훈련 수행 시간이 몇 시간이 아니라 분 단위로 측정되는 경우 GPU가 아닌 CPU만으로도 충분합니다.


복잡한 아키텍처나 플랫폼, 기술을 한번 써보기 위해서 도입하려고 한다면 이미 충분히 복잡한 솔루션에 불필요한 복잡성이 추가될 뿐입니다. 새로운 것이 추가될 때마다 무언가 고장 날 가능성이 높아진다는 것을 잊지 마세요. 그리고 쉽게 해결되지도 않습니다. 솔루션을 안정적으로 일관되게 효과적으로 운영하기 위해서는 기술, 스택 및 아키텍처를 단순하게 유지하는 것이 권장하는 모범 사례입니다. 프로젝트의 시급한 비즈니스 요구 사항을 해결하는 데 딱 필요한 만큼만 있으면 됩니다.


p.55

"지난 분기 예산을 살펴보니 이 ML 프로젝트에 분기당 63,750달러(한화로 약 8천만 원)가 들었습니다. 그럼 이 프로젝트로 도대체 얼마를 벌고 있는 걸까요?"

-> 이 질문은 비용이 어느 정도 발생하는 상황에서 받을 수 있는 질문입니다. 프로젝트 비용이 매우 낮아 회사 예산에서 거의 눈에 띄지 않는 수준이라면 이런 질문을 받을 일이 없겠지만, 비용이 많이 든다면...


수익 기여도라니... 


당황스럽습니다. 

전년 대비 매출을 비교할까요?

손실 지표면 충분한 거 아닌가요?

매출이 늘고 있는데, 그럼 된 거 아닌가요?

프로젝트 계획 단계에서 기여도와 측정 방식에 대해 합의를 도출하지 못하고 모델의 효율성에 대한 철저한 통계 분석이 지속적으로 이뤄지지 않는다면 아무리 훌륭한 솔루션이라도 무용지물이 될 수 있습니다.


p.56

모델의 기여도를 정확하게 측정하는 유일한 방법은 A/B 테스트를 수행하고 적절한 통계 모델을 사용하는 것입니다. 모델에 의한 추가 매출이 얼마나 되는지 보여주는 매출 상승률을 추정 오차를 포함해서 계산하는 것입니다. 하지만 이미 모든 고객에게 솔루션이 배포되었기 때문에 A/B 테스트라는 버스는 이미 떠난 후입니다. 팀은 모델의 지속적인 존재를 정당화할 수 있는 기회를 잃었습니다. 이 프로젝트가 당장 중단되지는 않겠지만, 회사가 예산 지출을 줄여야 한다면 분명히 도마 위에 오를 것입니다.


이런 경우를 대비해 항상 미리 생각하고 계획하는 것이 좋습니다. 


p.65


p.66

최신 기법이 정교하지 않은 이유는 매우 간단합니다. 솔루션을 유지 관리해야 하기 때문이죠. 월별이든 매일이든 실시간이든 솔루션과 코드를 디버깅하고, 개선하고, 불일치 문제를 해결하고, 지속적으로 실행해야 합니다. 주어진 솔루션이 정교할수록 장애를 진단하는 데 시간이 오래 걸리고, 문제를 해결하기가 더 어렵고, 추가 기능을 위해 내부 로직을 변경하는 것이 난해합니다.


단순한 솔루션을 추구하는 방식(즉, 문제를 해결하는 가장 단순한 설계 및 접근 방식)은 이미 해결한 문제의 솔루션을 유지 관리하는 데 필요한 시간을 단축하는 것과 직결됩니다. 그러면 더 많은 문제를 해결하고 회사에 더 많은 가치를 제공하며, 더 많은 문제를 살펴볼 수 있게 됩니다.


흥미로운 최신 알고리듬을 사용하고 싶은 열정이 프로젝트에서 형편없이 발휘된 사례를 여러 번 목격했습니다. 대표적인 예는 이미지 해상도 업스케일링을 위한 GAN 프로젝트로, 12명의 데이터 과학자로 구성된 팀이 10개월이 걸려서야 프로덕션 준비 및 확장 가능한 상태에 도달할 수 있었습니다. 제가 경영진과 대화할 때는 회사가 이탈 모델, 사기 탐지 모델, 수익 예측 모델을 구축하기 위해 컨설턴트를 고용한 상태였습니다. 경영진은 내부 팀이 R&D 프로젝트를 하느라 너무 바쁘기에 중요한 모델링 작업을 외부 컨설턴트에게 맡겨야 한다고 생각했죠. 결국 이 회사와 일한 지 12주 만에 데이터 과학 팀 전체가 해고되었고 회사는 이미지 프로젝트를 포기했습니다.


때로는 회사에 엄청난 가치를 가져다주는 기본적인 업무를 수행하는 것이 일자리를 유지하는 데 도움이 됩니다(그렇다고 예측, 이탈, 사기 탐지 모델링이 특별히 흥미로워 보이지 않더라도 간단하다는 의미는 아닙니다).


p.67




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
다시, 케인스 - 다음 세대가 누릴 경제적 가능성
존 메이너드 케인스 외 지음, 김성아 옮김, 이강국 감수 / 포레스트북스 / 2023년 10월
평점 :
장바구니담기


이 서평은 출판사의 지원을 받아 작성하였습니다.

대중서를 쓰지 않은 경제학자분들이 다수 참여한 책이라 그런지 책이 어렵다.

아니면 원래 이 책의 타깃 독자가 일반 대중이 아닌 경제학을 전공하는 사람일지도 모르겠다는 생각이 들었다.

다만 케인스의 에세이를 바탕으로 다양한 경제학자들이 자신의 주장을 펼치는 책인만큼 같은 글을 보고서도 이렇게 다양한 관점이 나올 수 있다는 걸 배울 수 있었다.

예를 들어 로버트 솔로 교수님 같은 경우 자본을 민주화해야한다는 매우 급진적인 주장을 펼치시고, 또 한편에서는 에드먼트 펠프스 교수님이 케인스가 협동조합주의자였다며 협동조합주의는 실패한 방식이라는게 입증됐다고 하신다. 또 게리 베커 교수님은 케인스가 경제학을 너무 협소하게 봤다고 하시면서 다른 주장을 펼치신다.

이렇듯 다양한 주장이 있지만 이 책에 기고한 대다수의 경제학자들은 학파에 관계없이 케인스를 존경한다는 마음을 표현했다. 케인스는 학파를 뛰어넘어 존경받을만큼 경제학의 거대한 기초를 세웠고 뛰어난 경제학자였기 때문이다.

만약 케인스가 지금 다시 [우리 손자 손녀들이 누릴 경제적 가능성]을 쓴다면 어떻게 쓸지 궁금하다.

밑줄긋기

p.21~22

많은 선진국에서 자본가와 인적 자본을 가진 숙련 노동자의 소득 비중이 커지면서 이들의 생활 수준이 상당히 높아졌다. 하지만 그에 반해 비숙련 노동자의 생활 수준은 정체되거나 아주 천천히 개선되었다. 그 결과, 임금과 경제 성장의 관계에 흥미로운 문제가 생겼다. 케인스의 예측은 기술이 진보하고 자본-노동 비율이 상승하면 임금은 상승할 수밖에 없다는 가정에 기초한다. 하지만 그는 분배 문제와 그 결과에는 주목하지 않는다.

이런 관점은 로버트 솔로에 의해 시험대에 오르는데, 그는 "케인스가 분배 문제에 전혀 주목하지 않은 것은 심각한 오류"라고 지적해왔으며, "소득 분배 및 임금과 수익의 산출 결과는 노동이 자본에 얼마나 쉽게 대체될 수 있는지에 달려 있다. 자본으로 노동을 비교적 쉽게 대체할 수 있다면 임금 비용이 줄면서 시간이 지날수록 기업의 총소득 중 이익이 차지하는 비율이 점점 커질 것이다. 임금도 상승하겠지만 기업 이익의 상승만큼 충분히 상승하지는 않을 것이다"라고 주장했다.

극단적인 사례로 기계와 로봇이 생산 활동을 전담하는 사회를 들 수 있다. 이 경우에 임금이 전체 국민소득에서 차지하는 비중은 거의 0이 되므로 자본을 가진 노동자만 생존할 수 있다. 케인스는 이런 분배 시나리오를 고려하지 않았으며, 공상과학 소설에나 등장할 법한 이런 상황이 머지않아 현실이 될 수도 있다. 이런 추세는 이미 일부 데이터로 나타나고 있다. 사회는 몇 가지 복잡한 정치 이슈를 해결해야 할 것이다. 불평등이 심화하면 순기능 사회에 필요한 사회적 협력이 약해질 수 있다. 이에 대한 한 가지 해법은 솔로 교수가 제안한 것처럼 민주적 자본 소유권을 보장하는 제도를 마련하는 것이다.

p.37~38

마셜은 이렇게 주장했다. "화학자나 물리학자가 자신의 발명품으로 돈을 벌 수는 있지만, 그렇다고 돈이 그의 발명 활동의 주된 동기가 되는 경우는 드물다..... 기업인들의 성향도 과학자들과 상당히 비슷하다. 그들도 똑같이 탐구 본능을 갖고 있고, 그들 다수가 비열하거나 비천하지 않은 경쟁의식을 열정적으로 노력하는 자극원으로 삼는다. 하지만 이런 그들의 성향이 돈에 대한 욕망으로 혼란스러워지고 얼룩질 수 있다..... 그래서 최고의 경영자들은 모두 돈을 벌고자 하지만 그 중 다수는 돈 자체를 목적으로 삼지 않는다. 최고의 경영자들은 돈을 스스로에게, 또 남들에게 자신들이 성공했다는 가장 설득력 있는 증거로 삼으려 한다 Pigou, 1956, pp.281-282."

p.48-49

나는 근대가 16세기에 시작된 자본 축적과 함께 시작됐다고 생각한다. (그 이유에 대해 서술하여 현재의 논의에 부담을 줄 생각은 없지만) 나는 이 자본 축적은 우선 스페인이 신세계로부터 구세계로 가져온 금은보화로 인한 물가 상승과 그로 인한 이윤 때문이었다고 생각한다. 그때부터 지금까지 복리에 의해 점점 견고해진 축적의 힘은, 여러 세대 동안 휴지기를 겪었던 것처럼 보이지만, 재개되고 갱신되었다. 그리고 지난 200년을 생각해보면 복리 성장에는 상상을 초월한 힘이 있다는 것을 알 수 있다.

계산 하나로 이를 설명해보겠다. 현재 영국의 해외 투자 규모는 약 40억 파운드에 달한다. 이는 우리에게 약 6.5% 이율로 수익을 안겨준다. 영국은 이 중 절반을 국내로 가져와 여러 용도로 쓰고 나머지 절반인 3.25%의 수익을 복리로 해외에 축적해둔다. 이런 식의 투자가 약 250년 동안 계속돼왔다.

그것은 내가 영국의 해외 투자는 프랜시스 드레이크가 1580년에 스페인에서 보물을 훔쳤을 때부터 시작된다고 생각하기 때문이다. 그해 드레이크는 골든 하인드호에 막대한 전리품을 싣고 영국으로 돌아왔다. 엘리자베스 여왕은 그의 탐험 비용을 대준 조합의 대주주였다. 그녀는 투자 수익금으로 영국의 해외 부채를 전부 갚았을 뿐만 아니라, 왕실 예산의 부족분을 채울 수 있었다. 그러고도 4만 파운드가 남았다. 여왕은 그 돈을 레반트 컴퍼니에 투자했고 이 회사 또한 번창했다. 그 회사에서 나온 수익으로 동인도회사가 설립되었고, 이 거대한 사업체의 수익은 이후 영국이 추진한 해외 투자의 밑천이 되었다. 4만 파운드를 3.25% 복리로 저축하면 시기별 영국의 실제 해외 투자금과 비슷해지는데, 현재의 경우에는 앞서 말한 영국의 해외 투자 금액인 40억 파운드(약 6조 원)가 된다. 즉 드레이크가 1580년에 고국에 가져온 1파운드가 오늘날에는 10만 파운드가 됐다는 뜻이다. 이것이 복리의 힘이다!

p.54

사람들은 인류의 역사가 창조된 이래로 처음으로 실질적이고 영구적인 문제에 봉착할 것이다. 경제적 압박에서 벗어나 얻은 자유를 어떻게 누릴 것이고, 과학과 복리가 안겨줄 여가를 어떻게 채울 것이며, 어떻게 하면 인생을 더 현명하고 알차게 잘 살 수 있을까? 지치지 않고 돈을 추구한 사람들 덕분에 모두가 경제적 풍족함을 누리게 될 것이다. 하지만 그런 시대가 도래했을 때 진짜 삶의 풍요로움을 즐길 수 있는 이들은 삶의 활력을 잘 느끼고, 삶 자체의 기예를 더 완벽하게 육성하고, 생계 수단을 위해 자신을 팔지 않는 사람들이다.

p.61

"변화에서 가장 힘든 것은 새로운 것을 생각해내는 것이 아니라 이전에 가지고 있던 틀에서 벗어나는 것이다."

- 존 메이너드 케인스

p.72-73

인류는 평균적으로 봤을 때 20세기 후반 50년 동안 케인스의 낙관적인 기대보다 경제적으로 더 많이 발전했다. 하지만 경제 문제의 해결은 세계 대부분의 지역에서 여전히 요원한 일로 보인다. 2000년에도 세계 인구의 다수를 차지하는 비OECD국의 1인당 평균 GDP는 100년 전 미국의 1인당 GDP보다 더 작다. 사하라 이남 아프리카의 비극은 6억 명 주민 대부분이 에이즈, 내전, 불안한 정국으로 고통받는 가운데 여전히 현재 진행형이다. 이보다 한층 더 불편한 발전이 존재한다. 전 세계적으로 국가 내 불평등 수준이 높아지면서 성장률이 낮은 지역에서 극빈층이 극적으로 증가했던 것이다.

왜 생활 수준의 편차가 아직도 이렇게 큰 걸까? 자본 축적도 그 원인 중 하나다. 하지만 최근 다수의 연구가 입증하듯이 더 큰 원인은 기술의 차이(또는 '총요소 생산성'의 차이) 때문이다. 가난한 나라는 기업의 생산성을 높여주는 기술들을 활용할 수 없거나 부유한 나라보다 훨씬 뒤늦게 채택한다. 아이디어의 확산이나 기술적 향상이 전 세계 수준에서 왜 아직 이렇게 느린지는 오랜 논쟁거리이다. 기술 채택에 장벽이 되는 제도적, 정치적 문제들은 분명 중요한 요인이다.

대런 아제모글루와 질리보티가 2001년에 발표한 글을 보면, 그런 장벽이 없다고 해도 신기술과 인간의 능력은 상호 보완 관계에 있다. 때문에 산업화 국가에는 아무리 혁신적인 기술이라고 할지라도 개발도상국에는 '적절하지 않은' 기술이 될 수 있다고 주장한다. 선진국에서 이뤄지는 혁신은 숙련 노동자가 필요한 신기술을 진화시키는 경향이 있다(1990년대 IT 혁명을 생각해보라). 고학력 노동자가 부족한 가난한 나라들은 이런 기술적 혜택을 제대로 활용할 수 없으므로 선진국에서 개발된 기술을 채택하는 데 제동이 걸린다. 결국 성장을 촉진하는 기관들과 고등교육에 대한 투자야말로 동아시아와 남아시아 국가들의 경제적 성공의 핵심이 될 수 있다.

p.76-77

인간이 얼마나 많은 시간을 삶을 즐기는 데 소비할 수 있는지 확인하려면 인간이 활용 가능한 모든 시간에서 노동시간뿐 아니라 가사 활동에 쓰는 시간도 제외해야 한다. 먼저 짚고 넘어갈 것은 집안일에 대한 장기 추세를 다룬 신뢰할 만한 통계자료가 없다는 것이다. 그린우드와 동료 학자들이 보고한 2005년 수치에 따르면 1930년에 미국에서는 가구당 주 평균 40시간을 집안일로 소비했다. 아헨과 스태퍼드는 2005년에 소득동학패널을 바탕으로 수행한 연구에서 2001년 기준 미국 기혼 부부가 집안일에 쓰는 시간이 주당 25시간 정도인 것으로 결론지었다. 두 데이터가 상응한다고 가정하면 모든 개인은 하루 1시간 이상 가사 활동의 속박에서 벗어난 셈이 된다. 이러한 변화는 기본 인프라 및 가전 제품(수돗물, 냉장고, 세탁기, 진공청소기 등)에서 노동력을 아껴주는 기술 발전이 이뤄졌기에 가능했다. 그렇다고 이렇게해서 남은 시간 전체가 여가에 투입된 것은 아니었다. 그린우드의 2005년 연구는 19000년부터 1980년까지 80년간 여성 노동력이 약 28%p 증가한 것은 가정용 기술의 혁신 덕분이었다고 설명한다.

p.88~89

케인스 경제학은 그 자체로 거시경제 정책을 이행하는 방식에 큰 변화를 몰고 왔다. 하지만 이런 발전적 변화는 경제 문제 '해결'과는 관련이 없고, 어떻게 하면 더 많은 상품을 더 효율적으로 생산하고 전달할 수 있는지에 초점을 맞춘다. 근본적인 경제 '모델'은 본질적으로 변하지 않았다.

p.157

자본주의란 인간의 가장 악한 특성이 모두가 최대의 이익을 얻도록 하기 위해 가장 악한 일을 할 것이라는 놀라운 믿음이다.

- 존 메이너드 케인스

p.171-173

소득 분배와 임금, 이익의 조정은 자본이 노동을 얼마나 쉽게 대체할 수 있는지에 달려 있다. 그 대체 작업이 생산 중에 바로 일어나든, 아니면 소비가 노동 집약적인 상품에서 자본 집약적인 상품으로 옮겨가는 중에 일어나든 마찬가지다. 노동이 자본으로 비교적 쉽게 대체될 수 있으면 (전문 용어로 경제 전반의 대체 탄력성이 1보다 크면) 시간이 지날수록 총소득에서 이윤이 차지하는 몫이 점점 더 커질 것이다. 임금도 상승하겠지만 이윤이 증가하는 속도에는 미치지 못할 것이다. 이는 케인스가 상상했던 기술 진보와 자본 축적으로 '경제 문제가 해결'된다고 했던 세상에서 벌어질 그럴듯한 결과로 보인다. (이에 대한 극단적인 예로 로봇이 보편화되면서 인간의 노동이 전혀 필요하지 않은 세상에 대한 일반적인 두려움을 들 수 있다. 그런 세상이 오면 우리의 삶은 어떻게 될까?)

답은 꽤 명확해 보인다. 우리의 손자, 손녀, 혹은 그들의 손자 손녀들이 진정으로 생존 가능한 세상에서 살려면 자본의 소유가 민주화되어야 한다. 만약 자본이 주된 수입의 유일한 원천이 된다면 이들 모두가, 즉 모두가 자본 소득에 대한 적절한 청구권을 가져야 한다. 자본의 민주화를 실현할 수 있는 제도적 장치는 많다. 그 장치가 강제적 저축이든, 보편적 배당이든, 연기금의 확대든 그것을 실현하기 위해서는 정치적 독창성과 상상력이 필요하다. 이 문제에 관해서는 별로 생각이 진전되지 않았다. 다행히 케인스와 반대로 우리에게는 아직 그런 제도를 마련할 수 있는 시간이 있고, 윈체스터대학과 케임브리지대학에도 희망을 걸 수 있다.

하지만 이 문제가 해결되더라도 세상이 돈을 긁어모으는 다른 백만장자보다 더 앞서기 위해 고군분투하는 백만장자들로 가득하다면, 케인스는 여전히 불행할 것이다. 나에게도 그런 사회가 끔찍하기는 마찬가지다. 또 케인스는 어떨지 모르겠지만, 내게는 모두가 케임브리지 사도처럼 사는 세상도 달갑지 않다. 경제적으로 행복한 사회에서도 다양성은 삶에 흥취를 더하는 향신료와 같다. 나의 화두인 형평성 구현의 문제가 수정된 경제 체제의 첫 번째 목표가 되어야 하고, 이를 달성하려면 적어도 처음에는 어떤 방식으로든 분명 재분배 작업이 필요할 것이다. 그리고 케인스의 화두인 삶을 어떤 내용물로 채우느냐의 문제가 여전히 남을 것이다. 긴급히 채울 욕구가 사라진다면, 새로운 의미의 '직업'교육을 통해 베블런의 장인 본능을 발화할 여지가 훨씬 커질 것이다. 그러면 우리는 모차르트와 살리에리, 혹은 레드삭스와 양키스 사이에 존재하는 그런 시샘을 느끼는 경쟁심과 더불어 살아갈 수도 있을 것이다. 혹은 살아야만 할지도 모른다.

이런 사회가 되려면 얼마나 더 기다려야 할까? 기억하라. "경제적 축복이라는 목적지에 도달하는 속도는 인구 통제 능력, 전쟁 및 시민 분쟁을 피하려는 결의, 과학이 나아가야 할 방향을 과학에 위임하려는 의지, 그리고 생산과 소비의 차이로 결정되는 축적 비율의 네 가지로 결정될 것이다." 다시 말해, 오랜 시간이 필요하다.

p.182

케인스의 미시경제학이 마셜의 미시경제학보다 신고전파 경제학에 더 가깝다고 여겼던 미국인들의 생각과 달리, 케인스는 효율적인 시장 형태로서 원자적 경쟁, 즉 완전 경쟁을 거부했다. 그는 카르텔, 지주회사, 무역협회, 공동출자같이 독점 권력의 지속적인 성장을 보조하는 정부 정책을 옹호했다. 그래야만 정부가 관련 산업을 규제할 수 있기 때문이었다. 제임스 크로티는 이런 결론을 내린다. "적어도 1920년대의 케인스는 국가가 거시경제뿐 아니라 미시경제를 위해서도 강력한 역할을 수행해야 한다고 주장한 당당한 협동조합주의자였다."

강력한 기업 통합과 노조 조직화의 물결이 1930년대에 영국 뿐 아니라 유럽 대륙과 미국에서 다양한 수준으로 발생했다. 미국의 경우 1920년대 초에는 자동차 회사가 수십 개나 됐지만 1930년대 말이 되자 거대 기업 세 곳만 남았다. 1938년에는 미국 산업의 대부분을 지배하던 과점 조직들이 제기한 기업규제 및 해산 문제를 자문하기 위해 의회가 임시국가경제위원회(TNEC)를 설립했다. TNEC는 프랭클린 루스벨트 시절부터 리처드 닉슨 임기 때까지 미국을 지배했던 협동조합주의적 색채를 가진 조직으로서 닉슨 시기부터 반독점 해체와 규제 완화 정책, 글로벌 경쟁을 배경으로 조금씩 약화되었다가 해체되었다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
만들면서 배우는 생성 AI - 트랜스포머부터 GPT, DALL·E 2, 스테이블 디퓨전, 플라밍고까지 O'reilly 오라일리 (한빛미디어)
데이비드 포스터 지음, 박해선 옮김 / 한빛미디어 / 2023년 9월
평점 :
장바구니담기


 

만들면서 배우는 생성AI라고 하면 뭔가 생성모델 쪽 라이브러리를 가지고 실습만 하는 책으로 생각할 수 있겠지만 그렇지 않다. 이 책은 매우 기초적인 내용부터 하나하나 다루고 실무적인 팁까지 다루는 책이다. 

 

패딩이 무엇인지, 임베딩이란 무엇인지 기초개념까지 저자가 그리고 역자가 하나하나 가르쳐주면서 이끌어가는 책이다. 

 

사실 처음 AI를 접했을 때 임베딩이라는 단어를 많이 접했고 대충 느낌적인 느낌(?!)으로 임베딩이 뭐겠다 라고 알고는 있었지만, 임베딩이 무엇인지와 같이 기초를 잡고 가지 않아서 나중에 헷갈릴 때가 많았다. 그러니 아무리 활용 위주로 AI를 사용한다고 하더라도 기초적인 용어나 개념같은 건 이런 책을 통해 배우고 가면 좋을 거라고 생각한다.

 

책이 기초부터 다루고 있긴 하지만 쉬운 책은 아니다. AI가 쉬운 분야가 아니기 때문이다. 하나하나 가르쳐준다고 해도 원래 AI 자체가 어려운 것인데 어느 정도 고생은 해야한다.

 

그렇게 고생하고 이 책을 본다고 해서 바로 전문 엔지니어급이 될 수 있는 것도 아니고, 미래를 예측할 수 있는 것도 아니다. 다만, 조금 더 그럴 확률이 높아질 수 있을거라고 생각한다. 이 책의 초반부에서 생성모델은 결정론적 모델이 아닌 확률적 모델이라고 강조하듯, 확률적인 사고를 해본다면 이 책을 통해 얻을 수 있는 기대가치는 꽤나 크다고 할 수 있다.

 

 

밑줄긋기

p.34~35

생성 모델은 또한 결정적(deterministic)이 아니고 확률적(probabilistic)이어야 합니다. 매번 동일한 값을 출력하는 것이 아니라 다양한 출력 결과를 샘플링할 수 있어야 하기 때문입니다. 모델이 데이터셋에 있는 모든 픽셀의 평균값을 구하는 일처럼 고정된 계산만 수행한다면 생성 모델이 아닙니다. 생성 모델은 생성되는 개별 샘플에 영향을 미칠 수 있는 랜덤한 요소를 포함해야 합니다.

 

다른 말로 하면 어떤 이미지는 훈련 데이터셋에 있을 것 같고, 다른 이미지는 그렇지 않은 이유를 설명하는 알려지지 않은 확률분포가 있다고 가정합니다. 해야 할 일은 최대한 이 분포에 가깝게 흉내 내는 모델을 만드는 것입니다. 그다음 이 분포에서 샘플링하여 원본 훈련 세트(training set)에 있을 것 같은 새롭고 완전히 다른 샘플을 생성합니다. 

 

p.36

수학적으로 생성 모델링과 판별 모델링을 정의해보죠.

 

판별 모델링은 p(y | x)를 추정(estimation)합니다.

즉, 판별 모델링은 샘플 x가 주어졌을 때 레이블 y의 확률을 모델링하는 것이 목표입니다.

 

생성 모델링은 p(x)를 추정합니다.

즉, 생성 모델링은 샘플 x를 관측할 확률을 모델링하는 것이 목표입니다.

 

p.37

최근까지 판별 모델링은 머신러닝 분야에서 대부분의 발전을 이끈 원동력이었습니다. 그 이유는 판별 문제에 상응하는 생성 모델링 문제가 일반적으로 훨씬 해결하기 어렵기 때문입니다. 예를 들어 반 고흐 스타일의 그림을 생성하는 모델을 훈련하는 것보다 반 고흐의 그림인지를 예측하는 모델을 훈련하기가 훨씬 쉽습니다. 마찬가지로 찰스 디킨스 스타일의 문장을 생성하는 모델을 만드는 것보다 찰스 디킨스의 글인지 예측하는 모델을 훈련하기가 훨씬 쉽습니다. 최근까지만 해도 대부분의 생성 문제는 근접할 수 없는 영역이었으며 이를 해결할 수 있을지에 대한 의구심이 많았습니다. 창의성을 AI가 따라올 수 없는 순수한 인간의 능력으로 여겼기 때문입니다.

 

하지만 머신러닝 기술이 발전함에 따라 이러한 가정은 점차 약해지고 있습니다. 지난 10년 동안 이 분야에서 가장 흥미로운 발전은 생성 모델링 작업에 머신러닝을 새롭게 적용하면서 일어났습니다. 예를 들어 아래 그림은 2014년 이후 얼굴 이미지 생성 분야에서 일어난 놀라운 발전 과정을 보여줍니다.

 

 

p.41

생성 모델링 프레임워크

 

- 샘플 데이터셋 X를 가지고 있습니다.

- 샘플이 알려지지 않은 어떤 P_data 분포로 생성되었다고 가정합니다.

- P_data를 흉내내는 생성 모델 P_model을 만들려고 합니다. 이 목표를 달성하려면 P_model에서 샘플링하여  P_data에서 뽑은 것 같은 샘플을 생성할 수 있습니다.

- 따라서 P_model의 바람직한 속성은 다음과 같습니다.

 

     - 정확도

       생성된 샘플의 P_model이 높으면 P_data에서 뽑은 것처럼 보여야 합니다. 생성된 샘플의 P_model이 낮으면 P_data에서 뽑은 것처럼 보여서는 안 됩니다.

    - 생성

      P_model에서 새로운 샘플을 쉽게 샘플링할 수 있어야 합니다.

    - 표현

     데이터의 다양한 고수준 특성이 P_model로 어떻게 표현되는지 이해할 수 있어야 합니다.

 

p.43~45

당신의 외모를 모르면서 군중 속에서 당신을 찾고 있는 사람이 있습니다. 이 사람에게 당신 외모를 설명한다고 가정해봅시다. 당신 사진에 있는 픽셀 1의 색상부터 픽셀 2, 픽셀 3 등의 색상을 말하는 식으로 설명하지 않을 것입니다. 대신 상대방이 평균적인 사람의 외모를 안다는 합리적인 가정을 합니다. 그 다음 '나는 금발이다' 또는 '안경을 쓰고 있다'와 같이 픽셀의 그룹에 해당하는 특성으로 이 가정을 개선해갑니다. 이런 설명이 10개 정도만 있으면 상대방은 이를 다시 픽셀로 매핑하여 머릿속에 당신의 이미지를 생성할 수 있습니다. 이 이미지가 완벽하지는 않겠지만 당신을 본 적이 없는 사람도 수백 명의 사람 중에서 당신을 찾을 수 있을 정도로 실제 모습과 비슷할 것입니다.

 

이것이 표현 학습(representation learning) 이면의 핵심 아이디어입니다. 고차원 표본 공간을 직접 모델링 하는 방식이 아니라 대신 저차원의 잠재 공간(latent space)을 사용해 훈련 세트의 각 샘플을 표현하고 이를 원본 공간의 포인트에 매핑합니다. 다른 말로 하면, 잠재 공간의 각 포인트는 어떤 고차원 이미지에 대한 표현입니다.

 

실제로 이것은 무엇을 의미할까요? 회색 비스킷 깡통 이미지로 이루어진 훈련 세트가 있다고 가정해보죠.

깡통의 높이와 너비라는 두 가지 특성으로 각 깡통을 고유하게 표현할 수 있습니다. 즉, 훈련 세트의 이미지가 고차원 픽셀 공간으로 주어지더라도 각 깡통의 이미지를 2차원 잠재 공간의 한 포인트로 변환할 수 있습니다. 특히 아래 그림에서처럼 적절한 매핑함수 f를 잠재 공간의 새로운 포인트에 적용하여 훈련 세트에 없는 깡통 이미지를 생성할 수도 있다는 의미입니다.

 

원본 데이터셋을 간단한 잠재 공간으로 설명할 수 있음을 기계가 깨닫기는 쉽지 않습니다. 먼저 높이와 너비가 이 데이터셋을 가장 잘 설명하는 두 개의 잠재 공간 차원임을 알아야 합니다. 그 다음 이 공간의 한 포인트를 회색 비스킷 깡통 이미지에 매핑하는 매핑 함수 f를 학습해야 합니다. 머신러닝(특히 딥러닝)을 사용하면 사람의 개입 없이 이런 복잡한 관계를 찾도록 기계를 훈련시킬 수 있습니다.

잠재 공간을 활용하는 모델을 훈련하는 장점 중 하나는 의미 있는 잠재 공간에서 표현 벡터를 조작하여 이미지의 고수준 속성에 영향을 미치는 연산을 수행할 수 있다는 것입니다. 비스킷 깡통 이미지가 주어졌을 때 높이를 크게 하려면 개별 픽셀을 어떻게 조정해야 할지 알지 못합니다. 하지만 잠재 공간에서는 간단히 잠재 공간의 높이 차원에 1을 더하고 매핑 함수를 적용해 이미지를 얻을 수 있습니다. 이어지는 장에서는 비스킷 깡통 대신 얼굴 이미지에 적용한 구체적인 예제를 보겠습니다. 

 

이 책의 뒷부분에서 살펴보겠지만 훈련 데이터셋을 잠재 공간으로 인코딩하고 이 공간에서 샘플링한 다음 디코딩하여 원래 도메인으로 되돌아가는 개념은 많은 생성 모델링 기법에서 널리 사용합니다. 수학적으로 인코더-디코더 기법은 (예를 들면 픽셀 공간에) 데이터가 놓여 있는 고차원 비선현 매니폴드를 샘플링 가능한 단순한 잠재 공간으로 변환합니다. 아래 그림과 같이 이 잠재 공간의 모든 포인트가 잘 구성된 이미지의 표현이 됩니다.

 

p.48

가능도는 데이터가 아니라 파라미터의 함수입니다. 이를 주어진 파라미터 집합이 올바른지에 대한 확률로 해석해서는 안 됩니다. 다른 말로 하면 파라미터 공간의 확률분포가 아닙니다 (즉, 파라미터에 대해 적분(합)하면 1이 되지 않습니다)

 

p.49

모든 생성 모델은 궁극적으로 동일한 작업을 해결하는 것이 목표이지만 밀도 함수 p_theta(x)를 모델링하는 방식이 조금씩 다릅니다. 크게 세 가지 방식이 있습니다.

 

1. 명시적으로 밀도 함수를 모델링하지만 밀도 함수를 다루기 쉽도록 (즉, 계산할 수 있도록) 어떤 식으로 모델을 제약합니다.

2. 다루기 쉬운 밀도 함수의 근사치를 명시적으로 모델링합니다.

3. 데이터를 직접 생성하는 확률적 과정을 통해 밀도 함수를 암묵적으로 모델링합니다.

 

p.64

이 책의 많은 모델에서는 한 층의 출력이 여러 개의 후속 층으로 전달됩니다. 또는 그 반대로 한 층이 여러 개의 이전 층으로부터 입력받습니다. 이런 모델에는 Sequential클래스가 적합하지 않으며, 훨씬 더 유연한 함수형 API를 사용해야 합니다.

 

TIP_ 케라스로 처음 선형 모델을 만들 때도 Sequential 모델보다는 함수형 API를 사용하는 것이 좋습니다. 신경망의 구조가 점점 복잡해짐에 따라 장기적으로 더 나은 선택이 됩니다. 함수형 API를 사용하면 심층 신경망의 설계를 완전히 자유롭게 할 수 있습니다.

 

p.65

Flatten 클래스의 객체를 만든 다음 이 객체를 매개변수 input_layer로 호출했습니다. 파이썬의 객체는 함수처럼 호출할 수 있습니다. 이때 이 객체에 정의된 __call__() 메서드가 호출됩니다. 케라스에서는 이런 식의 객체 호출을 즐겨 사용합니다. 

 

p.65~66

Input 층은 네트워크의 시작점입니다. 네트워크가 기대하는 입력 데이터 크기를 튜플로 알려주어야 합니다. 배치 크기는 지정하지 않습니다. Input 층에 임의의 이미지 개수를 전달할 수 있기 때문에 배치 크기는 필요하지 않습니다. 따라서 Input 층을 정의할 때 배치 크기를 입력하지 않습니다.

 

그 다음 Flatten 층은 입력을 하나의 벡터로 펼칩니다. 결과 벡터의 길이는 3,072 (32 * 32 * 3) 입니다. 이렇게 하는 이유는 뒤따르는 Dense 층이 다차원 배열이 아니라 평평한 입력을 기대하기 때문입니다. 나중에 보겠지만 다른 종류의 층은 입력으로 다차원 배열을 사용해야 합니다. 언제 Flatten 층을 사용하는지 이해하려면 층마다 필요한 입력과 출력의 크기를 알아야 합니다.

 

Dense 층은 기본적인 신경망 구성 요소입니다. 이 층에는 이전 층과 완전하게 연결(fully connected)되는 유닛이 있습니다. 즉, 이 층의 각 유닛은 이전 층의 모든 유닛과 연결됩니다. 연결마다 하나의 (양수 또는 음수인) 가중치가 동반됩니다. 유닛의 출력은 이전 층에서 받은 입력과 가중치를 곱하여 더한 것입니다. 그 다음 비선형 활성화 함수 (nonlinear activation function)를 통과하여 다음 층으로 전달됩니다. 활성화 함수는 신경망이 복잡한 함수를 학습하는 데 아주 중요한 역할을 합니다. 그렇지 않으면 입력을 선형적으로 조합한 값만 출력할 것입니다. 

 

p.72

전체 데이터셋을 사용해 훈련 스텝마다 그레이디언트를 계산하는 작업은 너무 시간이 오래 걸리고 계산 비용이 많이 듭니다. 일반적으로 32에서 256 사이의 배치 크기를 사용합니다. 요즘엔 훈련이 진행됨에 따라 배치 크기를 증가시키는 방식을 권장합니다.

 

Samuel L. Smith et al., "Don't Decay the Learning Rate, Increase the Batch Size.", November 1, 2017. https://arxiv.org/abs/1711.00489. 옮긴이주 -> Adam, RMSProp과 같은 옵티마이저는 훈련이 진행됨에 따라 최솟값을 찾기 쉽도록 학습률을 줄여갑니다. 이 논문은 학습률을 줄이는 대신 배치 크기를 늘리는 방식으로 훈련 반복 횟수를 줄이면서 동일한 정확도를 얻을 수 있다고 소개합니다. 케라스 훈련 과정에서 배치 크기를 조정하려면 fit 메서드 대신 train_on_batch 메서드를 사용하세요. 

 

p.76

합성곱은 원래 계산하기 전에 필터를 뒤집습니다. 필터를 뒤집지 않고 계산하는 것은 교차 상관(cross correlation)입니다. 합성곱 층은 처음에 필터를 랜덤하게 초기화하기 때문에 뒤집는 것이 의미가 없습니다. 실제로 합성곱 층은 교차 상관을 수행하지만 관례적으로 합성곱이라 부릅니다. 

 

p.79

padding = "same"으로 지정하면 여러 개의 합성곱 층을 통과할 때 텐서의 크기를 쉽게 파악할 수 있기 때문에 유용합니다. padding = "same"인 합성곱 층의 출력 크기는 다음과 같습니다.

 

(입력 높이 / 스트라이드, 입력 너비 / 스트라이드, 필터 개수)

 

p.81

입력의 크기는 (None, 32, 32, 3)입니다. 케라스는 None을 사용해 한꺼번에 임의 개수의 이미지를 네트워크로 통과시킬 수 있음을 표현합니다. 네트워크는 텐서에 대해 대수학 계산을 수행하므로 이미지를 하나씩 전달할 필요가 없습니다. 대신 여러 개를 묶어 배치로 전달합니다.

 

p.82

손실 함수가 NaN을 반환하기 시작하면 가중치가 오버플로(overflow) 오류를 발생시킬 만큼 커졌다는 신호입니다.

 

p.82~83

신경망에 주입되는 입력 데이터를 스케일 조정하는 이유 중 하나는 처음 몇 번의 반복 훈련을 안정적으로 시작하기 위해서입니다. 네트워크의 가중치가 랜덤하게 초기화되었기 때문에 스케일이 조정되지 않은 입력은 큰 활성화 출력을 만들어 그레이디언트 폭주로 바로 이어질 가능성이 있습니다. 그래서 입력층으로 0~255 사이의 픽셀 값을 전달하는 대신 -1에서 1 사이의 값으로 스케일을 바꿉니다.

 

입력 스케일을 조정했기 때문에 모든 층의 활성화 출력도 비교적 스케일이 안정되리라 기대할 수 있습니다. 초기에는 맞는 말입니다. 하지만 네트워크가 훈련됨에 따라 가중칫값이 랜덤한 초깃값과 멀어지기 때문에 이런 가정이 무너지기 시작합니다. 이런 현상을 공변량 변화(covariate shift)라고 부릅니다.

 

배치 정규화(batch normalization)는 이 문제를 극적으로 줄이는 해결책입니다. 방법은 놀랍게도 간단합니다. 훈련하는 동안 배치 정규화 층은 배치에 대해 각 입력 채널별로 평균과 표준 편차를 계산한 다음 평균을 빼고 표준 편차로 나누어 정규화합니다. 채널로 학습되는 두 개의 파라미터가 있습니다. 스케일 파라미터(gamma)와 이동 파라미터(beta)입니다. 정규화한 입력을 gamma로 스케일 조정하고 beta로 이동시켜 출력합니다.

 

p.84~85

예측할 때는 이 층이 어떻게 동작하는지 궁금할 것입니다. 예측을 수행할 때는 하나의 샘플에 대해 예측을 만들기 때문에 평균과 표준 편차를 계산할 배치가 없습니다. 이 문제를 처리하기 위해 훈련 과정에서 배치 정규화 층이 채널별로 평균과 표준 편차의 이동 평균(moving average)을 계산하여 저장합니다. 테스트할 때 이 값을 사용하여 입력을 정규화합니다.

 

배치 정규화 층에는 몇 개의 파라미터가 필요할까요? 이전 층의 채널마다 스케일(gamma)과 이동(beta)을 위한 2개의 가중치가 학습되어야 합니다. 이 둘은 학습되는 파라미터입니다. 평균과 표준편차의 이동 평균은 채널마다 계산되지만, 역전파를 통해 훈련되는 것이 아니라 층을 통과하는 데이터에서 계산됩니다. 이 둘은 훈련되는 파라미터가 아닙니다. 종합해보면 채널마다 4개의 파라미터가 있고 2개는 훈련되고 2개는 훈련되지 않습니다.

 

p.86

p의 확률로 유닛을 드롭아웃하여 모델을 훈련하면 테스트할 때는 모든 유닛을 사용하기 때문에 1/(1-p)배 만큼 더 큰 출력이 만들어집니다. 이를 보완하려고 테스트할 때 출력에 (1-p)를 곱하여 감소시킵니다. 케라스와 같은 구현에서는 테스트할 때 출력을 보정하지 않고 훈련할 때 드롭아웃 층의 출력을 (1-p)로 나누어 증폭시킵니다. 두 방식이 완전히 같지는 않지만 잘 작동합니다.

 

p.97

인코더는 디코더가 정확하게 재구성할 수 있도록 가능한 한 많은 정보를 내포시키려 하므로 이 벡터를 임베딩(embedding)이라고도 합니다.

 

오토인코더(autoencoder)는 단순히 어떤 항목의 인코딩과 디코딩 작업을 수행하도록 훈련된 신경망입니다. 이 과정을 통해 출력이 가능한 한 원본 아이템에 가까워지도록 합니다.

 

p.99

오토인코더는 두 부분으로 구성된 신경망입니다.

 

- 인코더: 네트워크는 이미지 같은 고차원 입력 데이터를 저차원 임베딩 벡터로 압축합니다.

- 디코더: 네트워크는 임베딩 벡터를 원본 도메인으로 압축 해제합니다 (예를 들어 이미지로 되돌립니다).


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo