[침묵의 향기, 默香] : 알라딘

인과추론 스터디ｌinformatica (AI, IT, CS)

묵향 () l 2024-03-17 21:44

https://blog.aladin.co.kr/SilentPaul/15388388

기다렸던 책이 나와서 읽고 있는데, 썩 잘 나온 것 같다.

가짜연구소에서 먼저 공개한 같은 저자의 웹북 『Causal Inference for the Brave and True』https://matheusfacure.github.io/python-causality-handbook/landing-page.html 의 오픈소스 번역본 https://github.com/CausalInferenceLab/Causal-Inference-with-Python/tree/main/causal-inference-for-the-brave-and-true 보다 확실히 문장이 더 정제되어 있고, 잘 읽힌다(위 번역본도 그저 감사할 따름이다. 대단한 일을 하고 계시는, 가짜연구소 페이지 https://pseudo-lab.com/chanrankim/Pseudo-Lab-c42db6652c1b45c3ba4bfe157c70cf09 ).

소스 코드 주소는 각 해당 자료를 보면 알 수 있으니 생략하고,

최근에 점점 관심이 모이고 있지만, 인과추론은 국내 (출판계)에서 여전히 생소한 분야인데...

유튜브에서는 조지아대 경영정보학과 박지용 교수님( https://jiyong-park.github.io/ )의 '인과추론의 데이터과학' 채널이 보물창고이다. https://www.youtube.com/@causaldatascience

KISS (Korean International Statistical Society) 회장이신 Iowa 주립대 김재광 교수님께서도 유튜브에 '인과추론을 위한 통계학' 강의를 올려 주셨다. https://www.youtube.com/playlist?list=PLpX4d5n0gRfSI1OpmErIuIng09CsoqwWK

김재광 교수님 영상은 UC Berkeley Peng Ding 교수님의 『A First Course in Causal Inferece』 책을 교재 삼아 강의하신 것인데, 책을 여기서도 받아 볼 수 있다. https://arxiv.org/abs/2305.18793 Ding 교수님 홈페이지도 참조 https://sites.google.com/site/pengdingpku/home

국내 단행본으로는 교우사에서 낸 『통계적 인과 추론』이라는 책이 스터디 등에서 읽히기도 했다. 그러나 100자평에도 쓰여 있는 것처럼 개정판이 나와 있고, 출판사 홈페이지에서만 살 수 있다. https://www.kyowoo.co.kr/02_sub/view.php?p_idx=1640&cate=0014_0019_ 어차피 살 사람은 찾아서 사는 책이라 유통 단계를 줄이려 했던 것 같다.

2021년 노벨 경제학상을 받은 Joshua Angrist의 책들도 번역되어 있다.

인터넷에서도 받을 수 있는 Miguel A. Hernan & James M. Robis, 『Causal Inference: What If』가 올해 출간되었고, https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/

꾸준히 책을 내고 계시는 한치록 교수님 책들을 비롯하여, 국내에도 '인과추론'을 내세운 책들이 하나둘 나오기 시작했다. 허준이 교수님의 아버님이시기도 한, 허명회 교수님의 선구적인 저서를 여기에도 언급해 둔다.

일본서 중에는 도호쿠대(東北大)에서 상법을 가르치시는 모리타 하츠마루(森田果) 교수님께서 쓰신 『실증분석입문』이라는 책이 있는데, 알라딘에는 올라와 있지 않다. 나는 도쿄에 갔을 때 마루젠 서점에서 한 권 사왔다.

언급한 것들 말고도 외국서는 참 많다. 일본이 중요하거나 재미있는 책들을 일찍 알아보고 번역해 둔 것을 보면 참 부럽고 질투가 난다.

『Hume's Defence of Causal Inference』라는 책이 무척 끌리는데, 일본에서 나온 책 중에 『유아기 지식획득에서 귀납추론: 인과관계에 기초한 귀속추론의 발달(幼兒期の知識獲得における歸納推論: 因果關係に基づく屬性推論の發達)』이라는 책이 있다.

결국 흄이 옳았다고 말할 수 있을까.

인과추론

댓글(3) 먼댓글(0) 좋아요(22)

ｌ 공유하기 ｌ 북마크하기

찜하기 ｌ

그냥 기록 삼아...ｌinformatica (AI, IT, CS)

묵향 () l 2024-03-17 17:48

https://blog.aladin.co.kr/SilentPaul/15387829

최근 주목받고 있는 Claude 3에 알고리듬 관련 질문을 했더니, 출처로 다음 책들을 제시해 주었다.

앞의 책은 2009년에 나온 3판인데, 2022년에 4판이 나왔고,

뒤의 책은 2005년에 나온 초판인데, 2022년에 2판이 나왔다.

국내에서는 앞의 책 3판을 한빛아카데미에서 2014년에 펴냈다.

Claude 3의 학습데이터 범위를 알 수 있는 한 조각 단서라고 보여, 기록해 둔다.

댓글(0) 먼댓글(0) 좋아요(12)

ｌ 공유하기 ｌ 북마크하기

찜하기 ｌ

반가운 알라딘 백엔드 엔지니어 채용공고ｌinformatica (AI, IT, CS)

묵향 () l 2024-02-19 00:18

https://blog.aladin.co.kr/SilentPaul/15314342

https://blog.aladin.co.kr/cscenter/15196280

2024년 1월 3일에 올라왔던 글을 이제야 발견했다. 반갑다.

이미 지원자가 있었는지, 면접 등이 진행되었는지는 모르겠지만,

뛰어나고 훌륭하신 분이 지원하시고 뽑히셨으면 좋겠다.

(채용공고 발췌)

[개발 환경/문화]

-부서내 인력의 80%가 개발,연구 인력으로 구성되어 있습니다.

-새로운 기술을 도입하는 것에 열려있습니다. 함께 스터디하고 토론하여 기술을 적용합니다.

-수평적인 토의/토론 문화가 있습니다. 어떤 의견이든 자유롭게 내고 그에 대해 활발히 논의합니다.

[주요업무]

- Event Driven Microservice 아키텍처 기반 API 서버 개발 및 운영

- 자사의 백엔드 서비스 개발

- 대용량 드래픽에도 안정적인 서비스를 위한 시스템 설계 및 개발

[자격요건]

- 관련분야 개발 경력 10년 이상

- Python, Java, Kotlin, C++, Go lang 중 1개 이상의 언어를 사용해 문제 해결이 가능하신 분

- AWS, Azure 등 클라우드의 다양한 서비스 사용 경험

- Kubernetes 환경에서 개발, 운영 경험자

- 부하 테스트, 어플리케이션, 쿼리 튜닝 경험

- 의미 있는 테스트 코드를 작성하는 분

[우대사항]

- 오픈소스 코드를 자유롭게 수정하고 활용할 수 있는 능력이 있는 분

- Unit Test , Docker, Kubernetes에 대한 깊은 이해

- 비동기, 동시성, 병렬, 분산 처리에 대한 깊은 이해

- Kafka, Redis 사용 경험

- Terraform, Ansible, Helm, Airflow 사용 경험

- 오프소스 개발/기여 경험

[근무조건]

- 고용형태 : 정규직

- 근무시간 : 주5일, 근무시간 09:00~18:00

- 근무지 : 알라딘 본사 (서울 중구 순화동)

[전형절차]

-서류심사 > 코딩테스트 > 1차 면접 > 2차 면접 > 입사

-정규직(수습 3개월)

-필요 시 지원자의 동의 하에 평판조회 절차가 진행될 수 있으며, 평판조회 결과에 따라 입사가 취소될 수 있습니다.

-모든 전형결과는 합격자에 한해서만 개별 통보합니다.

[제출서류]

- 이력서 : 자유양식(전화번호, 이메일, 희망연봉 반드시 기재)

- 자기소개서 : 자유양식

- 입사지원 서류에 허위 사실이 발견될 경우, 채용확정 이후라도 채용이 취소될 수 있습니다.

[접수방법 및 접수기간]

- 이메일 접수 : 메일 제목에 [백엔드] 구분표시 요망

- 이메일 주소 : recruit@aladin.co.kr

- 접수기간 : 상시

- 제출서류는 반환하지 않으며, 채용절차 공정화에 관한 법률에 의거, 일정기간 경과 후 폐기합니다.

[혜택 및 복지]

- 업무 관련 도서 구매 지원

- 자기계발비 지원 : 체력단련, 교육, 여행, 취미활동, 문화생활(도서, 공연 등)에 활용 가능

- 장기 근속자에 대한 포상휴가/포상금 지급

- 알라딘 온/오프에서 사용 가능한 직원 할인쿠폰 제공

- 유료 종합검진 지원 : 연령, 근속연수에 따라 매년 또는 격년

- 각종 경조사 지원

- 인센티브제

댓글(0) 먼댓글(0) 좋아요(7)

ｌ 공유하기 ｌ 북마크하기

예측 기계ｌinformatica (AI, IT, CS)

묵향 () l 2024-02-12 01:59

https://blog.aladin.co.kr/SilentPaul/15296700

240211 9. 예측 기계(Prediction Machines), Ajay Agrawal, Joshua Gans, Avi Goldfarc, 이경남 옮김, 생각의, 2019

국역본은 절판되었는데, 개정판이 2022년에 나왔고 인터넷에서 찾아 읽을 수 있다.

인공지능 기술을 '예측 비용 하락'이라는 경제학적 관점에서 분석하고 있다(같은 관점에서 컴퓨터의 출현과 상용화는 곧 '연산 비용의 하락'이었고, 구글은 '검색 비용 하락'의 일등 공신이다). 2장에 '쇼핑 후 배송'에서 '배송 후 쇼핑(또는 반품)'으로의 전환을 설명한 대목이 인상 깊어 큰 기대를 가졌는데, 생각해보니 물리적 상점들이야말로 늘 고객의 집단적 수요를 예측하고는 있다(아마존은 2013년에 예측 배송anticipatory shipping에 관한 특허를 받았다 https://patents.google.com/patent/US8615473B2 ). 아무튼 (아주 살짝 용두사미가 된 감이 없지는 않지만) 흥미로운 통찰이 많다.

예측은 지금 가진 정보(데이터)를 활용하여 가지고 있지 않은 정보(빠진 정보)를 채우는 과정이다. 예측 비용이 떨어진다는 것은 더 많은 예측이 일어난다는 것이다. 원래 예측의 영역이 아니었던 곳에서도 예측이 활용된다. Kathryn Howe는 어떤 문제를 예측 문제로 재구성하는 능력을 'AI Insight'라고 불렀다(29, 61, 228쪽). 의사 결정의 질도 꾸준히 향상된다.

예측 비용이 떨어져 기계 예측이 많아질수록 인간이 하는 예측(대체재)의 가치는 떨어지지만, 판단(judgment), 데이터(data), 행동(action) 등 의사 결정의 다른 요소들은 여전히 인간의 영역으로 남아 있고, 이들 보완재(complements)에 대한 수요는 증가한다고도 한다(109, 225, 226쪽). (기계)예측에 대한 수요가 늘어날 때 함께 수요가 늘어난다는 견지에서 보완재이다(31쪽).

'트레이드오프'도 중요하다.

데이터가 많다는 것은 프라이버시가 줄어든다는 뜻이다. 속도가 빠르다는 것은 정확도가 떨어진다는 뜻이다. 자동화된다는 것은 통제가 줄어든다는 뜻이다. - 17쪽

사회적 차원에서는 '생산성 대 분배', '혁신 대 경쟁', '성능 대 프라이버시'의 트레이드오프가 있다(19장).

그나저나...

"방증"이라고 써야 할 곳에 "반증"이라고 잘못 쓰시는 분이 너무 많다. 학문하신다는 분들이 이것을 잘못 쓰면 정확한 뜻을 모른 채 멋을 내려고 다른 사람의 표현을 흉내내는 것처럼 느껴져서 좀 깬다.

91쪽

"예측에는 항상 신뢰 구간이 따라붙는데 이는 예측이 부정확하다는 반증이다."

표준국어대사전 정의를 보자.

방증(傍證): 사실을 직접 증명할 수 있는 증거가 되지는 않지만, 주변의 상황을 밝힘으로써 간접적으로 증명에 도움을 줌. 또는 그 증거.

반증(反證): 1. 명사 어떤 사실이나 주장이 옳지 아니함을 그에 반대되는 근거를 들어 증명함. 또는 그런 증거. 2. 명사 어떤 사실과 모순되는 것 같지만, 거꾸로 그 사실을 증명하는 것.

'신뢰 구간의 존재'가 '예측이 정확하다'에 대한 반대 증거라고 볼 수는 없을 것이다.

원문에는 다음과 같이 쓰여 있다. '예측에 따라붙는 신뢰 구간은 예측이 엄밀하지 않음을 보여준다' 정도면 어땠을까.

The prediction comes with a confidence range that reveals its imprecision.

벌써 절판되기에는 아까운 책이다.

개정판에 대한 번역서가 다시 나오면 좋겠다.

아래는 참고 단행본 목록이다. Tim Harford의 책들은 진지하게 관심 갖지 않았는데, "Undercover Economist Strikes Back"(『당신이 경제학자라면』)이 인용되어 있기에 찾아보았다. 번역 제목 덕에 꽤 팔렸을 것으로 보이는 『경제학 콘서트 1, 2』(원제는 각각 "Undercover Economist", "The Logic of Life"이다)가 2023년에 새로 나온 줄은 몰랐다. 재미를 좀 보셨는지 "Dear Undercover Economist: Priceless Advice on Money, Work, Sex, Kids, and Life's Other Challenges"도 국내에서는 『경제학 카운슬링』이라는 제목으로 나왔다.

이제는 오래된 문서가 되었지만, 책에 언급된 오바마 행정부 백악관 보고서 네 편

(1) Jason Furman, “Is This Time Different? The Opportunities and Challenges of Artificial Intelligence” (remarks at AI Now, New York University, July 7, 2016), https://obamawhitehouse.archives.gov/sites/default/files/page/files/20160707_cea_ai_furman.pdf

(2) Executive Office of the President, “Artificial Intelligence, Automation, and the Economy,” December 2016, https://obamawhitehouse.archives.gov/sites/whitehouse.gov/files/documents/Artificial-Intelligence-Automation-Economy.pdf

(3) Executive Office of the President, National Science and Technology Council, and Committee on Technology, “Preparing for the Future of Artificial Intelligence,” October 2016, https://obamawhitehouse.archives.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/preparing_for_the_future_of_ai.pdf

(4) National Science and Technology Council and Networking and Information Technology Research and Development Subcommittee, “The National Artificial Intelligence Research and Development Strategic Plan,” October 2016, https://obamawhitehouse.archives.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/national_ai_rd_strategic_plan.pdf

인공지능, 예측기계

댓글(0) 먼댓글(0) 좋아요(16)

ｌ 공유하기 ｌ 북마크하기

찜하기 ｌ

이제 와서 읽을 필요가 크지 않은 책ｌinformatica (AI, IT, CS)

묵향 () l 2024-02-09 15:27

https://blog.aladin.co.kr/SilentPaul/15292066

240105 4. 파이널 인벤션(Our Final Invention), 제임스 배럿, 정지훈 옮김, 동아시아, 2016

1. 본인이 인공지능의 원리를 이해하지 못한다고, 혹은 대중이 이해하지 못할 것이라고 인공지능을 간편히 "블랙박스"로 치부해버리는 것은 선동에 가깝다. 예컨대 다음과 같은 대목이다.

유전자 알고리[듬]과 마찬가지로 인공신경망은 블랙박스 시스템이다. 즉 네트워크 가중치와 신경세포의 활성화라는 입력을 완전히 파악할 수 있다. 그리고 무엇이 출력인지도 안다. 그런데 그 사이에 어떤 일이 일어나는가? 누구도 제대로 이해하지 못한다. 인공지능 도구인 '블랙박스'의 출력에 대해서 제대로 예측된 적이 없다. 그러므로 이를 검증 가능하고 '안전'하다고 누구도 말하지 못한다. - 180쪽

그 사이에 어떤 일이 일어나냐고? 오차역전파(backpropagation)가 일어난다.

누구도 제대로 이해하지 못한다고? 오차역전파는 오차함수의 미분값(gradient, 기울기)을 계산하여 조정하는 과정이고, 그 과정에 연쇄법칙을 사용한다.

2013년에 나온 책이라 지금 읽기에는 현실과 동떨어진 이야기가 너무 많다.

AlexNet이 ILSVRC 대회에서 우승한 것이 2012년이니 이해하지 못할 바는 아니다.

역자도 적절하게 지적한 것처럼, 이를테면 다음과 같은 서술인데... 이제 컴퓨터는 인간의 이미지 인식 능력을 거뜬히 뛰어넘는다.

어떤 컴퓨터 시각 시스템도 두 살짜리 어린아이도 할 수 있는 개와 고양이는 구별하지 못한다. - 317쪽

닉 보스트롬의 말을 빌려 쓴 다음과 같은 서술이 더 진실에 가깝다고 본다. AI effect라고도 한다. https://en.wikipedia.org/wiki/AI_effect

옥스퍼드 대학교의 인류 미래 연구소(Future of Humanity Institute) 소장인 닉 보스트롬은 이렇게 말했다. "많은 최첨단 인공지능이 범용 애플리케이션으로 분류가 되지만, 이들 중 상당수는 인공지능이라 부르기 어렵습니다. 왜냐하면 일단 어떤 부분에 충분히 유용하고 많이 사용하면 더 이상 인공지능이라 불리지 않기 때문입니다." - 314쪽

2. 역자의 책들을 재미있게 읽었는데, 편집자의 잘못인지, 확신을 갖고 틀린 띄어쓰기를 하고 계신 부분이 여럿 발견된다. 이걸 보시게 될지는 모르겠지만, 책을 많이 내는 분이시니 몇 개만 써둔다.

261쪽. 인터넷 상에 → 인터넷상에 ["-상(上)"은 접미사이다.]

292쪽. 온라인 상의 → 온라인상의

433쪽. 있었는지 조차 → 있었는지조차 ["조차"는 보조사이다.]

287쪽. 그 다음으로 → 그다음으로 [이건 틀린 표기가 워낙 퍼져 있어서 이해가 가는 측면도 있지만, "그다음"은 하나의 단어이다. 표준국어대사전에도 "그다음으로"가 들어간 예문이 여럿 나온다.]

332쪽. 1960년 대 → 1960년대

348쪽. 접하지 못 하는 → 접하지 못하는

355쪽. 막지 못 한다는 → 막지 못한다는

357쪽. 예측하지 못 했던 → 예측하지 못했던

359쪽. 글쎄, 못 할 것이다. → 글쎄, [이해하지/감시하지] 못할 것이다.

[여기서 "못하다"는 동사 뒤에서 '-지 못하다' 구성으로 쓰이는 보조동사이다.]

3. 역자 주석 중에도 의아한 부분이 있다.

230쪽

"정신과 의사인 Elias Aboujaoude는 자신의 저서인 『Virtual You』[를] 통해 소셜 네트워크와 롤플레잉 게임이 나르시시즘*이나 이기주의와 같은 다양한 질병들을 불러오게 될 것이라고 경고했다."

위 문장 중 "나르시시즘"에 대하여 다음과 같은 주석을 다셨다.

"* 자기 육체에서 성적 흥분을 느끼는 현상을 말한다. 그리스 신화의 나르키소스와 연관해 독일의 정신과 의사 P. 네케(Paul Näcke)가 만든 용어"

뭐, 정신분석학적으로, 역사적으로야 그런 유래가 있지만, 여기서는 '자기애(自己愛)' 정도면 충분한 것 아닐까(뒤에 '이기주의'도 나오고). 굳이 주석이 필요한 용어인가도 싶다. 원문을 보니 위 문장은 "In his book, Virtually You, psychiatrist Elias Aboujaoude warns that social networking and role-playing games encourage a swarm of maladies, including narcissism and egocentricity."를 옮긴 것인데, "a swarm of maladies"를 "다양한 질병들"로 옮기시려다 보니 위와 같은 주석이 필요하다고 판단하셨는지도 모르겠다. '다양한 병리 현상(/병폐/문제)' 정도면 충분했을 것 같다. "egocentricity"도 '이기주의'보다는 '자기중심주의'가 더 나았을 것 같다.

296쪽

"Lexis/Nexis"에 대하여, "* 미국 미드데이터센트럴(Mead Data Central, MDC)이 1968년부터 제공해온 종합정보은행서비스. 최고의 역사와 전통을 자랑하는 사설 정보검색서비스이다."라는 주석을 달아두셨는데, 해당 사이트에 직접 접속해 보시면 금방 아시겠지만, '(Westlaw와 더불어) 최대의 법률정보서비스'라는 현재적 맥락이 완전히 빠져, 도움이 되지 않을뿐더러 오도하는 측면이 있는 주석이 된 것 같다.

4. 뒤늦게 정리해 보았다.

댓글(0) 먼댓글(0) 좋아요(13)

ｌ 공유하기 ｌ 북마크하기

찜하기 ｌ

침묵의 향기, 默香

리스트

마이리뷰

마이페이퍼

방명록

서재 태그

인과추론 스터디ｌinformatica (AI, IT, CS)

묵향 () l 2024-03-17 21:44

공유하기

그냥 기록 삼아...ｌinformatica (AI, IT, CS)

묵향 () l 2024-03-17 17:48

공유하기

반가운 알라딘 백엔드 엔지니어 채용공고ｌinformatica (AI, IT, CS)

묵향 () l 2024-02-19 00:18

공유하기

예측 기계ｌinformatica (AI, IT, CS)

묵향 () l 2024-02-12 01:59

공유하기

이제 와서 읽을 필요가 크지 않은 책ｌinformatica (AI, IT, CS)

묵향 () l 2024-02-09 15:27

공유하기

서재지수 : 125404점

오늘의 마이리스트