아는 만큼 보이는 생성형 AI - 챗GPT, 제미나이, 클로드, 클로바X, 달리, 미드저니, 스테이블 디퓨전, 수노, 유디오까지 한 권으로 보는 생성형 AI 기술과 트렌드 아는 만큼 보이는 시리즈 (길벗)
김주영 지음 / 길벗 / 2025년 7월
평점 :
장바구니담기


'예스24 리뷰어클럽 서평단 자격으로 도서를 제공받고 작성한 리뷰입니다'





생성형 AI를 알아보자






책을 선택한 이유


APEC 전 날 엔비디아 지포스 한국 출시 25주년 행사가 개최된다.


행사 뒤풀이로 열린 글로벌 대기업 CEO 들의 치맥 파티가 세간의 화제가 되고 있다.


젠슨 황, 이재용, 정의선 등 굴지의 IT, 자동차 기업의 타이쿤 들의 만남은

삼국지 도원결의의 장면을 연상하게 된다.


중앙일보의 11.3. 보도에 따르면 젠슨 황의 딸 메디슨 황 이

인공지능 AI 깐부 결성이라는 컨셉 을 가지고 철저히 기획한

행사임이 밝혀진다.


AI의 거대한 변혁은 점점 가시화 되고 있고 있으며,

치맥파티 는 한국이 AI 변화의 중심에 서 있음을 상징한다.


생성형 AI를 모른다면 미래를 살아갈 수 없음은 명백하다.

생성형 AI의 개요를 이해하기 위해 "아는 만큼 보이는 생성형 AI" 을 선택한다.





"아는 만큼 보이는 생성형 AI"는


1장 생성형 AI란 무엇인가

인간의 작업 방식을 변화시키는 AI


2장 생성형 AI로 발전하기까지의 과정

머신러닝부터 대형 언어 모델까지


3장 오픈AI의 대형 언어 모델, GPT

인간과 같은 범용적 능력을 가진 GPT


4장 생성형 AI의 한계와 해결 방법

직접 사용해보며 언어 모델 이해하기


5장 이미지/오디오 생성형 AI

그림도 그리고 음악도 만드는 AI의 진화


6장 AI와 함께하는 내일

기술의 발전에 따른 변화와 준비


로 구성되었다.





1장 생성형 AI란 무엇인가

인간의 작업 방식을 변화시키는 AI 에서는


생성형 AI는 데이터 분석을 넘어 새로운 콘텐츠 를 생성하며,

인간과 비슷한 수준의 창의적 결과물을 만들어낼 수 있다.


생성형 AI는 딥러닝 기술을 이용해 기존 데이터 를 분석하고,

새로운 콘텐츠 를 만들어내는 기술이다.


규칙 기반 시스템 은 복잡하고 유동적인 현실 문제를 해결하기에 부족하다.

머신러닝 은 데이터 의 특징을 스스로 학습하며, 데이터 안에서

패턴 을 찾아내는 방식으로 작동하는 기술이다.


딥러닝 은 인간의 뇌처럼 데이터 를 깊고 복잡하게 학습하는 기술이다.


머신러닝은 사람이 주의 깊게 고려해야 할 특징을 지정하지만,

딥러닝 은 스스로 데이터 에서 중요한 특징을 찾아낸다.


딥러닝 은 더욱 깊은 구조의 신경망을 이용해 데이터 를

깊고 복잡하게 학습하는 기술이다.


머신러닝 은 어떤 데이터 를 사용할지 데이터 의 어떤 특징을 사용할지

사람이 직접 정해줘야 한다.


딥러닝 은 AI 기술의 본격적 혁신을 이끈다.

자연스러운 이미지 를 생성하는 확산 모델 은

이미지 생성형 AI 대표 기술로 자리 잡는다.



AI란 인간의 사고방식과 학습 능력을 모방해 자동화하는 기술이며,

AI 모델 은 AI 실현을 위해 학습된 시스템이다.

AI 서비스 는 AI 모델을 이용해 사용자에게 직접 기능을 제공하는

애플리케이션 을 의미한다.


언어 생성형 AI는 대형 언어 모델 을 기반으로 인간처럼

글을 이해하고 작성할 수 있는 AI다.



이미지 생성형 AI는 텍스트 를 기반으로 이미지 를 생성하거나,

기존 이미지 를 변형하거나, 복잡한 이미지 작업을 수행하는 AI다.


오디오 생성형 AI는 빠른 속도로 발전하며 다양한 분야에서 관심을 모으고 있다.

대형 멀티모달 모델 은 다양한 정보를 동시에 이해하고 처리할 수 있는 AI 모델 이다.



생성형 AI는 개발자를 도와주는 강력한 도구다.

창의력과 판단력을 지닌 인간의 역할을 보완하고 강화하는 보조 장치다.




2장 생성형 AI로 발전하기까지의 과정

머신러닝부터 대형 언어 모델까지 에서는


규칙 기반 시스템은 규칙을 사람이 프로그래밍 하는 방식이다.


통계적 패턴 인식은 여러 특징을 조합하고 경계선을 찾아가는 과정이다.

과적합은 새로운 데이터 에 대해서는 잘 작동하지 않는 현상을 말한다.


머신러닝 은 데이터 를 기준으로 스스로 규칙과 패턴 을 찾아내는 기술이다.

사용자가 제공한 특징을 바탕으로 패턴 을 발견하고 다차원적 경계선을 설정한다.


서포트 백터 머신, SVM은 경계선을 그릴 때 두 집단 간의 간격을 최대화한다.

k-최근접 이웃 알고리즘, k-NN은 경계선을 그리지 않은 채, 가장 가까운 이웃을 확인해

다수결로 분류하는 방식이다.


딥러닝 은 데이터 를 분석해 중요한 특징을 스스로 찾아낸다.


퍼셉트론 은 뇌의 뉴런 작동 원리를 모사한 최초의 인공 신경망 모델 이다.

XOR 문제를 해결할 수 없는 구조적 한계로 AI 연구는 긴 침체기를 겪는다.


다층 퍼셉트론 으로 XOR 문제를 해결하고, 컴퓨터 성능 발전,

데이터 의 폭발적 증가로 오늘날의 딥러닝이 탄생된다.


딥러닝 은 인간이 일일이 특징을 골라주지 않아도 AI가 중요한 특징을

찾아내 학습하는 기술이다.


딥러닝 은 무작위로 답을 내놓고, 연구자가 답을 알려주면,

AI는 틀린 답을 정확한 방향으로 수정하면서 스스로 특징을 발견한다.


딥러닝 의 가장 큰 혁신은 AI가 스스로 데이터 를 배우고 판단한다.

딥러닝 은 일상과 업무 환경을 완전히 변화시키고 있다.


합성곱 신경망, CNN은 시각 데이터 처리에 매우 효과적이다.


딥러닝 모델 은 대량의 데이터 를 학습하고, 복잡한 연산을 통해 결과를 도출한다.

설명 가능성 문제, 높은 연산 비용은 해결해야 할 과제다.



순환 신경망의 경우 문장이 길어질수록 앞에 나온 단어를 잊어버리는 경우가 많다.


트랜스포머 모델 은 인코더 와 디코더 가 긴밀하게 협력해 문장을 이해하고 생성하면서

문장 전체를 동시에 바라보고 분석한다.


어탠션 메커니즘 은 중요한 정보를 선택적으로 집중하면서,

문장 전체의 의미를 빠르고 정확하게 이해해 핵심 정보만 효율적으로 처리한다.


멀티헤드 어텐션 은 단어 간의 관계를 파악한다.


트랜스포머 는 위치 정보 인코딩 으로 단어가 지닌 기본적 의미뿐만 아니라,

문장에서 정확히 몇 번째에 위치하는지에 대한 추가 정보를 전달한다.


트랜스포머 는 언어 처리에만 국한되지 않고, 다양한 분야로 빠르게 확장된다.



대형 언어 모델 은 방대한 양의 데이터 를 학습해 다음에 나올 단어를 예측한다.


언어 모델 은 다음에 나올 단어를 예측하는 AI 모델 의 한 종류다.


그리디 서치 는 확률이 높은 단어를 선택하는 방식이다.

빔 서치 는 여러 개의 후보를 동시에 고려해 가장 좋은 문장을 찾아낸다.

온도 샘플링은 창의성과 안정성 사이의 균형을 임의로 조절한다.


Top-k 샘플링 은 k개의 단어 후보를 추려낸 후 무작위로 한 단어를 선택한다.

Top-p 샘플링 은 상황에 따라 유연하게 단어를 선택한다.




3장 오픈AI의 대형 언어 모델, GPT

인간과 같은 범용적 능력을 가진 GPT 에서는


사전 학습된 생성형 트랜스포머, GPT는 방대한 데이터 를 학습한 후

스스로 문장을 자연스럽게 생성해내는 트랜스포머 기반 AI 모델 이다.


GPT-1은 사전 학습이라는 새로운 방식으로 언어 모델 의 성능을 향상한다.

GPT-2는 풍부한 데이터 를 학습시키는 방향으로 연구를 이어간다.

GPT-3는 방대한 양의 데이터 를 학습하고, 새로운 작업을 빠르게 습득한다.


프롬프트 엔지니어링 은 특정 작업을 더 잘할 수 있도록 명확한 예시와

지시 사항을 제시해 원하는 결과를 얻는 기술이다.


GPT-3.5는 사용자 피드백 기반 강화 학습을 추가하면서,

AI가 좋은 답변을 정확히 파악할 수 있다.


GPT-3.5 모델을 기반으로 한 챗GPT는 사용자의 의도를

정확히 파악해 대화할 수 있다.


GPT-4는 다양한 형태의 정보를 동시에 처리할 수 있는 멀티모달 모델 이다.


GPT-4o는 텍스트 로 질문을 받으면 음성으로 답하거나, 그림을 보고 설명할 수 있다.

정보를 종합해 논리적 사고까지 할 수 있다.


오픈AI o1은 신중하고 체계적인 생각의 연쇄를 통해 복잡한 추론 과정을 거쳐 답변한다.


GPT 시리즈 는 일반 인공지능 목표를 향해 나아가고 있다.


언어 모델 의 성능을 정확도로만 평가하기에는 한계가 있다.

벤치마크 데이터 세트 는 미리 정리해놓은 평가용 데이터 다.



4장 생성형 AI의 한계와 해결 방법

직접 사용해보며 언어 모델 이해하기 에서는


챗GPT는 인터넷 의 방대한 데이터 를 학습한 대형 언어 모델 기반 챗봇 이다.

회원 가입, 기본적 사용법을 설명한다.


제미나이 는 구글이 트랜스포머 를 기반으로 학습한 AI 모델 이다.


클로드 는 앤트로픽 이 개발한 생성형 AI 서비스 로 긴 문장이나 긴 문서

처리에 특히 뛰어나고, 복잡한 작업에 정확하고 유용한 답변을 제공한다.


네이버가 개발한 클로바 X AI, 메카 가 개발한 라마 AI,

AI 연구 공유 공간 허깅페이스 등을 소개한다.


생성형 AI는 맥락 이해가 부족하며, 데이터 편향성 문제가 있다.

환각 현상은 완전히 잘못된 정보다.


생성형 AI는 상황에 따라 다른 답변을 생성하면서 모순된 이야기를 하기도 한다.

윤리적 문제는 사회적 책임과 법적 문제로까지 확대될 수 있다.



프롬프트 엔지니어링 은 생성형 AI에게 내리는 지시나 질문을 최적화하는 기술이다.


예시 보여주기는 원하는 형식으로 답변하도록 예시 답변을 제공한다.

생각의 연쇄는 문제를 해결하기 위한 중간 단계와 사고 과정을 보여달라고 요청하는 방법이다.


검색으로 강화된 생성, RAG는 사용자의 질문에 대해 외부의 신뢰할 수 있는

지식 데이터베이스 를 참조하는 기술이다.



프롬프트 엔지니어링 과 RAG는 생성형 AI의 한계를 극복하는 방법이다.

최신 AI 모델 은 양질의 데이터 학습하는 방법을 활용한다.


문제를 작은 단계로 나눠 차근차근 풀어나가는 능력은

AI가 보다 정확한 답변을 제공하고 환각 현상을 줄이는 데 도움이 된다.



생성형 AI로 보고서를 작성하고, 신뢰성 한계를 보완하는 방법,

문자와 이메일 을 작성하고, 상황에 맞게 수정하는 방법을 실습해 본다.




5장 이미지/오디오 생성형 AI

그림도 그리고 음악도 만드는 AI의 진화 에서는


생성형 AI는 누구나 쉽게 이미지 를 만들 수 있게 한다.


달리 는 오픈AI에서 개발한 이미지 생성형 AI로 대중화의 포문을 연다.

챗GPT에서 바로 이용 가능하다.


제미나이 는 멀티모달 AI로 구글 계정이 있으면 손쉽게 이용 가능하다.

미드저니 는 디스코드 플랫폼 을 통해 서비스 되며 뛰어난 표현력이 특징이다.


스테이블 디퓨전 은 대표적 오픈 소스 모델 이다.


이미지 생성형 AI는 멀티모달 입력 지원, 고품질 렌더링,

일관성 유지 측면에서 괄목할 만한 성장을 보인다.


확산 모델은 흐릿한 안개 속에서 점점 뚜렷한 형태가

드러나는 과정과 유사한 방식으로 이미지 를 생성한다.


미리 학습한 방대한 이미지 정보를 기반으로, 요청을 받으면

무작위 노이즈 에서 출발해 점차 명확한 형태를 찾아가는 방식으로

이미지 를 생성한다.


이미지 생성형 AI는 광고 분야에서 소비자의 관심을 끄는 데 사용되며,

패션 및 디자인 업계에도 영향을 미치고 있다.


언어 생성형 AI로 동화 스토리 를 작성하고, 이미지 생성형 AI로

그림 동화의 삽화를 그리면서 프롬프트 작성법을 실습해 본다.



오디오 생성형 AI 서비스 가 출시돼 취향에 따라 사용할 수 있다.


뮤직LM은 구글이 공개한 모델 로 텍스트 로 음악을 생성한다.

오디오크래프트 는 오디오 생성에 특화된 메타 의 AI 플랫폼 이다.


스테이블 오디오 는 스태빌리티AI에서 출시한 확산 모델 적용 서비스 다.


수노 는 사용자가 입력한 가사로 노래를 만들거나 오디오 파일을 업로드하면

곡을 확장해 준다.


유디오 는 음악적 지식이 없는 사용자도 손쉽게 자신만의 음악을 만들 수 있도록 설계된다.


1950년대부터 컴퓨터 로 음악을 만들려는 시도가 있었지만,

2020년대에 들어서면서 오디오 생성형 AI 기술이 급속도로 발전한다.


오디오 생성형 AI 기술은 음악 산업뿐 아니라 영화, 광고, 교육 등

다양한 분야에서 활용된다.


AI는 많은 음악의 특징과 규칙을 기억한 다음 자연스럽고 듣기 좋은 음악을 만든다.


방대한 데이터를 통해 음악의 패턴 과 규칙을 파악하며,

충분한 학습을 마친 AI는 사용자의 요청에 따라 음악을 만든다.


언어 생성형 AI의 트랜스포머 모델 과 이미지 생성형 AI 확산 모델 이

오디오 생성형 AI에 적용되면서, 인간과 구분하기 어려운 수준으로 발전하고,


광고 마케팅 분야, 영화 미디어 분야 등에서 활발히 사용되고 있다.



오디오 생성형 AI를 활용해 원하는 분위기의 음악을 만드는 프롬프트 작성법을 실습해 본다.



6장 AI와 함께하는 내일

기술의 발전에 따른 변화와 준비 에서는


기술의 발전은 일자리를 없애기보다 변화시키는 방향으로 흘러간다.


반복적이고 시간을 소모하는 작업은 AI로 자동화 되고,

AI로 일하는 방식이 요구하는 기술과 역량이 달라질 것이다.


AI 시대에는 이전에 없던 새로운 직업이 등장할 것이다.


생성형 AI는 빠르게 진화하고 있다.


반복적이고 자동화가 가능한 직무에서 벗어나

자신만의 강점을 살릴 수 있는 영역의 역량을

발전시키는 것이 바람직하다.



AI와 인간의 협업은 현재 진행형이다.


음성 AI는 다양한 감정과 억양을 표현하며,

교육 및 정보 전달 채널에서 콘텐츠 제작에 활용하고 있다.


교육 분야에서는 지식 전달 및 문제 해결 과정에서

기본적 학습 지원에 뛰어난 조력자가 도리 수 있다.


바이브 코딩 은 자연어로 문제를 설명하면 대규모 언어 모델이

코드 를 자동으로 생성해주는 프로그래밍 기법이다.


AI 에이전트 는 자율적으로 목표를 설정하고 다양한 도구를 활용해

작업을 수행하는 지능형 소프트웨어 시스템 이다.



AI가 발전할수록 인간의 고유 강점을 발전시키는 것이 중요하다.


인간의 지식과 판단에 따라 결정해야 한다.

AI는 사고를 확장하고 보완하는 데 도움을 주는 도구일 뿐이다.


AI의 원리와 한계를 명확히 아는 것은 AI 시대를 주도적으로

살아가기 위한 필수 조건이다.


"아는 만큼 보이는 생성형 AI"는 생성형 AI의 개요,

생성형 AI의 발전 과정, 범용 언어 모델 GPT,

생성형 AI, 이미지/오디오 생성형 AI,

AI의 미래 전망을 다룬다.


생성형 AI는 딥러닝 기술을 이용해 기존 데이터 를 분석하고,

새로운 콘텐츠 를 만들어내는 기술이다.


딥러닝 은 인간의 뇌처럼 데이터 를 깊고 복잡하게 학습하는 기술이다.

딥러닝 은 AI 기술의 본격적 혁신을 이끈다.


AI란 인간의 사고방식과 학습 능력을 모방해 자동화하는 기술이며,

AI 모델 은 AI 실현을 위해 학습된 시스템이다.


언어 생성형 AI는 대형 언어 모델 을 기반으로 글을 이해하고 작성한다.

이미지 생성형 AI는 이미지 를 생성, 변형하거나, 복잡한 이미지 작업을 수행한다.

대형 멀티모달 모델 은 다양한 정보를 동시에 이해하고 처리할 수 있다.


머신러닝 은 데이터 를 기준으로 스스로 규칙과 패턴 을 찾아내는 기술이다.

사용자가 제공한 특징을 바탕으로 패턴 을 발견하고 다차원적 경계선을 설정한다.


딥러닝 은 인간이 일일이 특징을 골라주지 않아도 AI가 중요한 특징을

찾아내 학습하는 기술이다.


트랜스포머 는 위치 정보 인코딩 으로 단어가 지닌 기본적 의미뿐만 아니라,

문장에서 정확히 몇 번째에 위치하는지에 대한 추가 정보를 전달한다.


트랜스포머 는 언어 처리에만 국한되지 않고, 다양한 분야로 빠르게 확장된다.



대형 언어 모델 은 방대한 양의 데이터 를 학습해 다음에 나올 단어를 예측한다.


사전 학습된 생성형 트랜스포머, GPT는 방대한 데이터 를 학습한 후

스스로 문장을 자연스럽게 생성해내는 트랜스포머 기반 AI 모델 이다.


프롬프트 엔지니어링 은 특정 작업을 더 잘할 수 있도록 명확한 예시와

지시 사항을 제시해 원하는 결과를 얻는 기술이다.


챗GPT는 인터넷 의 방대한 데이터 를 학습한 대형 언어 모델 기반 챗봇 이다.

회원 가입, 기본적 사용법을 설명한다.


프롬프트 엔지니어링 은 생성형 AI에게 내리는 지시나 질문을 최적화하는 기술이다.


검색으로 강화된 생성, RAG는 사용자의 질문에 대해 외부의 신뢰할 수 있는

지식 데이터베이스 를 참조하는 기술이다.


프롬프트 엔지니어링 과 RAG는 생성형 AI의 한계를 극복하는 방법이다.



이미지 생성형 AI는 멀티모달 입력 지원, 고품질 렌더링,

일관성 유지 측면에서 괄목할 만한 성장을 보인다.


이미지 생성형 AI는 광고 분야에서 소비자의 관심을 끄는 데 사용되며,

패션 및 디자인 업계에도 영향을 미치고 있다.



오디오 생성형 AI 서비스 가 출시돼 취향에 따라 사용할 수 있다.


오디오 생성형 AI 기술은 음악 산업뿐 아니라 영화, 광고, 교육 등

다양한 분야에서 활용된다.


AI는 방대한 데이터를 통해 음악의 패턴 과 규칙을 파악하며,

충분한 학습을 마친 AI는 사용자의 요청에 따라 음악을 만든다.


오디오 생성형 AI는 광고 마케팅 분야, 영화 미디어 분야 등에서

활발히 사용되고 있다.



기술의 발전은 일자리를 없애기보다 변화시키는 방향으로 흘러간다.


반복적이고 시간을 소모하는 작업은 AI로 자동화 되고,

AI 시대에는 이전에 없던 새로운 직업이 등장할 것이다.



AI와 인간의 협업은 현재 진행형이다.


AI 에이전트 는 자율적으로 목표를 설정하고 다양한 도구를 활용해

작업을 수행하는 지능형 소프트웨어 시스템 이다.


AI가 발전할수록 인간의 고유 강점을 발전시키는 것이 중요하다.


AI는 사고를 확장하고 보완하는 데 도움을 주는 도구일 뿐이다.

AI의 원리와 한계를 명확히 아는 것은 AI 시대를 주도적으로

살아가기 위한 필수 조건이다.



디지털 기술의 발전 과정에서 사람들의 많은 기대를 받았지만

흐지부지 사라진 기술들이 많다.


AI도 기대 이하의 성능으로 많은 사람들을 실망시킨 적이 있다.


컴퓨터 성능의 발전과 딥러닝 기술의 발전으로

인공지능 기술은 괄목한 성장을 보인다.


AI는 찻잔 속 태풍이 아니다.


빅테크 기업들의 인력 구조조정이 일어나고 있으며,

산업 전반에서 AI가 인간의 역할을 빠르게 대처하면서,

인간이 설 자리는 점점 더 좁아지고 있다.


젠슨 황 은 AI가 대체할 수 없는 전기기술자·배관공·목수 등

전통 기술 인력이 주요 일자리를 차지할 것이라고 전망한다.


AI가 주도하는 변화는 피부로 느낄 수 있을 만큼

빠르게 다가오고 있다.


단순 반복적인 작업을 AI가 효과적으로 처리하게 되면서,

기업들은 신입사원을 더 이상 필요로 하지 않는다.


전문성과 경험이 있는 사람들은 AI를 사용하여,

혼자서 수많은 일들을 처리하고 있는 것이 현실이다.



"아는 만큼 보이는 생성형 AI"는 AI 기술을 전반적으로 이해하고,,

생성형 AI, 이미지/오디오 생성형 AI 사용을 알아본다.


생성형 AI로 보고서를 작성하고, 신뢰성 한계를 보완하며,

문자와 이메일 을 작성하고, 상황에 맞게 수정하고,


언어 생성형 AI로 동화 스토리 를 작성하고, 이미지 생성형 AI로

그림 동화의 삽화를 그리면서 프롬프트 를 작성하며,


오디오 생성형 AI를 활용해 원하는 분위기의 음악을 만드는

프롬프트 작성법 등을 실습해 보면서, AI 활용 방법을 이해하게 된다.



AI 기술의 등장으로 사회는 급변하고 있다.


AI는 선택의 대상이 아니라 필수다.

AI 활용 능력이 경쟁력을 좌우하게 되는 상황에서,

AI에 대한 이해도를 높이고 실무에 활용해야 한다.



"아는 만큼 보이는 생성형 AI"는 AI 기술에 대한 이해와

주요 AI를 실습하면서, AI 시대에 대응할 수 있도록 한다.


길벗 과 리뷰어클럽 서평단에서

"아는 만큼 보이는 생성형 AI"를 증정해주셨다.

감사드린다.


#길벗 #리뷰어클럽 #리뷰어클럽서평단 #서평 #아는만큼보이는생성형AI

#챗GPT #제미나이 #클로드 #클로바X #달리 #미드저니 #스테이블디퓨전 #수노 #유디오

#한권으로보는생성형AI기술과트렌드


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo