All Around AI – SK hynix Newsroom

[All Around AI 6편] 생성형 AI의 개념과 모델

고려대학교 인공지능학과 김동현 교수 — Thu, 17 Oct 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서는 스마트폰과 온디바이스(On-device) AI의 미래에 대해 알아보았습니다. 이번 회차에서는 AI 기술 혁신의 중심에 있는 생성형 AI의 개념과 모델에 관해 살펴보겠습니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

생성형 AI의 개념

생성형 AI는 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 기술이다. 여기서 ‘새로운 데이터’란 학습한 데이터와 유사한 속성을 가지면서도 독창적인 결과물을 말한다. 예를 들면, 생성형 AI는 ‘한 마디의 서정적 멜로디’를 학습 데이터 삼아 ‘서정적인 곡’을 만들 수 있고, 배우의 음성을 학습하여 다른 언어로 재현할 수 있다. 이처럼 생성형 AI는 이미지, 음성, 텍스트 등 다양한 분야에서 인간의 창의성을 반영한 콘텐츠를 생성할 수 있다는 점에서 큰 잠재력을 지닌다.

생성형 모델의 학습 방식

▲ 판별 모델과 생성 모델의 학습 방식 차이. 왼쪽은 판별 모델이 조건부 확률을 통해 분류하는 방식을, 오른쪽은 생성 모델이 데이터 자체의 확률 분포를 학습하는 방식을 보여준다.

생성형 AI 모델(Generative Model)의 특징은 판별 AI 모델(Discriminative Model)과의 차이를 통해 더 명확히 이해할 수 있다. 기존 AI 모델(판별 AI 모델)은 학습 데이터를 기반으로 새로운 데이터에 대한 결과를 예측한다. 즉 조건부 분포 ?(?∣?)* 를 학습해 입력한 X가 클래스 Y에 속할 가능성을 계산하는 것이다.

* ?(?∣?): 주어진 X가 있을 때 Y가 발생할 확률

예를 들어, 고양이와 강아지 두 클래스를 분류하는 모델이 있다고 가정해 보자. 이 모델은 학습된 데이터와 라벨(Label) 간의 경계를 학습하여, 입력된 이미지 X가 고양이인지 강아지인지를 확률적으로 출력한다. 그러나 여기서 문제가 발생할 수 있다. 만약 새로운 이미지가 학습 데이터에 없던 원숭이 이미지라면, 이 모델은 여전히 그 이미지를 고양이나 강아지로 분류하려고 할 것이다. 즉 판별 AI 모델은 학습 데이터와 다른 새로운 유형의 데이터에 대해 적절한 출력물을 내지 못할 가능성을 보여준다.

반면, 생성형 AI 모델은 학습 데이터를 바탕으로 데이터 자체의 확률 분포 ?(?)*를 학습하는 데 중점을 둔다. 가령 고양이 이미지를 학습하는 생성형 AI 모델은 고양이 이미지가 가질 수 있는 다양한 특징들(예: 고양이의 생김새, 색상, 자세, 배경 등)에 대한 확률 분포를 학습하는 식이다. 특히 라벨 사용이 필수인 판별 AI 모델과 달리, 생성형 AI 모델은 라벨 없이 데이터 학습이 가능하다. 예를 들어 이미지 데이터를 학습할 때는 이미지 자체만을 사용하고, 언어 모델의 경우 텍스트만으로 학습할 수 있다. 그래서 생성형 AI 모델은 대규모 데이터를 활용한 학습이 가능하다.

* ?(?): 조건 없이 특정 데이터 X가 발생할 확률

생성형 모델은 모든 데이터가 경쟁하며 그 확률을 예측한다. 이 과정에서 학습 데이터와 크게 다르거나 새로운 유형의 데이터를 낮은 확률로 예측하게 되며, 이를 통해 이상치(Outlier) 등을 예측하는 데 사용할 수 있다.

생성형 AI의 원리

생성형 AI는 새로운 데이터를 생성하기 위해, 기존 데이터를 학습하여 데이터의 분포를 파악하는 ‘학습 단계’와 이를 기반으로 새로운 데이터를 생성하는 ‘샘플링 및 생성 단계’를 거친다. 아래에서는 몇 가지 예시를 통해 대표적인 방법을 살펴보고자 한다.

(1) 잠재 변수 모델 (Latent Variable Models)

생성형 AI 모델은 데이터를 생성할 때, ‘잠재 변수’라는 개념을 사용한다. 잠재 변수는 데이터로부터 직접적으로 관찰되지 않지만, 생성형 모델을 통해 학습할 수 있으며, 이 정보를 활용하여 새로운 데이터를 생성할 수 있다. 예를 들어 사진 속 사람의 얼굴을 생성할 때, 그 사람의 눈, 코, 입의 위치와 얼굴 모양을 결정하는 것이 바로 잠재 변수다. 즉, 잠재 변수는 복잡한 데이터 분포를 단순화하고 데이터의 구조를 이해하여 맥락과 스타일을 갖춘 새로운 데이터를 생성하는 데 중요한 역할을 한다. 다음은 잠재 변수를 활용하여 데이터를 생성하는 대표적인 모델이다.

▲ 잠재 변수를 활용하는 대표적인 모델들. x는 입력, z는 잠재 변수를 뜻한다(출처: )

1) Generative Adversarial Networks (GANs)

GANs는 생성기(Generator)와 판별기(Discriminator)가 경쟁적으로 학습하여 기존의 데이터와 유사한 새로운 데이터를 생성하는 모델이다. 먼저 생성기는 무작위로 선택된 잠재 변수(z)를 사용해 가짜 데이터를 생성하고, 판별기는 생성기가 만든 가짜 데이터와 실제 데이터를 구별하도록 훈련한다. 이 두 네트워크는 상호 경쟁하며 학습을 진행하고, 그 결과 생성기는 점점 더 실제 데이터와 유사한 데이터를 생성하게 된다.

2) Variational Autoencoders (VAEs)

VAEs는 인코더(Encoder)와 디코더(Decoder)로 구성된 모델이다. 인코더는 고차원의 입력 데이터를 저차원의 잠재 변수(z)로 변환하고, 디코더는 이 잠재 변수를 다시 원래의 고차원 데이터로 복원하여 새로운 데이터를 생성한다. 인코더는 잠재 변수의 평균과 표준 편차를 예측하며, 이를 바탕으로 잠재 변수를 정규 분포에서 샘플링하여 출력한다. 이 과정을 통해 VAEs는 데이터의 저차원 표현을 학습하게 된다.

3) 확산 모델 (Diffusion Model)

확산 모델은 데이터에 노이즈를 추가하고 다시 복원하는 방식으로 새로운 데이터를 생성한다. 이 과정은 순방향 확산(Forward Diffusion)과 역방향 확산(Reverse Diffusion)을 통해 이루어진다. 순방향 확산에서는 데이터를 점진적으로 노이즈화하여, 원래의 입력 데이터(x0)를 완전히 노이즈화된 상태(xT)로 변환한다. 이후 역방향 확산에서 이 노이즈화된 상태를 단계적으로 원래의 입력 데이터와 유사한 새로운 데이터로 복원한다. 이 과정은 여러 번 반복되며 특히 이미지 생성에 유리하다. 최근에는 Latent Diffusion Model(LDM)span style=”color: red;”>*처럼 확산 모델과 VAE를 결합해 고품질의 이미지를 생성하기도 한다.

* Latent Diffusion Model(LDM): 인코더를 통해 실제 픽셀 공간이 아닌 잠재 공간에서 확산 작업을 수행하여, 빠르게 학습 및 이미지를 생성하는 모델

▲ LDM을 기반으로 개발한 Stable Diffusion (출처: stability.ai )

(2) 자기회귀 모델(Autoregressive Model)

자기회귀 모델은 과거에 입력한 데이터를 기반으로 미래의 값을 예측하는 모델이다. 이 모델은 시간 이나 순서에 따라 나열된 시퀀스 데이터 간의 확률적 상관관계를 분석하여 예측을 수행한다. 현재 값이 과거 값에 의존한다고 가정하기 때문에, 날씨나 주가 예측 뿐만 아니라 텍스트 데이터 예측에도 활용될 수 있다. 예를 들어, 여러 영어 문장을 학습한 자기회귀 모델이 ‘I’ 다음에 ‘am’이 자주 오는 패턴을 발견하면, ‘I am’이라는 새로운 시퀀스를 생성할 수 있다.

자기회귀 모델은 고품질의 생성물을 출력하지만, 이전 시퀀스에 의존해 한 단계씩 순차적으로 생성하기 때문에 병렬로 출력물을 생성할 수 없다는 단점이 있다. 그리고 이로 인해 생성 속도가 느릴 수 있다.

▲ Masked Self-Attention을 이용한 자기회귀 모델 예시. 현재까지 나온 단어 ‘I am a’를 기반으로 다음에 올 단어 ‘student’를 예측한다.

1) 언어 생성을 위한 자기회귀 모델

초기 언어 생성 모델(Language Recurrent Model)은 순환 신경망(Recurrent Neural Network, RNN)을 기반으로 했다. RNN은 텍스트나 음성 같은 시퀀스 데이터를 처리하는 데 적합하며, 이전 단계의 정보를 고려해 현재 단계의 출력을 생성함으로써 데이터 간의 관계를 파악한다. 그러나 RNN 모델은 시퀀스가 길어질수록 성능이 저하되는 장기 의존성(Long-Term Dependency) 문제*를 겪는다. 이를 해결하기 위해 최근에는 트랜스포머(Transformer)*와 같은 Self-Attention* 기법이 사용되고 있다.

* 장기 의존성(Long-Term Dependency) 문제: 시퀀스가 길어질수록 과거의 정보를 점점 잊어버리는 현상. 이로 인해 모델은 긴 시퀀스에서 예측 성능이 저하되는 문제를 겪는다.
* 트랜스포머(Transformer): 자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 딥러닝 모델이다.
* Self-Attention: 데이터의 각 요소가 다른 요소들과 얼마나 관련이 있는지를 계산하여, 문맥을 더 잘 이해하고 출력을 생성할 수 있다. 예를 들어 ‘The cat sat on the mat’에서 ‘cat’이 ‘sat’과 얼마나 관련 있는지를 계산해, 문장의 의미를 더 잘 이해하도록 돕는 식이다.

특히, ‘Masked Self-Attention’ 기법을 통해 미래의 시퀀스를 보지 않도록 마스킹을 적용하여, 이전 시퀀스와의 관계만을 파악해 중요한 정보에 가중치를 부여한다. 이를 통해 모델은 과거 정보만을 바탕으로 다음 출력을 생성하게 되며, 긴 시퀀스에서도 중요한 정보를 잃지 않고 처리할 수 있어 정확한 예측이 가능하다. 이 방식은 RNN이 긴 시퀀스를 처리할 때 겪는 장기 의존성 문제를 해결하는 데 효과적이다.

2) 이미지 생성을 위한 자기회귀 모델

이미지 생성 모델인 PixelCNN은 이미지를 순차적으로 한 픽셀씩 생성하며, 각 픽셀은 이전에 생성된 픽셀들에 따라 결정된다. PixelCNN은 합성곱 신경망(Convolutional Neural Network)을 사용하며, Masked Convolution 기법을 통해 현재 생성 중인 픽셀이 이후에 생성될 픽셀에 영향을 주지 않도록 한다. 이는 언어 모델에 사용되는 Masked Self-Attention 기법과 비슷한 원리이다. PixelCNN은 픽셀 간의 복잡한 관계를 잘 포착해 고해상도의 이미지를 생성하는 데 뛰어난 성능을 발휘한다.

최근에는 LlamaGen과 같은 모델이 언어 모델에서 이용되는 트랜스포머를 이용해 이미지 생성 모델을 구현했다. 텍스트의 토크나이저(Tokenizer)* 대신 새로운 이미지 토크나이저를 제시하여 디퓨전(Diffusion) 모델*에 사용되는 VAE 등의 토크나이저보다 더 좋은 품질과 효율적으로 이미지를 생성할 수 있다.

* 토크나이저(Tokenizer): 텍스트를 문장, 단어, 혹은 토큰 단위로 나누는 과정 또는 도구로 자연어 처리(NLP)에서 문맥을 이해하기 위해 필수적으로 사용한다.
* 디퓨전(Diffusion) 모델: 데이터를 점진적으로 노이즈화하고 이를 역과정으로 복원하며 학습하는 생성 모델로 이미지 생성, 복원 등에서 높은 성능을 보인다.

생성형 AI의 데이터

생성형 AI에서 사용하는 데이터는 생성 결과물의 품질을 결정하는 핵심 요소다. 생성형 모델은 웹에서 수집한 대용량 데이터를 사용해 성능을 높일 수 있다. 하지만 웹에서 얻은 데이터는 노이즈나 저작권 등의 위험 요소도 있다. 따라서 데이터의 수집, 정제, 준비 과정에서 신중한 접근이 필요하다.

(1) 데이터의 종류

1) 텍스트 데이터

위키피디아, 뉴스 기사, 문학 작품, 블로그 포스트 등 다양한 형식의 텍스트가 포함된다. GPT 같은 언어 모델은 대규모 텍스트 말뭉치(Corpus)를 학습하여 문법, 어휘, 문장 구조 등 언어의 패턴을 이해하고 학습한다.

2) 이미지 데이터

웹에서 수집된 사진, 그림 등 시각적 데이터를 말한다. 이미지 생성 모델은 대규모 이미지 데이터 세트를 학습하여 이미지의 패턴, 스타일, 구성을 학습한다. 이 외에도 유튜브(YouTube) 등의 플랫폼에서 비디오 데이터를 대량으로 수집하여 비디오 생성 모델을 만드는 데에 사용하기도 한다.

3) 멀티모달(Multi Modal) 데이터

이미지-텍스트 멀티모달 모델을 학습하기 위해서는 이미지와 해당 이미지에 대한 텍스트 데이터를 쌍으로 필요로 한다. 이러한 데이터는 웹에서 수집될 수 있지만, 노이즈가 많을 수 있다. 실제로 웹에서 수집된 데이터의 노이즈를 제거하는 것을 목표로 하는 DataComp Challenge가 NeurIPS*에서 개최된 적이 있다. 이 외에도, 비디오-텍스트 멀티모달 데이터는 유튜브 등의 영상에서 얻어진 내레이션 등이 활용되기도 한다.

* NeurIPS: 인공지능(AI), 기계 학습(ML), 신경 과학 분야의 최신 연구를 다루는 세계적인 학술 대회. 학회에서는 연구 논문 발표 외에도 다양한 워크숍과 챌린지 대회가 열리는데, DataComp Challenge와 같은 대회도 개최되어 실질적인 문제 해결을 위한 연구와 실험이 이루어진다.

(2) 데이터 수집과 정제

생성형 AI 모델의 성능은 데이터 세트의 크기가 커질수록 향상되기 때문에, 데이터를 수집하고 정제하는 방법이 매우 중요하다. 일반적으로 생성형 모델은 웹 크롤링을 통해 초기 데이터를 수집한 후, 필터링과 정제 과정을 거쳐 학습에 적합한 데이터를 확보한다. 이를 통해 고품질의 데이터 세트가 완성되며, 대표적으로 Pile, LAION 등이 있다.

1) Pile 데이터 세트

대규모 언어 모델 학습을 위해 설계된 고품질의 대규모 텍스트 데이터 세트다. Pile 데이터 세트는 최소 825GB(기가바이트)의 텍스트 데이터로 구성되어 있으며, 중복 제거, 에러를 포함한 텍스트 제거, 텍스트 길이를 이용한 필터링 등 전처리 과정을 거친다.

2) LAION 데이터 세트

LAION 데이터 세트는 이미지-텍스트 쌍으로 구성된 공개 데이터 세트로, 생성형 AI와 컴퓨터 비전 분야에서 널리 사용된다. LAION 데이터 세트는 이미지와 텍스트의 유사도, 이미지 해상도, 불안전한 콘텐츠 등을 필터링하여 정제된 데이터를 제공한다.

3) DataComp-1B 데이터 세트

DataComp-1B 데이터 세트는 1억 개의 데이터로 구성된 세트로, LAION 데이터의 노이즈를 제거하기 위해 개발되었다. ImageNet과 유사한 고품질의 이미지를 포함하며, CLIP 모델이라는 기술을 사용해 이미지-텍스트 쌍의 유사도를 평가하는 방식으로 필터링한다. DataComp는 판별 AI 모델에서 성능이 검증되었으며, 생성형 모델에도 긍정적인 영향을 줄 수 있다.

4) Recap-DataComp1B 데이터 세트

기존의 데이터 정제 방식은 주로 노이즈를 제거하는 것에 중점을 두어 고품질의 데이터를 확보하는 데는 한계가 있었다. 최근 제안된 Recap-DataComp1B는 Llama3 모델을 사용해 이미지를 설명하는 새로운 텍스트를 자동으로 생성한다. 즉, AI가 더 정확하게 이미지를 설명하는 고품질의 텍스트를 만들어 기존 데이터를 대체하는 방식이다.

▲ Recap-DataComp1B 데이터 예시. 웹에서 얻은 텍스트(Original) 보다 고품질의 텍스트를 생성하여 좋은 학습 데이터를 만들어 낼 수 있다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[All Around AI 5편] 스마트폰과 온디바이스(on-device) AI의 미래

장동인 책임교수 — Tue, 24 Sep 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 두 회차에서는 머신 러닝(Machine Learning, 기계 학습)과 딥러닝(Deep Learning, 심층 학습)의 개념 및 주요 특징에 대해 알아보았습니다. 이번 회차에서는 AI 시대에 스마트폰과 온디바이스 AI의 결합이 가져올 미래의 변화에 대해 자세히 살펴보겠습니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

휴대전화가 처음 등장했을 때는 단순히 ‘통화 기기’에 불과했다. 그러나 시간이 지나면서 다양한 기능을 탑재한 스마트폰으로 발전했고, 이제는 삶의 모든 영역을 관리하는 개인 비서로 진화하고 있다. 이 변화의 중심에는 AI 기술이 자리하고 있다. 특히 최근에 주목받고 있는 온디바이스 AI는 스마트폰의 기능을 한층 더 향상할 것으로 예상된다. 온디바이스 AI는 기존에 주로 사용되던 클라우드 서버가 아닌 스마트폰 자체에서 정보를 처리할 수 있는 기술을 말한다. 이 기술이 상용화된다면 실시간에 가까운 처리 속도, 높은 수준의 개인 정보 보호, 에너지 효율성 극대화 같은 다양한 이점을 누릴 수 있을 것으로 기대된다.

온디바이스 AI란 무엇일까?

온디바이스 AI를 이해하려면, 먼저 그 반대 개념인 클라우드 기반 AI를 알아야 한다. 대다수 일반적인 AI는 클라우드 기반으로 작동한다. 예를 들어, GPT-4, 클로드(Claude) 3.5, 코파일럿(Copilot) 같은 AI 서비스는 모두 대규모 데이터 센터에서 운영된다. 이러한 이유로 인터넷 연결이 끊기거나 클라우드 자체가 마비되면 AI를 사용할 수 없다는 큰 단점이 존재한다. 또한, 클라우드 AI는 사용자의 질문과 데이터가 모두 클라우드로 전송되기 때문에 보안 문제가 발생할 가능성이 있으며, 데이터 전송에 비용과 시간이 필요하다. 반면, 온디바이스 AI는 규모가 작아 기능이 다소 제한적일 수 있지만, 클라우드에 연결하지 않고도 바로 서비스를 이용할 수 있다. 이로 인해 앞서 언급한 불편함을 겪지 않아도 된다는 장점이 있다.

▲ 그림 1. 온디바이스 AI의 구성요소

온디바이스 AI는 크게 세 가지 구성 요소로 이뤄진다[그림 1 참고]. 첫 번째 구성 요소는 디바이스로, 이는 가장 기본적인 요소다. 디바이스는 스마트폰, PC/노트북, 자동차, 공장 자동화 기기 안의 IoT 디바이스, 그리고 신호등이나 주차장에 설치된 센서 등 다양한 시스템이다.

두 번째 구성 요소는 디바이스 내장 AI다. AI는 크게 전통적인 AI와 생성형 AI로 구분된다. 전통적인 AI는 주로 이미지나 영상 인식 같은 간단한 분류 작업을 수행하며, 한 가지 일만 처리하는 특성을 갖고 있다. 반면, 생성형 AI는 하나의 AI가 번역, 통역, 이미지 인식, 음성 대화 등 다양한 작업을 수행할 수 있다는 점에서 차별화된다. 최근 주목받고 있는 생성형 AI 기술 중 하나인 거대 언어 모델(LLM, Large Language Model)은 기존 AI에 비해 월등한 성능을 보여 많은 관심을 끌었다. 생성형 AI는 점점 소형화되어 이제는 스마트폰에도 탑재될 수 있게 되었으며, 이에 따라 온디바이스 AI에 대한 관심도 더욱 높아질 것으로 예상된다.

세 번째 구성 요소는 온디바이스 AI의 용도다. 모든 AI는 크게 두 가지 작업 단계를 가진다. 대량의 데이터를 학습하는 단계인 ‘학습(training)’과 학습이 완료된 모델에 실데이터를 입력해 결과를 도출하는 ‘추론(inference)’이다. 그런데 온디바이스 AI는 추론과 학습 가능성에 따라 두 가지 용도로 나뉜다. 현재까지 온디바이스 AI는 하드웨어 제약 때문에 추론만 가능했다. 그러나 앞으로 하드웨어가 발전하면, 학습이 가능한 온디바이스 AI가 등장할 것으로 예상된다. 현재 스마트폰용 생성형 AI의 크기는 작지만, 거대한 클라우드 컴퓨터에서 학습한 결과물을 활용할 수 있다. 만약 디바이스 내 반도체에서 직접 학습이 이루어진다면, 온디바이스 AI는 사용자의 데이터를 학습하고, 한 단계 더 높은 혁신적 차원에 도달할 수 있을 것이다.

위와 같은 온디바이스 AI의 세 가지 구성 요소는 서로 결합하면서 각각 독립적인 온디바이스 AI 영역을 형성한다. 이러한 조합의 경우의 수를 모두 고려했을 때, 5가지 디바이스, 2가지 AI, 2가지 용도로 총 20가지 시장이 형성될 수 있음을 알 수 있다[그림 1 참고]. 예를 들어, ‘스마트폰 – 생성형 AI – 추론형’이라는 프로세스를 구성했다면, 다음으로는 ‘스마트폰 – 생성형 AI – 학습형’과 같은 방식으로 다양한 프로세스를 만들 수 있다. 이러한 선택지의 다양성은 실제 비즈니스에 큰 파급효과를 가져올 수 있으며, 앞으로도 반도체를 포함한 AI 기술이 다양한 분야의 발전에 지대한 영향을 미칠 것으로 예상된다.

온디바이스 AI 기능의 다변화

온디바이스 AI의 등장으로, 기존 스마트폰과 전통적인 AI의 기능에 국한되었던 사용 범위가 크게 확장되고 있다. 전통적인 AI가 주로 이미지 및 영상 인식과 편집 기능을 수행했다면, 온디바이스 AI는 한 걸음 더 나아가 실시간 통역, 다양한 언어 번역, 문장 요약, 음성을 글로 변환하는 STT(Speech to Text), 글을 음성으로 변환하는 TTS(Text to Speech), 음성 및 영상 대화 등 수많은 기능을 수행할 수 있다.

온디바이스 AI의 확장 가능성은 매우 크다. 기본적으로 스마트폰은 통화, 메시지 전송, 인터넷 검색, 파일 탐색, 위치 확인 등 다양한 기능을 수행한다. 이와 함께, 스마트폰에는 사진, SNS 메시지, 문서, 이메일, 위치 정보 등 수많은 사용자 정보가 축적되어 있다. AI는 이러한 스마트폰의 기본 기능과 내부 정보를 결합해 무수히 많은 새로운 서비스를 창출할 수 있다. 예를 들어, 기존에는 이메일 전송, 카메라 사진 촬영, 번역 기능이 각각 별도로 존재했다면, 이제는 그런 기본 기능과 스마트폰의 내부 정보(수신 이메일, 갤러리 내 사진)를 이용하여 이메일을 자동으로 번역하고, 스마트폰 갤러리 사진을 선택 및 편집해 특정인에게 전송하는 서비스가 가능해졌다.

놀랍게도, 스마트폰의 기능이 점점 다양해지면서 사용자가 일일이 새로운 기능을 익히지 않아도, 질문만으로 필요한 기능을 사용하고 정보를 제공받을 수 있게 되었다. 이러한 변화는 2011년 무렵 음성 AI 비서의 등장과 함께 대중에게 인식되기 시작했다. 애플의 시리, 아마존의 알렉사, 구글의 어시스턴트, 삼성전자의 빅스비가 대표적이다. 그리고 불과 몇 년 후, 간단한 명령어를 실행하는 AI 비서를 넘어, 더욱 복잡한 질문에도 고차원적인 답변을 제공할 수 있는 Chat GPT 등의 AI 챗봇이 빠르게 상용화되기 시작했다.

그렇다면 현재 시점에는 또 어떤 변화가 일어나고 있을까? 최근에는 생성형 AI의 고유한 기능으로 주목받고 있는 AI 에이전트가 등장했다. 사용자가 질문하면, AI 에이전트가 이를 분석하고 필요한 정보를 도출해 보여준다. 예를 들어, “부산 가는 KTX 시간표를 알아봐 줘”라고 요청하면, AI가 KTX 웹 페이지와 연동하여 부산행 KTX 시간표를 보여준다. 물론 정확한 답변을 얻기 위해서는 KTX 웹페이지와 연동하여 요청된 열차 시간표 정보를 가져오는 프로그램이 미리 구축되어 있어야 하는데, 이러한 연결 프로그램을 API*라고 한다.

* API(Application Programming Interface): 애플리케이션 프로그램 인터페이스’의 줄임말. 이때 애플리케이션이란 고유한 기능을 가진 모든 소프트웨어를 뜻하며 인터페이스는 두 애플리케이션 간의 서비스 계약이라 할 수 있다.

스마트폰에는 수백 개의 앱이 설치되어 있지만, 대부분의 사용자는 필요할 때마다 사용법을 익혀가며 활용한다. 그러나 AI 에이전트가 이 수백 개의 앱과 모두 연동된다면, 사용법을 따로 배울 필요가 없어진다. 전자상거래, 중고품 판매, 주식 시황, 부동산 현황, 카카오 택시 등 자주 사용하는 앱이 없어도, AI 에이전트가 필요한 기능을 대신 수행해 줄 수 있기 때문이다. 예를 들어, 주식 거래 앱이 없어도 스마트폰에 “지금 삼성전자 주가가 얼마야?”라고 물어보면 주가를 알려주는 식이다. 실제로 이러한 개념을 스마트폰에 적용한 사례가 이미 등장했다.

▲ 그림 2. 래빗 R1 스마트폰

2024년 CES에서 출시되어 큰 화제를 모은 스마트폰 ‘래빗(Rabbit) R1’은 혁신적인 기능과 저렴한 가격(199달러)으로 주목받았다. 별도의 구독료가 없고, 사용법도 간단하여 오른쪽에 있는 스위치를 누르고 음성으로 명령만 하면 되는 방식이었다. 출시 당시 우버 기사를 부르는 시연을 통해 많은 이에게 혁신성을 인정받았고, 초기 반응도 매우 긍정적이어서 10만 대가 판매되었다. 그러나 큰 관심에도 ‘래빗(Rabbit) R1’은 결국 실패로 끝나고 말았다. ‘스마트폰을 대체한다’는 대대적인 마케팅과는 달리, 실제로는 제한된 기능(우버, 스포티파이, 미드저니, 도어대시 앱 기능만 지원), 빈번한 버그 발생, 복잡한 요구를 처리하지 못하는 등 문제점이 드러났기 때문이다.

‘래빗(Rabbit) R1’은 실패했어도, 그에 적용된 아이디어는 여전히 유효하다. 아무리 뛰어난 기능을 갖추고 있어도, 복잡한 메뉴를 배우고 일일이 클릭해 사용하는 데 부담을 느끼는 스마트폰 사용자들에게 편리함을 제공할 수 있다면, 매우 긍정적인 반응을 얻을 수 있다는 점을 시사한 것이다. 사용자들은 이제 스마트폰이 자신의 행동과 사용 패턴, 축적된 데이터를 분석해 제공하는 “똑똑한” 어드바이스를 기대하고 있다.

현재 ‘도이치 텔레콤’은 ‘래빗(Rabbit) R1’ 스마트폰과 유사한 ‘콘셉트 스마트폰’을 개발 중이다. 이 스마트폰은 앱을 설치할 필요 없이 AI 에이전트에 음성 명령을 내리는 것만으로 작동하는 것이 특징이다. 그러나 통신 회사에서 개발하는 제품인 만큼, 온디바이스 AI 개념보다는 철저히 클라우드 기반 AI 단말기로 설계되고 있다.

▲ 그림 3. MWC2024에서 선보인 도이치 텔레콤의 콘셉트 스마트폰(출처: 유튜브 @counterpointresearch)

온디바이스 AI 모델의 트렌드: 경량화와 하이브리드화

온디바이스 AI의 성공을 위해 가장 중요한 요소는 첫째, 성능이며, 둘째로는 AI 모델의 크기다. AI 모델의 크기가 작아질수록 연산 속도가 향상되고, 메모리 사용량이 줄어들며, 에너지 효율성도 높아지기 때문이다. 따라서 경량화는 온디바이스 AI 개발에 필수적인 요소라 할 수 있다. 그렇다면, 얼마나 경량화해야 할까?

AI 모델의 크기는 ‘모델 파라미터(Parameter)*’ 라는 단위로 구분된다. 이는 AI 모델이 보유한 지식을 저장하는 단위를 말하며, GPT-4, 클로드, 코파일럿 등의 모델은 보통 2,000억 개 이상의 파라미터를 가지고 있다. 그러나 AI 모델을 스마트폰에 탑재하려면, 모델 파라미터의 크기를 40억 개 이하로 줄여야 한다. 스마트폰에서 원활히 구동되려면 필요한 메모리의 크기가 4GB를 넘지 않아야 하기 때문이다. 현재 많은 개발사는 성능은 유지하면서도 사이즈를 줄이는 방법에 초점을 맞춰 개발을 진행하고 있다.

* 파라미터(Parameter): AI 모델이 데이터를 학습하면서 조정되는 변수로, 학습 과정에서 입력값이 결괏값으로 변환될 수 있도록 조정한다. 파라미터의 개수는 AI 모델의 성능을 좌우하며, GPT-3의 파라미터 개수는 1,750억 개로 알려졌다.

GPT-4, 클로드, 코파일럿 등과 같은 클라우드 기반 AI로부터 완전히 독립된 온디바이스 AI를 구현하는 방법은 아직 개발이 더 필요해 보인다. 현재로서는 온디바이스 AI가 하드웨어 제약을 극복하기 어렵고, 스마트폰에서 생성형 AI를 완전히 구동하는 것도 역부족이다. 예를 들어, ‘실시간 통역’ 기능조차도 실제 사용할 때 약간의 시간차가 발생한다. 이러한 문제를 해결하기 위해, 스마트폰 온디바이스 AI로 처리 불가능한 기능을 클라우드 AI에 맡기는 하이브리드 방식도 모색되고 있다. 대표적인 사례가 온디바이스 AI와 클라우드 AI의 결합을 목표로 하는 ‘애플 인텔리전스(Apple Intelligence)’다.

▲ 그림 4. 애플 인텔리전스

그림 4에서 왼쪽은 디바이스(스마트폰, 노트북, PC)를, 오른쪽은 애플 전용 클라우드를 나타낸다.

왼쪽은 기존 앱에 AI 기능을 추가하기 위해서 필요한 시스템 구조를 나타낸다. 애플 인텔리전스의 디바이스 부분은 의미 인덱스*와 애플 인텐트 툴박스*, 그리고 앱 사용자의 AI 요구 사항을 디바이스에서 처리해야 하는지, 클라우드 서버로 보내야 하는지 처리 방식을 결정하는 라우팅 모듈*로 구성되어 있다. 의미 인덱스는 새로운 메시지를 받거나 사진을 촬영할 때 데이터를 벡터 DB에 수집하여 사용자 활동과 행동에 대해서 검색하고 의미를 분석한다. “내가 작년에 제주도에서 OO과 찍은 사진을 골라줘”라는 질문을 던지면 이를 의미 인덱스를 통해서 검색해서 보내줄 수 있다. 인텐트 툴박스는 AI 에이전트의 인터페이스로, 앱 개발자가 앱의 핵심 기능을 알리고, 생성형 AI가 AI 에이전트를 통해서 쉽게 호출할 수 있도록 연결해 준다. 예를 들면 “아까 찾은 사진들을 OO에게 이메일로 보내줘”라고 하면, 이메일 앱을 통해서 자동으로 보내준다. 이를 통해 사용자 자연어 명령을 기존 앱과 쉽게 연동할 수 있다.

* 의미 인덱스(Semantic Index): 각 앱의 요구를 개인 컨텍스트에 연결해 준다.
* 애플 인텐트 툴박스(Apple Intents Toolbox): 인텐트를 처리하는 과정에서 시리를 비롯한 애플 인텔리전스의 기능을 활용하게 해준다.
* 라우팅 모듈: 어떤 네트워크 안에서 통신 데이터를 보낼 때 최적의 경로를 관리하고 결정한다.

반면, 오른쪽의 애플 전용 클라우드는 보안을 강화한 서버 모델로 구성되어 있으며, 사용자가 자연어로 명령을 내리면, 그 명령을 스마트폰 자체적으로 처리할지, 서버의 클라우드 AI에서 처리할지를 결정한다. 만약 스마트폰 내에서 수행하기로 결정되면, 온디바이스 AI 모델이 해당 작업을 처리하며, 필요에 따라 인텐트 툴박스를 통해 앱을 실행하는 구조로 되어 있다.

온디바이스 AI와 하드웨어의 발전 방향

온디바이스 AI는 현재 포화 상태에 이른 스마트폰과 PC 하드웨어 시장에 새로운 수요를 창출하고 있다. 온디바이스에서 생성형 AI를 실행하려면, 지금보다 훨씬 더 많은 컴퓨팅 파워가 필요하기 때문이다. 이는 단순히 메모리, CPU, GPU 성능을 향상하는 것만을 의미하지 않는다. 생성형 AI를 스마트폰과 PC에서 효과적으로 실행하려면, 물리적인 용량과 성능을 뛰어넘어 아래와 같은 온디바이스 AI의 특수한 실행 조건을 충족해야 한다.

전통적인 AI 언어 모델은 주로 RNN*과 LSTM* 알고리즘을 사용했다. 이 알고리즘들은 문장의 단어를 순차적으로 입력받아 연산하기 때문에 병렬화가 어려웠다. 그러나 Chat-GPT와 같은 LLM의 등장으로 상황이 달라졌다. LLM은 트랜스포머(Transformer) 기반으로, 거대한 벡터(Vector)를 반복해서 연산하며 높은 수준의 병렬화를 가능하게 했다. 이러한 연산 방식은 수천 개의 코어를 가진 GPU에 매우 적합하다. 하지만 벡터 연산은 메모리 사용이 빈번해지므로, GPU와 RAM 간 초고속 데이터 전송 기능이 필수적이다. 따라서 트랜스포머 기반 LLM을 효과적으로 학습하기 위해서는 HBM*과 PIM* 기술이 요구될 수밖에 없다.

* RNN(Recurrent Neural Network): 순차적으로 입력되는 데이터를 한 번에 하나씩 처리하는 방식의 순환신경망. 이전 단계의 출력을 현재 단계의 입력으로 사용해 시퀀스 정보를 기억해 과거 정보가 현재 연산에 영향을 주지만, 병렬 처리가 어려운 단점이 있다.
* LSTM(Long Short-Term Memory): RNN의 한 종류로, 긴 시퀀스 데이터를 다룰 때 발생하는 문제를 해결하기 위해 개발됐다. 중요한 정보를 오랫동안 기억하고 불필요한 정보는 버릴 수 있어 긴 문맥을 더 잘 처리할 수 있다.
* HBM(High Bandwidth Memory): 고성능 컴퓨팅에 필요한 매우 빠른 데이터 처리 속도를 제공하는 메모리 기술. 주로 GPU와 같은 고성능 프로세서에 사용되며 대규모 데이터 처리 작업 시 성능을 높여준다.
* PIM(Processor in Memory): 데이터를 저장하는 메모리 자체에서 일부 연산을 수행해, 데이터 전송 속도를 높이고 데이터 전송의 병목 현상을 줄여준다.

현재 온디바이스 AI는 주로 추론에 초점을 맞추고 있다. 추론은 병렬적인 벡터 계산으로 이루어지지만, 학습 과정에서처럼 엄청난 계산 능력이 필요하지는 않다. 또한, 추론 서비스를 항상 사용하는 것도 아니기 때문에, 필요할 때만 추론을 활용하면서 전력 소모를 최소화할 수 있는 새로운 아키텍처가 필요하다. 이 역할을 하는 것이 바로 NPU(Neural Processing Unit)다. 기존 스마트폰 AP(Application Processor)에는 이미 NPU가 SoC* 형태로 구현되어 있다. 하지만 앞으로는 계산 속도가 훨씬 더 빠르면서 전력 소모가 적은 더 강력한 NPU 기능을 가진 AP가 필요하며, 이 NPU와 연결된 좀 더 빠른 램(RAM)도 요구될 것이다.

* SoC(System on Chip): 여러 가지 기능을 하나의 칩에 통합한 기술을 의미한다. 스마트폰에서 SoC는 CPU, GPU, 메모리, NPU 등 다양한 구성 요소를 하나의 칩에 포함해, 디바이스 성능을 높이고 전력 소비를 줄이는 데 도움을 준다.

앞으로 AI 에이전트가 발전함에 따라, 사용자별 맞춤 온디바이스 AI 에이전트가 등장할 것이다. 이러한 AI 에이전트는 사용자의 행동과 관련한 정보를 지속적으로 참고하여, 개인 어드바이저(Personal Advisor)로서 점점 더 발전해 나갈 것으로 예상된다. 이와 함께 스마트폰 역시 AP가 발전하면서, 학습된 데이터를 바탕으로 개인 어드바이저 역할이 강화된 스마트폰으로 변모할 것이다. 이러한 변화는 곧 시장의 엄청난 확장을 예고하며, 이에 따라 더 큰 용량, 더 빠른 속도, 더 적은 전력 소모를 자랑하는 메모리 반도체, NPU, GPU, HBM, PIM과 같은 맞춤형 기술들이 생성형 AI 모델의 구조와 연산에 밀접하게 연관되며 더욱 발전할 것이다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[All Around AI 4편] 딥러닝의 이해

한국인공지능학회 KAIST 윤철희 교수 — Tue, 27 Aug 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 머신러닝(Machine Learning, 기계 학습)이 기존의 규칙 기반 인공지능에 비해 가지는 강점과 차이점을 알아보았습니다. 이번에는 딥러닝(Deep Learning, 심층 학습)의 개념과 대표적인 신경망 구조 등에 대해 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

딥러닝의 개념

▲ 머신 러닝과 딥러닝의 차이

딥러닝은 머신 러닝의 한 분야지만, 전통적인 머신 러닝 기법들과는 접근법에서 큰 차이를 보인다. 전통적인 머신 러닝은 도메인 지식*을 활용해 데이터의 특징(Feature)을 추출하고 이를 디자인한다. 이 과정은 사람의 시행착오와 노력이 필요했다. 다만, 훈련 과정은 비교적 쉬운 작업으로 디자인한 특징들에 적용할 가중치(Weight)만 학습하면 훈련이 완료되었다.

* 도메인 지식(Domain Knowledge): 특정 분야나 문제에 대한 전문적인 지식과 이해를 의미한다. 머신 러닝에서 도메인 지식은 해당 데이터의 특징(Feature)을 이해하고, 설계하는 과정에서 중요한 역할을 한다.

이와 달리 딥러닝은 심층 신경망(Deep Neural Network, DNN)을 사용해 복잡한 데이터 특성을 스스로 학습하고 추출한다. 여러 층(Layer)으로 이루어진 심층 신경망은 이전 층의 출력을 입력으로 받아 특정한 변환을 수행한 후 이를 그 다음 층으로 전달한다. 이 변환 과정은 뉴런* 간의 연결선에 할당되는 학습 가능한 파라미터*들과 활성화 함수*로 이뤄지며, 이 파라미터 값을 적절히 설정하는 것이 학습의 핵심이다.

* 뉴런(Neuron): 입력 신호를 받아 처리하고 출력을 생성하는 기본 단위. 노드(node)라고도 한다.
* 학습 가능한 파라미터(Learnable Parameter): 뉴런 간의 연결 강도를 나타내는 값으로, 주로 가중치(weight)와 편향(Bias)이 포함된다. 이 파라미터들은 학습 과정에서 최적화 알고리즘에 의해 조정되어 모델이 주어진 데이터에 대해 최적의 예측을 할 수 있도록 한다.
* 활성화 함수(Activation Function): 입력 신호의 총합을 비선형적으로 변환하여 뉴런의 최종 출력을 결정하는 함수

물론, 딥러닝에도 단점은 있다. 첫째, 많은 파라미터와 데이터가 필요해 상당한 연산량과 시간이 소요된다. 둘째, 심층 신경망을 잘 훈련시키기 위해 필요한 하이퍼파라미터(Hyperparameter)*를 찾기 위해서는 여전히 많은 시행착오가 필요하다. 마지막으로 딥러닝 모델은 그 작동 방식이 복잡해 어떤 요소가 예측에 중요한 역할을 하는지 파악하기 어렵다. 이는 딥러닝에 대한 신뢰성 문제로 이어져 실생활에 AI 모델을 적용하는 데 여러 법적, 제도적 걸림돌을 초래하고 있다.

* 하이퍼파라미터(Hyperparameter): 학습 가능한 파라미터와는 달리 학습 과정에서 자동으로 조정되지 않고 사전에 정의되는 값

그럼에도 딥러닝은 스스로 특징을 추출하는 성능 때문에 기존의 머신 러닝 방법론에 비해 월등히 우수한 성능을 보이며, 오늘날 인공지능 방법론의 대표 주자로 자리매김했다.

심층 신경망의 구조

딥러닝에서 사용되는 심층 신경망은 크게 세 가지 주요 층으로 구성되며, 각 층의 역할과 기능은 다음과 같다.

입력층(Input Layer)
입력층은 신경망에 데이터를 제공하는 첫 번째 층이다. 이 층은 외부로부터 데이터를 받아 신경망의 내부로 전달하는 역할을 한다. 예를 들어 이미지 처리에서는 각 픽셀의 값이 입력층으로 들어가며, 자연어 처리에서는 단어 또는 문자의 숫자화된 형태가 입력층으로 입력된다.

은닉층 (Hidden Layer)
은닉층은 데이터의 패턴이나 특징을 학습하는 층이다. 각 은닉층은 이전 층으로부터의 입력값을 받아 처리하고 다음 층으로 결과를 전달한다. 이 과정에서 각 입력값에 특정 가중치를 곱하여 중요한 특징을 더 잘 인식할 수 있게 한다. 은닉층의 수는 문제의 복잡성, 데이터의 양, 그리고 모델의 성능 요구 사항에 따라 다르게 설정된다.

출력층 (Output Layer)
출력층은 신경망의 마지막 층으로 결과나 예측을 나타낸다. 출력층에서는 가능한 답들의 확률을 계산해, 가장 높은 확률을 가진 답을 최종적으로 선택한다.
심층 신경망은 이 구조를 기본으로 다양한 모델을 개발하고 개선하며 발전해 왔다. 대표적으로 ▲모든 뉴런이 서로 연결된 기본 신경망 구조인 ‘완전 연결 신경망(Fully-Connected Network)’ ▲이미지 처리에 최적화된 ‘합성곱 신경망(Convolutional Neural Network)’ ▲문장 번역이나 음성 인식 같은 연속된 데이터 처리에 적합한 ‘순환 신경망(Recurrent Neural Network)’ ▲복잡한 이미지 분류 작업에 사용되는 ‘잔차 신경망(Residual Network)’ ▲자연어 처리 분야에서 처음 제안되어 챗GPT(ChatGPT)를 비롯한 거대 언어 모델(Large Language Model, LLM) 등 최신 AI 모델의 근간이 되는 ‘트랜스포머(Transformer)’ 등이 있다.

이와 같은 신경망 구조들은 각각의 특성에 맞춰 다양한 분야에서 활용되며, 딥러닝의 예측 성능을 높이는 데 기여하고 있다.

심층 신경망의 학습 과정

심층 신경망의 학습 과정은 크게 순전파와 역전파 과정으로 구성된다. 순전파는 입력 데이터를 신경망에 정방향으로 통과시켜 예측값을 얻는 과정이다. 즉, 입력 데이터가 신경망에 주어지면, 각 층의 뉴런이 이를 처리하여 다음 층으로 전달하고, 이 과정을 반복하여 출력층에서 최종 예측값을 생성한다.

예를 들어, 손으로 쓴 숫자를 인식하는 신경망을 구성했다고 가정해 보자. 입력층에 숫자 이미지가 제공되면, 첫 번째 은닉층은 이미지의 간단한 특징들(예: 선의 방향, 모서리)을 추출하여, 이를 다음 층으로 전달한다. 마지막 은닉층은 훨씬 더 복잡한 특징들을 결합하여 숫자를 판별하는 데 필요한 정보를 형성한다. 이렇게 순전파를 통해 최종적으로 예측 결과를 얻게 되는 것이다.

이후 이 예측값과 실제값(라벨)을 비교하여 손실 함수로 예측의 정확도를 평가한다. 손실이 크다는 것은 예측이 실제값과 많이 다르다는 뜻이다. 손실이 계산되면 역전파 과정이 시작된다. 역전파는 손실값을 최소화하기 위해 신경망의 파라미터 값을 조정하는 과정이다. 이 과정은 순전파와는 반대로, 출력층에서 입력층 방향으로 진행된다.

출력층에서 손실 함수의 변화에 따른 기울기(Gradient)를 계산하고, 이 기울기와 각 뉴런의 활성화 함수 기울기를 바탕으로 각 파라미터가 손실 함수에 미치는 영향을 평가한다. 이렇게 파라미터에 대한 손실 함수의 기울기가 계산되면, 경사 하강법* 등의 최적화 알고리즘을 사용해 파라미터 값을 손실 함수가 작아지는 방향으로 업데이트한다. 신경망은 이 과정을 여러 번 반복해 점점 더 정확한 예측을 하는 모델로 발전하게 된다.

* 경사 하강법(Gradient Descent: 비용 함수를 최소화하기 위해 기울기를 따라 매개변수를 업데이트하는 최적화 알고리즘

한편, 일반적으로 신경망의 출력 층은 마지막 은닉층 뉴런들의 출력값에 가중치(Weight)를 곱한 후 이들을 더해 예측값을 출력한다. 때문에 맨 마지막 은닉층 뉴런의 출력값은 신경망이 데이터로부터 학습하고 추출해 낸 특징으로 간주할 수 있다.

딥러닝의 역사를 바꾼 대표 사례

최근 10여 년간 딥러닝은 수많은 성공 사례를 보여주면서 인공지능의 양적/질적 성장을 주도해 왔다. 대표 사례를 몇 가지 꼽자면 아래와 같다.

1)합성곱 신경망과 이미지넷(ImageNet)

이미지 인식 분야는 딥러닝이 크게 발전시킨 분야 중 하나로, 여기에는 합성곱 신경망의 역할이 컸다. 합성곱 신경망은 이미지의 지엽적인 부분에서 패턴을 추출하는 데 특화된 구조로, 여러 합성곱 층을 쌓아 이미지의 계층적 구조를 효과적으로 파악하고 특성을 추출하는 모델을 만들 수 있다.

이러한 딥러닝 방법론의 우수성을 널리 알린 대표적인 사례는 2012년의 이미지넷 대규모 시각 인식 챌린지(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)이다. 이 대회에서 토론토 대학의 제프리 힌튼(Geoffrey E. Hinton) 교수의 연구팀이 개발한 AlexNet이라는 딥러닝 모델은 기존의 전통적인 기계 학습 방법론들을 크게 능가하는 성능을 보이며 우승을 차지했다. 당시 AlexNet의 에러율은 15.3%로, 2등을 차지한 모델인 26.2%에 비교하면 매우 낮은 수치다. 이러한 성과는 컴퓨터 비전 분야에 큰 충격을 안겨주었고, 이후 딥러닝은 컴퓨터 비전의 다양한 분야에서 뛰어난 성능을 보여주고 있다.

2) 알파고, 바둑을 마스터하다

바둑은 경우의 수가 워낙 많아 AI가 정복하기 불가능한 게임이라 여겨왔다. 그러나 구글 딥마인드에서 개발한 알파고는 이런 믿음을 완전히 깨부수며 AI의 능력에 대한 대중의 관심을 불러일으켰다.

2016년, 알파고는 프로바둑기사 이세돌 선수와 대결을 펼쳤다. 실제 대국이 이뤄지기 전까지는 인공지능이 정상의 프로기사를 넘어서기에는 아직 부족하다는 예상이 지배적이었으나, 실제 이뤄진 대국에서는 4:1로 알파고가 이세돌 선수를 압도하며 세계를 놀라게 했다. 이처럼 놀라운 성능의 바둑 AI를 만들기 위한 딥마인드의 접근법은 딥러닝, 강화 학습 그리고 확률적 탐색 알고리즘을 접목시키는 것이었다. 인간의 기보를 통해 바둑판의 돌의 배열 상태와 수에 대한 ‘점수’를 심층 신경망으로 학습하고, 강화 학습을 사용해 스스로 대국을 반복하며 전략을 정교하게 다듬어 뛰어난 실력을 연마할 수 있었다.

3) 또 다른 딥마인드의 혁신, 알파폴드

▲ 알파폴드는 오랫동안 난제로 여겨져온 ‘단백질 접힘 문제’를 AI라는 새로운 접근법을 통해 효율적으로 풀어가고 있다.

알파고 이후 구글 딥마인드가 2018년에 처음 발표한 알파폴드(AlphaFold)는 단백질의 3차원 구조를 높은 정확도로 예측할 수 있는 딥러닝 모델이다. 단백질의 접힘 구조는 신약 개발 등 의학, 생명과학 연구에서 중요한 역할을 하지만, 구조를 파악하는 데는 비용과 시간이 많이 소모된다. 알파폴드는 이 문제를 아미노산의 배열에서 3차원 구조를 예측할 수 있는 신경망을 훈련시키는 방법으로 접근했고, 단백질 구조 예측(Critical Assessment of Protein Structure Prediction, CASP) 대회에서 기존에 방법을 능가하는 성능으로 1등을 차지했다. 이후 딥마인드는 현재까지도 꾸준히 알파폴드를 업데이트하며 신약 개발에 더욱 효과적으로 활용될 수 있도록 개선하고 있다.

4) 점점 다가오는 완전자율주행시대

▲ 웨이모 드라이버가 소개하는 완전 자율주행 기술

딥러닝은 꿈으로만 여겨져 왔던 완전 자율주행을 현실로 만드는 데 핵심적인 역할을 하고 있다. 신경망을 사용해 카메라, 라이다(LiDAR), 레이더, GPS 등 다양한 센서로부터의 입력을 처리하고, 강화 학습 알고리즘을 사용해 차량의 조작 방법을 결정하는 것이다. 알파벳이 소유한 웨이모는 이미 미국 일부 지역에서 운전기사 없이 완전히 자동으로 운영되는 택시를 운행하고 있다.

또 테슬라는 오토파일럿 시스템을 중심으로 한 첨단 운전자 보조 시스템(Advanced Driver Assistance System, ADAS)을 제공하며 궁극적으로 운전자 없는 완전 자율 주행을 목표로 하고 있다. 테슬라는 라이다와 레이더 센서에 대한 의존도를 최소화하고, 차량에 장착된 다수의 카메라로 주변을 인식해 판단한다. 테슬라는 방대한 실제 주행 데이터를 활용하여 지속적으로 모델을 개선하고 있다. 이러한 기술적 진보는 완전 자율주행 시대에 대한 기대감을 불러왔지만, 기술의 안정성에 대한 법적·제도적 승인 등 여전히 극복해야 할 장애물은 남아 있다.

5) GPT 시리즈의 등장

오픈AI(OpenAI)가 개발한 GPT(Generative Pre-trained Transformer) 시리즈는 트랜스포머 구조를 기반으로 한 대형 언어 모델(Large Language Model, LLM)의 일종이다. 이 대형 언어 모델이 하는 일은 생각 외로 간단한데, 주어진 맥락을 바탕으로 다음에 올 자연스러운 단어를 예측하는 것이다. 모델의 크기가 커지고 데이터가 많아질수록, 처리할 수 있는 맥락의 길이도 길어지고, 번역, 질의응답, 작문까지도 수행할 수 있다.

2022년, GPT-3.5를 기반으로 한 챗봇인 챗GPT가 발표되었고 곧 GPT-4로 업데이트 되었는데, 자연스러운 대화 기능과 작문 능력으로 사회 전반에 엄청난 충격을 주었다. 교육, 사무, 작문, 개발 등 실생활 전반에서 생산성을 비약적으로 향상시켜줄 수 있는 대형 언어 모델의 잠재성을 증명했기 때문에, 챗GPT의 성공은 인공지능 업계에 큰 변화를 불러일으켰다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[All Around AI 3편] 머신러닝의 이해

한국인공지능학회 KAIST 윤철희 교수 — Mon, 24 Jun 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 회차에서 인공지능의 발전 역사와 동작 원리를 알아보았습니다. 이번에는 인공지능의 가장 큰 줄기를 이루고 있는 머신 러닝(Machine Learning, 기계 학습)에 대해 조금 더 자세히 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

머신 러닝의 개념

[All Around AI 1편]에서 언급했듯 머신 러닝은 데이터의 패턴을 스스로 학습해 예측을 수행하는 알고리즘이다. 이 기술은 데이터의 폭발적인 증가와 함께 대표적인 인공지능 방법론으로 자리매김했다. 기존의 전통적인 인공지능은 인간이 규칙과 논리를 명확히 프로그래밍해야 했다. 이는 간단한 보드게임 같이 명확한 규칙이 있는 문제에는 효과적이었지만, 복잡한 데이터나 규칙을 다루는 경우 한계를 보였다. 예를 들어, 사진에서 고양이를 구별할 수 있는 인공지능을 만든다고 생각해 보자. 사진 속 수많은 픽셀에서 RGB 값이나 고양이의 패턴을 어떻게 처리할지, 어떤 방식으로 규칙을 설정할지 고민해 보면 이를 프로그래밍하는 일이 얼마나 어려운지를 실감하게 된다.

머신 러닝은 데이터 안에 숨겨진 복잡한 구조나 패턴을 발견하고, 이를 스스로 학습해 새로운 데이터의 예측을 수행하는 방식이다. 예를 들어 고양이의 유무를 판단하는 인공지능을 머신 러닝으로 만드는 경우, 다양한 사진(데이터)을 모아 알고리즘으로 학습시켜서, 고양이를 판단하는 방법을 스스로 파악하게 한다.

머신 러닝을 구현하는 과정은 크게 데이터 수집, 학습 모델 선택, 목적 함수 정의, 파라미터 학습 단계로 나눌 수 있다. 데이터 수집 단계에서는 학습에 필요한 데이터를 모으고, 학습 모델 선택 단계에서는 수집한 데이터를 가장 잘 표현할 수 있는 학습 모델을 선택한다. 목적 함수 정의 단계에서는 모델의 성능을 측정하기 위한 기준을 설정한다. 주로 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지를 나타내는 손실 함수*로 표현된다. 마지막으로 파라미터 학습 단계에서는 파라미터를 조정하며 손실 함수를 최소화하는 방향으로 학습을 진행한다. [All Around AI 2편]에서 자세히 보기

* 손실 함수(Loss Function): 모델의 예측이 실제 데이터와 얼마나 차이 나는지를 측정하는 지표. 모델 학습을 통해 최소화되어야 할 핵심 값으로, 예측 정확도를 향상시키는 데 중요한 역할을 한다.

머신 러닝 알고리즘의 종류와 특징

머신 러닝 알고리즘은 실세계에 내재한 확률 분포*에서 데이터를 추출하고, 이 데이터를 기반으로 모델을 훈련해 문제를 해결하는 것이 핵심이다. 학습하려는 문제의 유형에 따라 크게 세 가지로 나뉘며, 각각 고유한 특성과 응용 분야를 가지고 있다.

* 확률 분포(Probability Distribution): 데이터를 수학적으로 설명하는 모델로 이를 통해 데이터의 패턴과 구조를 파악한다.

1) 지도 학습(Supervised Learning)

지도 학습은 입력 데이터와 함께 ‘정답(라벨, label)’을 학습하는 방식이다. 모델은 이 데이터-라벨을 쌍으로 학습하여 새로운 데이터에 대한 정답을 예측한다. 예를 들어 사진 속 인물의 성별을 예측하는 인공지능 개발은 지도 학습의 예시로 볼 수 있다. 이때, 사진은 입력 데이터로 성별은 ‘정답’으로 제공된다. 이를 통해 모델은 남성과 여성을 구별하는 패턴을 학습하고, 추후 새로운 사진의 성별을 예측한다. 지도 학습은 라벨의 속성에 따라 다시 두 가지 유형으로 나뉜다.

• 분류(Classification): 라벨이 이산적(Discrete)으로 주어지는 경우다. 예를 들어 사진 속 강아지의 유무를 판단하는 문제, 손으로 쓴 글씨를 보고 알파벳을 구분하는 문제 등이 여기에 해당한다. 이 경우 데이터는 특정 카테고리에 속하며, 소속 카테고리가 라벨로 지정된다.

• 회귀(Regression): 라벨이 연속적인 숫자로 주어지는 경우다. 예를 들어 집의 평수와 위치 등을 바탕으로 집값을 예측하는 문제, 기상 데이터로부터 다음날의 기온을 예측하는 문제 등 정답이 될 숫자를 가능한 정확하게 예측해야 하는 상황에 해당한다.

2) 비지도 학습(Unsupervised Learning)

명칭에서 알 수 있듯이, 비지도 학습은 지도 학습과 달리 명시적인 ‘지도(Supervision)’, 즉 라벨이 없이 데이터만을 학습한다. 이 방법은 데이터가 나타내는 확률 분포의 특성을 파악해 학습하는 것을 목표로 한다. 비지도 학습의 주요 방법은 다음과 같다.

• 군집화(Clustering): 비슷한 특성을 가진 데이터를 그룹으로 묶어 확률 분포에 숨은 패턴을 파악하는 데 목적이 있다. 실제 반도체 공정에서 불량으로 판정된 웨이퍼 사진을 모아 군집화 알고리즘을 적용한 결과, 불량 원인에 따라 몇 가지 유형으로 분류할 수 있었다.

• 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 축소해 복잡한 데이터에서 중요한 정보만을 남기고 단순화하는 기술이다. 이는 데이터 분석과 시각화에 도움이 된다. 대표적으로 주성분 분석*이 있다.

* 주성분 분석(Principal Component Analysis): 고차원 데이터를 저차원으로 축소하는 통계적 기법. 데이터의 차원을 축소함으로써, 계산 효율성을 높이고, 불필요한 정보(노이즈 등)를 제거하여 데이터의 핵심 특성을 더욱 명확하게 이해할 수 있게 한다.

최근 주목 받는 생성형 AI 기술도 비지도 학습의 범주에 포함할 수 있다. 이는 데이터로부터 확률 분포를 학습하고, 이를 통해 새로운 데이터를 생성하는 것으로 볼 수 있기 때문이다. 예를 들어 챗GPT는 ‘자연어 확률 분포’를 학습하고, 이를 통해 주어진 텍스트의 다음 단어를 예측한다고 볼 수 있다. 그러나 생성형 AI를 훈련하기 위해 지도 학습 기법이 사용되기도 하므로 완전한 비지도 학습으로 볼 수 있는지는 이견의 여지가 있다.

3) 강화 학습(Reinforcement Learning)

모델이 주변 환경과 상호작용을 하며 최대한 많은 ‘보상’을 받도록 학습하는 것이 목표다. 특히 문제가 순차적 의사결정이 필요한 곳에서 효과적이다. 예컨대 로봇이 주어진 환경에서 장애물을 피하며 목적지까지 이동하는 최적의 경로를 찾는 경우와 같이 로보틱스 분야나 자율 주행, 게임 AI 등에 많이 활용된다. 최근에는 챗GPT 등의 대형 언어 모델을 인간의 선호와 일치시키기 위해 인간 피드백을 통한 강화 학습*도 많은 주목을 받고 있다.

* 인간 피드백을 통한 강화 학습(Reinforcement Learning With Human Feedback): 인간의 피드백을 기반으로 보상받으며 학습하는 방법. 모델이 생성한 결과에 대한 인간의 반응이나 평가를 통해 보상을 조정하고, 이를 통해 모델은 인간에게 맞춰진 반응을 할 수 있게 학습한다.

▲ 인공지능의 벽돌 깨기 게임 영상. 대표적인 강화 학습 사례로 인공지능에게 ‘벽돌을 많이 깨면 더 높은 점수를 올릴 수 있다’는 규칙을 주자 인공지능 스스로 벽돌을 더 많이 깰 수 있는 방법을 터득한다.

머신 러닝의 성능 평가

머신 러닝의 궁극적인 목표는 실제 환경에서 처음 보는 데이터에도 우수한 성능을 보이게 하는 것이다. 즉, 모델이 일반화(Generalization) 능력을 갖추는 것이 중요하다. 이를 위해서는 모델의 성능을 정확하게 평가하고 검증하는 것이 필수다. 그렇다면 모델의 성능은 어떻게 평가해야 할까?

1) 성능 지표 선택

머신 러닝의 성능을 평가하는 데는 문제의 유형에 따라 다양한 지표를 사용한다. 분류 문제의 경우 일반적으로 정확도(Accuracy), 정밀도(Precision), 재현율(Recall)을 성능 지표로 활용한다.

먼저, 정확도는 전체 예측 중 올바르게 예측한 비율을 나타낸다. 가령 의료 진단 테스트에서 100번의 테스트 중 95번을 정확하게 진단했다면 정확도는 95%이다. 그러나 이를 위해서는 균형 잡힌 데이터셋이 필요하다. 만약 100개의 샘플 중 95개가 음성이고 5개만 양성이라고 하자. 이 경우 모델이 모든 샘플을 음성으로 예측해도 정확도는 95%가 된다. 이는 높은 정확도처럼 보이지만, 실제로 모델은 양성 샘플을 전혀 예측하지 못했을 수 있다.

정밀도는 ‘모델이 양성으로 예측한 것’ 중 ‘실제로 양성인 것’의 비율을, 재현율은 ‘실제 양성’ 중 ‘모델이 양성으로 예측한’ 비율이다. 이들은 서로 트레이드 오프 관계, 즉 하나를 높이면 다른 하나는 낮아질 수 있어, 둘 사이의 균형과 목적을 고려해 모델을 최적화한다. 이를 테면, 의료 검사에서는 재현율을 높이는 것이, 이메일 스팸 필터에서는 정밀도를 더 중요하게 생각하는 식이다. 이 문제를 해결하기 위해 정밀도와 재현율의 조화를 평가하는 F1 스코어*를 사용하기도 한다.

* F1 스코어(F1-Score): 정밀도와 재현율의 조화평균으로 데이터 분류 클래스의 불균형이 심할 때 사용한다. 0과 1 사이의 값이며 1에 가까울수록 분류 성능이 좋고 할 수 있다.

회귀 문제의 경우는 평균 제곱 오차*, 제곱근 평균 제곱 오차*, 평균 절대 오차* 등을 사용해서 모델의 성능을 평가한다.

* 평균 제곱 오차(MSE): 예측값과 실제값의 차이를 제곱한 후 평균을 낸 값
* 제곱근 평균 제곱 오차(RMSE): MSE의 제곱근으로, 오차의 크기를 실제 값의 단위와 동일하게 표현
* 평균 절대 오차(MAE): 예측값과 실제값 차이의 절댓값을 평균한 값

2) 성능 평가 방법

머신 러닝 모델의 평가는 주로 데이터를 훈련 세트와 테스트 세트로 나누어 진행한다. 이 과정을 통해 모델이 새로운 데이터를 얼마나 잘 일반화할 수 있는지 확인할 수 있다.

• 훈련-테스트 분할법(Train-Test Split): 가장 간단한 방법의 하나는 수집된 데이터를 훈련 세트와 테스트 세트로 나누는 방법이다. 훈련 세트로 모델을 훈련한 후, 테스트 세트로 모델의 예측 성능을 평가해 일반화 성능을 가늠한다. 일반적으로 전체 데이터 중 약 70~80%를 훈련 세트에 활용한다.

• 교차 검증(Cross Validation): 교차 검증은 데이터를 K개의 세트로 나눠서, K개 중 한 세트를 제외한 나머지로 모델을 훈련한 뒤, 제외한 세트로 성능을 평가한다. 이 과정을 K번 반복해 평균 성능을 구한다. 교차 검증법은 전통적인 기계 학습에서 많이 사용하던 방법이지만, 시간이 많이 소요되어 심층 학습에서는 훈련-테스트 분할법을 더 선호한다.

3) 성능 평가 및 해석

위 평가 방법을 통해 얻어진 결과는 모델의 성능 향상을 위한 중요한 피드백을 제공하며, 문제가 있을 때는 주로 두 가지 현상이 나타난다.

• 과소적합(Underfitting): 모델이 너무 단순해서 데이터의 기본적인 패턴을 학습하지 못하는 경우로 훈련 및 테스트 세트 모두에서 성능이 미달일 경우 과소적합이 발생했다고 볼 수 있다. 가령 회귀 문제에서 실제 데이터가 2차 함수인데 예측 모델을 1차 함수로 설정했다면, 데이터의 패턴을 포착하기 위한 표현력(Expressivity)이 부족해서 과소적합으로 이어질 수 있다.

• 과대적합(Overfitting): 모델이 너무 복잡해서 기본적인 패턴뿐 아니라 노이즈 등 불필요한 부분까지 학습해 발생한다. 이에 따라 모델은 학습 데이터에 대해서는 높은 성능을 보이지만, 테스트 데이터나 새로운 데이터에서는 성능이 떨어지는 특성을 보인다. 이를 방지하고 모델의 일반화 성능을 더 정확하게 평가하기 위해 앞서 말한 교차 검증을 사용할 수 있다. 이렇게 다양한 데이터 분할에서 모델의 성능을 평가하면, 과대적합 여부를 더 정확하게 판단하고 모델 복잡도를 선택할 수 있다.

한편, 일반화 성능이 좋은 모델을 구축하기 위해서는 정규화* 등의 방법으로 과소/과대 적합 사이의 균형을 찾는 것이 중요하다고 알려져 왔다. 그러나, 최근 심층 학습에서는 과대적합이 일어난 이후에 모델의 크기를 더욱 더 키우면 과대적합이 더 심해지는 게 아니라 오히려 일반화 성능이 개선된다는 이중 하강 현상*이 발견되어 이에 대한 활발한 연구가 진행되고 있다.

* 정규화(Regularization): 모델의 과대적합을 방지하기 위해 모델의 복잡도를 제한하거나 페널티를 부과하는 학습 방법.
* 정이중 하강(Double Descent) 현상: 모델의 크기가 커질수록 성능이 먼저 저하되다가 일정 크기를 넘어서면 다시 개선되는 현상을 말한다. 이는 전통적인 통계학의 과대적합 개념에 도전하는 현상으로, 딥러닝 분야에서 새롭게 관찰되었다. 하지만 이론적으로는 아직 완전히 이해되지 않은 상태다.

[All Around AI 2편] AI 알고리즘의 기본 개념과 작동 원리

한국인공지능학회 학회장 서울대학교 김용대 — Sun, 28 Apr 2024 15:00:00 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 2화부터는 한국인공지능학회와 함께 더욱 깊이 있고 기술적인 인사이트를 제공하고자 합니다. 이번 회차에서는 AI 알고리즘이란 무엇인지, AI 알고리즘은 어떤 과정을 거쳐 작동하는지 기본 개념을 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

인공지능 알고리즘이란 무엇인가?

인공지능이란 특정 목적을 위해 설계된 컴퓨터 알고리즘*으로, 주어진 입력에 기반해 자동으로 과업을 처리한다. 이는 개발자가 직접 컴퓨터에 알고리즘을 입력하는 기존의 방법과 달리, 데이터를 기반으로 컴퓨터가 스스로 알고리즘을 학습한다는 점에서 큰 차이가 있다. 그래서 인공지능 알고리즘을 ‘알고리즘을 위한 알고리즘’이라고도 부른다.

* 알고리즘(Algorithm): 컴퓨터를 활용한 문제 해결 과정에서, 어떤 문제를 해결하기 위해 정의된 절차, 방법, 명령어 등의 집합

학습 알고리즘에서 ‘학습(Learning)’은 주어진 데이터를 분석해 특정 작업을 수행할 수 있는 규칙이나 패턴을 발견하는 과정을 뜻한다. 학습 알고리즘의 역할은 데이터로부터 주어진 과업을 수행할 알고리즘을 찾아내는 것이다. 예측 알고리즘에서 ‘예측(Prediction)’은 학습된 모형*을 사용하여 새로운 데이터에 대한 결과를 추론하는 과정을 말한다. 즉, 예측 알고리즘은 학습 알고리즘을 통해 학습되며, 특정 과업을 수행하는 역할을 한다. 이 두 알고리즘의 역할과 작동 원리를 이해하는 것은 인공지능의 기본 원리를 이해하는 데 매우 중요하다.

* 모형(Model): 학습된 규칙이나 패턴을 표현하는 수학적 또는 계산적인 구조

▲ 그림 1. 인공지능 시스템 구성도

주어진 숫자 데이터를 내림차순으로 정렬하는 알고리즘을 생각해보자. 기존 방식에서는 개발자가 수학적 지식을 바탕으로 정렬 알고리즘을 설계하고, 이를 컴퓨터 프로그램으로 구현한다. 이를 인공지능의 관점에서 ‘학습’이라 할 수 있다. 이후, 개발자가 만든 정렬 알고리즘에 숫자 데이터를 입력하면, 큰 숫자부터 작은 숫자 순으로 정렬된 새로운 데이터가 출력된다. 이것은 ‘예측’에 해당하며, 개발자가 구현한 것은 예측 알고리즘으로 이해할 수 있다.

위에서 살펴본 정렬 알고리즘 개발 프로세스에서, 컴퓨터가 ‘스스로’ 개발자 역할을 수행하도록 하는 것이 인공지능의 핵심이다. 그럼 컴퓨터는 어떻게 수학적 지식 없이 정렬 알고리즘을 만들 수 있을까? 여기에 필요한 것이 학습 데이터와 학습 알고리즘이다. 정렬되기 전과 후의 다양한 데이터를 컴퓨터에 입력하면, 인공지능 학습 알고리즘이 이 데이터들을 분석하고 스스로 정렬 알고리즘을 찾아낸다. [그림 2]는 기존의 정렬 알고리즘과 인공지능이 학습한 정렬 알고리즘을 비교해서 보여준다.

▲ 그림 2. 기존 알고리즘과 인공지능 알고리즘의 비교

인공지능의 놀라운 점은 알고리즘을 스스로 찾아낸다는 것이다. 예를 들어, 과거에는 언어 번역 알고리즘을 만들기 위해 컴퓨터 전문가와 언어학자들이 다양한 규칙을 개발하고 적용해 왔다. 하지만 인간의 논리로는 이해하기 어려운 언어의 복잡성 때문에 성능은 그리 좋지 않았다. 그러나 수십 만 개의 문서에서 스스로 문법을 찾아내는 인공지능 학습 알고리즘의 등장으로 자동 언어 번역의 성능은 인간과 유사한 수준까지 도달했다. 최근 화제를 모았던 챗GPT도 이렇게 학습된 언어이해 알고리즘이다.

인공지능 작동 과정의 이해

인공지능 프로세스는 주어진 학습 데이터에서 학습 알고리즘을 이용해 예측 알고리즘을 만드는 일련의 과정으로 이해할 수 있다([그림 1] 참조). 이를 다음과 같이 간략하게 정리할 수 있다.

1) 문제 정의

인공지능은 인간이 수행하기 힘든 특정 업무를 학습 데이터 기반으로 컴퓨터를 학습 시켜 자동화하는 것이 목적이다. 따라서 인공지능 프로세스는 문제를 정확히 정의하는 것으로 시작한다. 이 단계는 매우 중요하다. 문제 정의가 제대로 되지 않는다면, 이후의 과정이 잘 진행되더라도 원하는 결과를 얻지 못할 수 있기 때문이다.

예를 들어, 주차장에 자동화 시스템을 구축하기 위해 번호판을 인식하는 인공지능 알고리즘을 개발한다고 가정해 보자. 번호판은 숫자와 문자로 이루어져 있기 때문에, 이를 수집하고 인식하는 알고리즘으로 시스템을 구축할 수 있다. 하지만 이 알고리즘은 번호판 이외의 이미지에서도 숫자와 문자를 인식할 수 있어, 불필요한 정보가 입력될 수 있다. 때문에 문제 정의는 ‘숫자와 문자의 인식’이 아니라 ‘자동차 번호판의 숫자와 문자의 인식’이 되어야 한다. 따라서 숫자와 문자 뿐만 아니라 번호판의 모양을 인식하는 예측 모형도 필요하다.

2) 데이터 수집

▲ 그림 3. 학습을 위한 데이터 수집 과정

문제가 잘 정의되었다면, 컴퓨터가 학습할 수 있게 데이터를 수집해야 한다. 데이터는 문제 정의에 따라 계획적으로 수집돼야 한다. 예를 들어, 이미지에서 남성과 여성을 구분하는 인공지능 모형을 학습시키기 위해서는 라벨(남성, 여성)*이 분류된 이미지를 수집해야 한다. 데이터 수집에서 중요한 점은 데이터가 모집단 전체를 대표할 수 있어야 한다는 것이다. 만약 청소년 등 특정 연령층의 이미지만 학습한다면, 다른 연령층에서는 인식률이 떨어질 수 있다. 따라서 컴퓨터가 학습할 수 있는 양질의 대규모 데이터를 구축하는 것이 인공지능 알고리즘 성패의 핵심이 된다.

* 라벨(Label): 학습 데이터에서 원하는 출력 또는 목표 값을 나타내는 정보

3) 학습 알고리즘

다음은 수집한 데이터를 이용하여 학습시키는 과정이다. 이때 학습 알고리즘은 목적과 방식에 따라 다양하게 선택할 수 있다. 예를 들어, 인물 이미지의 성별을 분류하는 것과 같이 주어진 상황에서 자동으로 판단해야 하는 경우는 분류 모형에 특화된 학습 알고리즘을 사용한다. 반면에 새로운 사진이나 문서를 생성하는 경우는 챗GPT와 같은 생성형 인공지능 알고리즘을 사용한다. 또한, 게임이나 바둑과 같이 상호작용이 필요한 상황에서는 강화 학습 알고리즘*을 사용한다.

* 강화 학습 알고리즘: 에이전트가 환경과 상호작용하며, 행동의 결과로 얻은 보상을 통해 최적의 결정 방법을 배우는 알고리즘

기본적으로 학습 알고리즘은 학습 데이터를 입력으로 받아서 예측 알고리즘을 출력으로 제공한다. 따라서 학습 알고리즘이 어떤 방식으로 학습 데이터를 처리하여 예측 알고리즘으로 바꾸는지 이해하는 것이 중요하다. 이를 위해서는 먼저 예측 알고리즘이 무엇인지 알아야 한다.

▲ 그림 4. 인물 이미지의 성별 예측 알고리즘 출력 과정

예측 알고리즘은 새로운 정보를 입력으로 받아 최적의 의사결정을 출력한다. 예를 들어, 인물 이미지의 성별을 분류하는 인공지능에서는 이미지를 입력으로 받아 성별을 출력으로 제공한다. 이를 위해서는 이미지와 성별 라벨이 함께 있는 학습 데이터가 필요하며, 각 이미지는 픽셀의 색깔과 명도를 수치화한 데이터로 변환된다. 학습 알고리즘은 이 숫자들의 나열, 즉 벡터를 입력으로 받아 가장 정확하게 성별을 출력할 수 있는 함수를 찾는 것이다.

즉, 예측 알고리즘은 입력 벡터와 출력 데이터 사이의 관계를 최대한 정확히 매칭하는 수학적 함수로 이해할 수 있으며, 학습 알고리즘은 이러한 함수를 찾아내는 과정이라 할 수 있다.

(i) 학습 모형의 선택

모든 함수 중에서 예측을 가장 잘하는 함수를 찾는 것은 거의 불가능하다. 이유는 가능한 함수가 너무 많기 때문이다. 이 문제를 해결하는 방법이 바로 모형을 사용하는 것이다. 인공지능 모형이란 입력 변수(데이터)로부터 출력 변수(결과)를 예측하는 함수 중에 특정한 ‘파라미터(Parameter)’로 표현되는 함수를 가리킨다. 여기서 파라미터란 함수의 특정한 성질을 나타내는 변수로, 모형이 어떻게 작동할지를 결정하는 유한개의 숫자다.

▲ 그림 5. 선형 회귀 모델의 데이터 특성을 보여주는 1차 함수 그래프

가장 간단한 인공지능 모형은 데이터의 특성과 결과 사이에 선형 관계를 보이는 ‘선형 모형’이다. 그 중 선형 회귀* 모형의 함수 y=ax+b를 예로 들자. 파라미터는 a와 b로, 이 값을 통해 데이터의 선형 관계를 이해할 수 있으며, 모형이 데이터를 어떻게 처리할지 알 수 있다.

* 선형 회귀(Linear Regression): 선형 모형 중 연속적인 값을 예측하는 모형으로, 주어진 데이터에 대해 최소제곱법을 사용하여 에러의 제곱 합을 최소화하는 방식으로 파라미터를 학습한다.

학습 모형의 선택은 문제의 종류(분류, 회귀 등) 및 데이터의 특성, 사용 가능한 컴퓨팅 자원 등을 고려해서 이루어진다. 선형 모형은 일반적으로 정확도가 낮은 편이다. 따라서 보다 복잡한 문제를 해결하기 위해 다양한 함수를 사용하는 모형들이 개발되었다. 그중 가장 많이 사용되는 모형이 바로 심층신경망, 딥러닝이다. 딥러닝은 여러 층의 선형과 비선형 변환을 거쳐 출력을 내는 함수를 통칭한다.

▲ 그림 6. 심층신경망의 구조

딥러닝은 문제의 종류와 난이도 등에 따라 다양한 형태로 발전해왔다. 예를 들어, 이미지 분류나 생성과 같은 문제에는 이미지 데이터에 특화된 딥러닝 모형인 CNN*이 사용된다. CNN은 이미지에서 불필요한 정보(배경 등)를 제거하고 중요한 부분에 집중함으로써 성능을 높인 것이다.

문서 데이터에서는 단어 간의 순서를 고려하여 모형화한 RNN*이 주로 사용됐다. 최근에는 단어 간의 연관성을 자동으로 탐지해 각 단어를 벡터로 변환하는 트랜스포머(Transformer) 모형이 각광받고 있다. 챗GPT와 같은 대형 언어 모델도 트랜스포머를 기반으로 개발되었다.

* CNN(Convolutional Neural Network, 합성곱 신경망): 이미지와 같은 고차원 데이터에서 유용한 특징을 자동으로 감지하고 학습할 수 있는 딥러닝 모델로 합성곱 계층을 사용하여 입력 데이터에서 중요한 특징을 추출하여 이미지 분류, 객체 인식 등의 작업을 수행한다.
* RNN(Recurrent Neural Network, 순환 신경망): 이전에 처리한 정보를 기억하고 이를 바탕으로 현재의 입력과 결합하여 출력을 생성하는 딥러닝 모델로, 자연어 처리, 음성 인식, 시계열 예측 등 시간적 연속성이 중요한 데이터를 다루는 작업에 주로 사용된다.

(ii) 파라미터의 학습

학습 모형을 선택했다면, 다음은 모형에서 예측을 가장 잘하는 파라미터를 찾아야 한다. 이를 ‘인공지능의 학습’이라고 한다. 파라미터는 데이터의 학습을 통해 찾을 수 있는 내부 변수로, 모형의 성능에 직접적인 영향을 미친다. 따라서 인공지능의 학습은 데이터로부터 정보를 추출하고 이를 이용해 모형의 파라미터를 최적화하는 과정이라 할 수 있으며, 이를 통해 모형은 주어진 데이터에 최적화되어 더 정확하게 예측하거나 분류할 수 있게 된다.

파라미터의 학습을 위해서는 먼저 목적함수를 정의해야 한다. 목적함수는 모형의 성능을 정량적으로 평가하며, 모형의 학습 방향을 제시하는 중요한 역할을 한다. 목적함수는 모형의 예측값과 실제 데이터 사이의 오차를 계산하는데, 이 오차를 최소화하는 방향으로 모형의 파라미터를 조정하여 성능을 높이는 것이다.

목적함수는 주어진 문제와 선택된 모형에 따라 달라진다. 예를 들어, 회귀 문제에서는 예측값과 실제값의 차이를 제곱하여 평균을 내는 방식으로 작동하는 평균 제곱 오차(Mean Squared Error, MSE)가 자주 사용되고, 분류 문제에서는 예측이 실제 레이블의 분포와 얼마나 잘 일치하는지를 측정하는 교차 엔트로피 손실(Cross-Entropy Loss)이 흔히 사용된다. 특히, 다양한 학습 모형 중 딥러닝 모형은 비선형 함수이기 때문에 최적화가 매우 어렵고, 이 문제를 해결하기 위한 다양한 최적화 알고리즘이 연구·개발되고 있다. 파라미터 학습에 관한 내용은 다음 챕터에서 더욱 자세하게 다루도록 하겠다.

(iii) 예측성능 측정

인공지능 학습의 어려운 점은, 주어진 학습 데이터에서 예측을 잘하는 모형을 찾는 것이 아니라, 미래의 데이터(이하 예측 데이터, Test Data)에서 예측을 잘하는 모형을 찾는 것이 최종 목표라는 점이다. 보통 학습 데이터에서 예측을 잘하는 모형이 예측 데이터에서도 잘 작동한다. 그러나 너무 복잡한 모형을 사용하거나, 학습 데이터가 잘못 구성된 경우에는 학습 데이터에서 예측을 잘하는 모형이 예측 데이터에서는 나쁜 성능을 보일 수 있다. 이 문제를 해결하는 것이 인공지능 학습 방법론의 중요한 연구주제이다.

예측 모형이 제대로 학습되었는지 확인하기 위해서는 예측 데이터가 필요한데, 일반적으로 학습 당시에는 예측 데이터가 존재하지 않는다. 이 문제를 해결하기 위해서는 주어진 데이터를 임의로 학습 데이터와 예측 데이터로 나누는 방법이 자주 쓰인다. 학습 데이터로 모형을 학습시킨 후, 예측 데이터를 사용하여 모형의 성능을 확인하는 것이다.

이러한 과정을 통해 성능이 원하는 만큼 나온다면 학습된 예측 모형을 사용할 수 있다. 그러나 성능이 기준에 미치지 못한다면 그 이유를 확인해야 한다. 알고리즘의 선택이 잘못되었을 수 있고, 데이터에도 문제가 있을 수 있다. 나아가 주식 가격 예측같이, 문제 자체가 예측이 어려운 문제일 수 있다. 따라서 원점으로 되돌아가 문제의 정의, 수집된 데이터나 알고리즘의 선택을 다시 고려해야 한다.

4) 예측 및 모니터링

예측 성능 측정 단계에서 원하는 결과가 나온다면 모형을 실제 업무에 적용한다. 즉, 문제를 해결하기 위해 학습 알고리즘이 만들어 낸 예측 모형을 사용하는 것이다. 이때, 새로운 입력 정보를 예측 모형에 넣어서 출력값을 얻는 일련의 과정을 예측 알고리즘이라고 한다. 이미지 분류에서는 라벨이 알려지지 않은 새로운 이미지를 넣으면 예측 모형은 출력값으로 라벨을 제공한다.

이때 원하는 성능이 꾸준히 나오는지에 대한 모니터링은 필수다. 데이터는 시간에 따라 분포가 바뀔 수 있기 때문에 모형이 학습될 때 고려하지 않던 새로운 정보가 생길 수 있다. 따라서 모형을 꾸준히 모니터링하고, 필요한 경우 새로운 데이터를 추가하여 재학습을 고려해야 한다. 모든 학습 프로세스를 다시 수행하지 않고, 현재의 예측 모형과 새로운 데이터를 결합해 꾸준히 학습하는 방법도 개발되고 있다. 관련 분야로는 연속적 학습(Continual Learning)*, 전이 학습(Transfer Learning)*, 도메인 적응(Domain Adaptation)* 등이 있다.

* 연속적 학습(Continual Learning): 지속해서 변하는 환경에서 이전 데이터의 재학습 없이 새로운 데이터를 학습하는 기법. 로봇공학, 자연어 처리 등의 분야에서 중요하게 다루어진다.
* 전이 학습(Transfer Learning): 한 작업에서 학습된 지식을 다른 작업에 적용하여 학습 시간을 단축하고 성능을 높이는 학습 기법. 충분한 훈련 데이터를 확보하기 어려운 작업에 유용하게 쓰인다.
* 도메인 적응(Domain Adaptation): 특정 도메인에서 학습된 모형을 다른 도메인(타깃 도메인)에서도 잘 작동하도록 조정하는 학습 기법. 의료 이미징, 음성 인식 등 데이터 환경이 끊임없이 변하는 환경에 유용하게 쓰인다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

[All Around AI 1편] AI의 시작과 발전 과정, 미래 전망

SK 경영경제연구소 김지현 부사장 — Thu, 14 Mar 2024 15:04:39 +0000

우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 에서 AI 기술에 대한 모든 것을 알려드립니다. 1화에서는 인공지능의 역사적 발전 과정과 그것이 현재 우리 삶에 어떻게 녹아들었는지 살펴봅니다.

<시리즈 순서>
① AI의 시작과 발전 과정, 미래 전망
② AI 알고리즘의 기본 개념과 작동 원리
③ 머신러닝의 이해
④ 딥러닝의 이해
⑤ 스마트폰과 온디바이스(on-device) AI의 미래
⑥ 생성형 AI의 개념과 모델

인공지능을 탑재해 사람처럼 걷고 말하며 생각하는 로봇은 과거 공상과학 만화와 영화의 단골 소재였다. 인간의 상상 속에서만 존재하던 AI와 로봇은 더 이상 꿈이 아니다. 이제 현실로 구현되며 사람들의 일상을 바꾸고 있는 AI는 언제부터 시작되어 어떻게 발전해 왔으며, 앞으로 어떤 미래를 만들어 나갈까?

‘AI’의 시작과 발전 과정

AI의 시작은 1950년대로 거슬러 올라간다. 1950년, 영국의 수학자 앨런 튜링(Alan Turing)은 기계는 생각할 수 있다고 주장하며, 이를 테스트하기 위한 방법으로 ‘튜링 테스트(The Turing Test)’를 고안했다. 이것은 AI라는 개념을 최초로 제시한 연구로 꼽힌다. 1956년에는 AI의 개념을 세상에 알린 다트머스 회의(Dartmouth Conference)가 열렸다. 이 회의에서는 기계가 인간처럼 학습하고 발전할 수 있는지에 대한 토론이 이루어졌으며, 인공지능이라는 용어가 처음 사용되었다.

이 시기에는 인공신경망(Artificial Neural Network) 모델에 관한 연구도 활발히 진행되었다. 1957년, 프랑크 로젠블랏(Frank Rosenblatt)은 ‘퍼셉트론(Perceptron)’ 모델을 통해 컴퓨터가 패턴을 인식하고 학습할 수 있다는 개념을 실증적으로 보여줬다. 이는 1943년에 신경 생리학자 워렌 맥컬럭(Warren McCulloch)과 월터 피트(Walter Pitts)가 신경세포의 상호작용을 간단한 계산 모델로 정리한 ‘신경망’ 이론을 실제 테스트에 활용한 것이다. 이러한 초기 연구의 성과는 세간의 기대를 높였으나, 컴퓨팅 성능, 논리 체계, 데이터 부족 등의 한계로 AI 연구는 곧 침체기에 들어섰다.

1980년대에는 사람이 입력한 규칙을 기반으로 자동 판정을 내리는 ‘전문가 시스템(Expert System)’이 등장했다. 전문가 시스템은 의학, 법률, 유통 등 실용적인 분야에서 진단, 분류, 분석 등의 기능을 수행하며, 일시적으로 AI에 대한 관심을 다시 불러일으켰다. 그러나 이 시스템은 사람이 설정한 규칙에만 의존하여 동작하며, 복잡한 현실 세계를 이해하는 능력을 갖추지 못했다는 한계가 있었다.

인간의 명령으로만 작동하던 AI는 1990년대 들어서 스스로 규칙을 찾아 학습하게 된다. 바로 ‘머신러닝(Machine Learning, 기계학습)’ 알고리즘을 활용하면서부터다. 이것이 가능해진 이유는 디지털과 인터넷이 등장했기 때문이다. 웹에서 수집한 대량의 데이터를 활용할 수 있게 되면서, AI는 스스로 규칙을 학습하고 나아가 사람이 찾지 못하는 규칙까지 찾아낼 수 있게 되었다. AI 연구는 머신러닝을 기반으로 다시 성과를 내기 시작했다.

AI의 핵심 기술, ‘딥러닝’의 발전

인공신경망 초기 연구는 1969년, 앞서 언급했던 퍼셉트론 모델이 비선형 문제를 해결할 수 없다는 것*이 밝혀지면서 긴 침체기에 접어들었다. 이후, 인공신경망 연구를 다시 수면위로 끌어올린 인물은 ‘딥러닝의 대부’로 불리는 제프리 힌튼(Geoffrey Hinton, 이하 힌튼)이다.

* 초기 퍼셉트론 모델은 단층 퍼셉트론(Single-layer Perceptron)으로 입력 값이 두 개이고, 두 입력 값이 같으면 0을 출력하고 다르면 1을 출력하는 XOR 문제와 같은 비선형 문제를 해결할 수 없었다.

1986년, 힌튼은 인공신경망을 여러 겹 쌓은 다층 퍼셉트론(Multi-Layer Perceptrons) 이론에 역전파* 알고리즘을 적용하여 퍼셉트론의 기존 문제를 해결할 수 있음을 증명했다. 이를 계기로 인공신경망 연구가 다시 활기를 되찾는 듯했지만, 신경망의 깊이가 깊어질수록 학습 과정과 결과에 이상이 나타나는 문제가 발생했다.

* 역전파(Backpropagation): 신경망에서 출력 값과 실제 값 사이의 차이를 계산하고, 오차를 줄이기 위해 출력부터 시작하여 역순으로 가중치를 조절하는 알고리즘

2006년, 힌튼은 ‘A fast learning algorithm for deep belief nets’라는 논문을 통해 다층 퍼셉트론의 성능을 높인 ‘심층 신뢰 신경망(Deep Belief Network, DBN)’을 제시했다. 심층 신뢰 신경망은 비지도학습*을 통해 각 층을 사전 훈련한 후, 전체 네트워크를 미세 조정하는 방식으로 신경망의 학습 속도와 효율성을 크게 높였다. 또한 AI 기술을 대표하는 알고리즘인 ‘딥러닝(Deep Learnning)’의 기초 개념을 정립했다.

* 비지도학습 (Unsupervised Learning): 머신러닝의 학습론 중 하나로 입력 데이터에 대한 정답을 주지 않고, 숨은 구조나 패턴 등을 발견하고 이해할 수 있게 학습시키는 방법

▲ Kien Nguyen, Arun Ross. “Iris Recognition with Off-the-Shelf CNN Features: A Deep Learning Perspective”, IEEE ACCESS SEPT(2017), p.3

그리고 2012년, 딥러닝의 압도적인 성능을 증명한 역사적인 사건이 발생한다. 바로 이미지 인식 경진대회인 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 힌튼이 이끄는 팀의 알렉스넷(AlexNet)이 우승을 차지한 것이다. 딥러닝 기반의 모델인 알렉스넷은 이미지 인식률 84.7%를 기록했는데, 이는 다른 모델과 비교했을 때 월등히 높은 수치였다. 특히, 전년도 우승팀의 오류율 25.8%를 무려 16.4%까지 낮추는 기염을 토했다.

AI 연구의 대세가 된 딥러닝은 2010년대부터 급속도로 성장하게 되는데, 이러한 성장에는 두 가지 배경이 있다. 첫째, GPU(Graphics Processing Unit, 그래픽처리장치)를 비롯한 컴퓨터 시스템의 발전이다. GPU는 본래 컴퓨터의 그래픽을 처리하기 위해 만들어졌다. CPU(Central Processing Unit, 중앙처리장치)와 비교할 때, GPU는 유사하고 반복적인 연산을 병렬로 처리하여 훨씬 속도가 빠르다. 2010년대에 들어서며, GPU가 CPU의 역할까지 대신할 수 있게 보완한 GPGPU(General-Purpose computing on GPU) 기술이 등장했다. GPU의 쓰임새가 늘어났고, 인공신경망의 학습에도 적용되며 딥러닝의 발전이 크게 가속화되었다. 방대한 학습 데이터를 분석해 특성을 추출하는 딥러닝은 반복적인 계산이 필수인데, GPU의 병렬 계산 구조는 이에 아주 적합했기 때문이다.

두 번째는 데이터(Data)의 증가다. 인공신경망 학습에는 대량의 데이터가 필요하다. 과거의 데이터는 컴퓨터에 입력된 정보 수준에 그쳤다. 하지만 1990년대 이후, 인터넷이 보급되고 검색엔진이 발전하며, 가공할 수 있는 데이터의 범위가 기하급수적으로 늘어났다. 2000년대 이후에는 스마트폰과 사물인터넷(Internet of Things, IoT)이 발전하며 빅데이터(Big Data)의 개념이 등장한다. 현실 세계의 곳곳에서 셀 수 없이 많은 데이터가 실시간으로 수집되는 것이다. 많은 데이터를 학습한 딥러닝 알고리즘은 더욱 정교하게 구축된다. 데이터 패러다임의 변화는 딥러닝 기술 발전의 큰 기반이 되었다.

▲ 2016년 3월 9일 진행된 알파고와 이세돌의 대국을 그린 다큐멘터리 영화 ‘AlphaGo – The Movie’ ()

그리고 2016년, 딥러닝은 또 한 번 세상을 바꾼다. 구글 딥마인드가 개발한 AI 알파고(AlphaGo)가 4승 1패로 바둑기사 이세돌 9단을 꺾으며 승리, 전 세계에 AI의 존재를 각인한 것이다. 알파고는 딥러닝 알고리즘과 강화학습*, 몬테카를로 트리 탐색* 알고리즘을 결합해 탄생했다. 이를 통해 수만 번의 자가 대국을 진행하여 스스로 학습하고, 인간의 직관을 모방하여 수를 예측하고 전략까지 세울 수 있었다. ‘인간을 꺾은 AI’의 탄생은 본격적인 AI 시대의 시작을 알린 신호탄이었다.

* 강화학습(Reinforcement Learning): AI가 행동을 학습하는 방식 중 하나. 행동에 따른 결과를 보상의 형태로 알려주면서, 주어진 상태에서 최적의 행동을 선택하는 전략을 찾게 한다.

* 몬테카를로 트리 탐색(Monte Carlo tree search, MCTS): 일련의 난수를 반복적으로 생성하여 함수의 값을 수리적으로 근사하는 확률적 알고리즘의 일종. 현 상황에서 선택 가능한 행동들을 탐색 트리로 구조화하고, 무작위적 시뮬레이션을 통해 각 행동의 득실을 추론하여 최적의 행동을 결정하는 기능을 한다.

챗GPT를 필두로 시작된 ‘생성형 AI’ 붐

▲ 생성형 AI 개념도

2022년 말, 인류는 AI 기술로 거대한 변혁을 맞이했다. 오픈AI가 LLM(거대 언어 모델)* GPT(Generative Pre-trained Transformer) 3.5를 탑재한 ‘챗 GPT’를 출시하면서 생성형 AI(Generative AI)의 시대를 연 것이다. 생성형 AI는 인간의 고유 영역으로만 여겨지던 ‘창작’의 영역에 침투하여 다양한 포맷의 수준 높은 콘텐츠를 생성한다. 데이터를 바탕으로 예측하거나 분류하는 딥러닝의 수준을 넘어 사용자의 요구에 따라 LLM이나 다양한 이미지 생성 모형(예: VAE, GAN, Diffusion Model 등)을 활용해 스스로 결과물을 생성하는 것이 특징이다.

* LLM(Large Language Model, 거대 언어 모델): 방대한 양의 데이터를 통해 얻은 지식을 기반으로 다양한 자연어 처리 작업을 수행하는 딥러닝 알고리즘

생성형 AI의 시작은 2014년 이안 굿펠로우(Ian Goodfellow)가 발표한 ‘GANs(Generative Adversarial Networks, 생성적 적대 신경망)’ 모델이다. GANs는 두 신경망이 서로 경쟁하면서 학습하는 구조다. 한 신경망은 실제 데이터와 구분하기 어려운 새로운 데이터를 생성하고 다른 신경망은 이를 실제 데이터와 비교하여 판별하는데, 이 과정을 반복하며 점점 더 정교한 데이터를 완성한다. GANs 모델은 이후 변형과 개선을 통해 현재까지 이미지 생성 및 변환 등 다양한 응용 분야에서 활발하게 사용되고 있다.

2017년에는 자연어처리(Natural Language Processing, NLP) 모델 ‘트랜스포머(Transformer)’가 발표된다. 트랜스포머는 데이터 간의 관계를 중요 변수로 고려한다. 특정 정보에 더 많은 ‘주의’를 기울여 데이터 사이의 복잡한 관계와 패턴까지 학습할 수 있으며, 더 중요한 정보를 포착해 이를 기반으로 더 나은 품질의 결과물을 생성할 수 있다. 트랜스포머 모델은 언어 이해, 기계 번역, 대화형 시스템 등의 자연어 처리 작업에 혁신을 가져왔다. 특히, 앞서 언급했던 GPT 등의 LLM의 출현에 크게 영향을 미쳤다.

2018년 처음 출시된 GPT는 매년 더 많은 매개변수와 학습 데이터를 사용해, 빠른 속도로 성능을 개선해 왔다. 그리고 2022년, GPT-3.5를 탑재한 대화형 인공지능 시스템 챗GPT가 출시됐고, AI의 패러다임을 완전히 바꿔놓았다. 챗GPT는 사용자와의 대화에서 맥락을 잘 이해하고 적절한 반응을 제시할 수 있으며, 답변할 수 있는 영역 또한 광범위했다. 출시 일주일 만에 사용자 수 100만 명을 돌파했으며 두 달 만에 활성 이용자 수 1억 명을 넘기는 등 전세계적으로 폭발적인 인기를 끌었다.

2023년, 오픈 AI는 기술적으로 한 단계 도약한 GPT-4를 출시했다. GPT-4는 GPT-3.5보다 약 500배 더 큰 데이터 셋을 활용한 모델로, 텍스트를 넘어 이미지와 오디오, 비디오 등 다양한 입력 데이터를 동시에 처리하며, 데이터 포맷 역시 다양하게 생성하는 LMM(멀티 모달 모델)*으로 진화했다. 챗GPT가 촉발한 생성형 AI 붐을 타고, 기업들은 너나 할 것 없이 다양한 생성형 AI 서비스를 출시하고 있다. 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해할 수 있는 구글의 제미나이(Gemini)와 이미지 내 특정 객체를 정확하게 인식하고 분리할 수 있는 메타의 샘(SAM), 텍스트 프롬프트 기반으로 영상을 제작하는 오픈AI의 소라(Sora) 등이 대표적이다.

* LMM(Large Multimodal Model, 멀티 모달 모델): 텍스트뿐만 아니라 이미지, 오디오 등의 다양한 유형의 데이터를 처리할 수 있는 딥러닝 알고리즘

생성형 AI 시장은 이제 시작이다. 글로벌 시장 조사업체인 IDC(International Data Corporation)의 보고서에 따르면 2024년 생성형 AI 시장은 전년 대비 2.7배나 높은 401억 달러 규모로 성장할 전망이다(AI타임즈, 2023). 또한, 매년 성장을 가속화하여 2027년에는 1,511억 달러 수준으로 성장할 것이라 예측했다. 앞으로 생성형 AI는 소프트웨어를 넘어서 하드웨어, 인터넷 서비스 등 다양한 포맷에 도입될 것이다. 기능은 상향 평준화될 것이며, 더 많은 사람들이 손쉽게 이용할 수 있도록 편의성은 확장될 것이다.

일상을 바꾸는 AI와 미래 전망

AI는 2000년대의 구글 검색, 2010년대의 모바일 SNS처럼 사회 전반에 새로운 변화와 기회를 제공하는 구심점으로 기능하고 있다. 기술의 발전 속도는 비슷한 사례를 찾아보기 힘들 정도로 빠르며, 그 과정에서 인류의 도전과 고민 역시 커지고 있다.

그렇다면 ‘Next 생성형 AI 기술’은 무엇일까? 현재 가장 주목받는 미래 AI 기술은 단연 ‘온디바이스(On-Device) AI’다. 일반적으로 AI 서비스를 이용하기 위해서는 대규모 클라우드 서버와 통신하여 엣지 디바이스로 데이터를 끌어와야 한다. 하지만 온디바이스는 휴대폰, PC 등의 전자기기에 AI 칩셋과 sLLM(Smaller LLM)을 설치해서 자체적으로 AI 서비스를 구동할 수 있다. AI 구동에 따른 보안이나 자원 문제를 해결할 수 있는 대안이며 동시에 더욱 개인화된 AI 서비스까지 제공할 수 있다.

▲ 클라우드 기반 AI와 온디바이스 AI 구조 비교

온디바이스 AI와 같이, 앞으로 AI는 더 많은 기기에 탑재될 것이며 그 형태는 계속해서 진화할 것이다. 이미 영화에서나 볼 수 있었던 혁신적인 아이템이 시장에 출시됐다. 2023년 미국 AI 스타트업 휴메인(Hamane)이 출시한 AI Pin은 사용자의 손바닥에 메뉴를 투영하는 레이저 잉크 디스플레이를 탑재한 웨어러블 AI 디바이스다. CES 2024에서 소개되며 화제를 모았던 래빗(Rabbit)의 R1, 브릴리언트 랩스(Brilliant Labs) Frame 역시 AI 기술을 탑재한 혁신적인 웨어러블 디바이스다. 또한, 애플의 비전 프로(Vision Pro), 메타의 퀘스트(Quest)와 같이 AI 기술을 적용한 혼합현실(Mixed Reality, MR) 헤드셋은 기존의 가상현실(Virtual Reality, VR) 과 메타버스를 넘어선 새로운 시장을 창조하고 있다.

빠른 기술 발전은 새로운 기회를 만들어내지만, 동시에 사회적 문제를 야기하기도 한다. AI 기술의 빠른 발전 속도를 따라가지 못하는 사회 전반에서 여러 가지 우려의 목소리가 나오기 시작했다. 특히, 상상 속에서만 존재하던 AI가 실체를 가지고 현실 공간으로 들어오며, 이를 악용한 사례들이 등장했다. AI가 만들어낸 정교한 허위 콘텐츠는 가짜 뉴스를 양산하며 사회적 혼란을 조장한다. 최근 미국 대선 등 대형 선거를 앞둔 여러 국가들을 중심으로 가짜 영상, 이미지 등의 딥페이크(Deepfake) 콘텐츠에 대한 우려가 커지고 있는 상황이다.

▲ 생성형 AI가 묘사한 딥페이크 기술로 인한 사회적 불안과 혼란(DALL·E)

AI 개발 및 활용 과정에서 발생할 수 있는 위험 요소도 존재한다. 생성형 AI가 사전 학습을 위해 웹상에 공개된 자료들을 크롤링하고, 재조합하는 과정에서 수많은 창작물이 표절의 대상이 될 수 있다는 점이다. 또한, 동일한 생성형 AI 프로그램과 비슷한 프롬프트로 생성한 콘텐츠 간의 저작권 다툼 우려도 있다. AI가 사람들의 업무 진행에 도움을 주고 생산성을 높이는 것을 넘어 일자리를 대체하고 노동시장 구조의 변화를 본격화할 것이라는 전망도 마냥 반가운 이야기만은 아니다.

이제 AI가 만드는 세상은 이제 인류의 상상력을 넘어섰다. 한 번도 경험하지 못한 세상이 너무 빠르게 다가오고 있다. 우리는 예상치 못한 미래의 변혁을 어떻게 대비해야 할까? 이에 대한 올바른 대처 방안을 수립하기 위해서는 AI에 대한 깊은 이해와 분석을 바탕으로 보다 구체적인 고민과 사회적 논의가 필요하다.

※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.