<드래곤 길들이기>,
AI로 다시 보기
- 글 컴퓨터공학부 1 안채원
- 편집 항공우주공학과 2 임채민
서문

3D 재개봉으로 다시금 주목받고 있는 애니메이션 <드래곤 길들이기>! 준수한 퀄리티로 실사화되었다는 평가를 받으며, 흥행에 성공했는데요. 훌륭한 영상미와 현실적이면서도 실감나게 구현된 드래곤 묘사가 관객들의 마음을 사로잡았습니다.
이야기의 무대는 바이킹과 드래곤이 오랫동안 대립해 온 '버크' 섬입니다. 주인공 히컵은 힘이 약해 늘 무시당하지만, 전설의 드래곤 '나이트 퓨리'(투슬리스)를 잡는 데 성공합니다. 그러나 죽이지 않고 풀어준 그는, 부상당한 투슬리스를 돕는 과정에서 우정을 쌓고 드래곤에 대한 시각을 완전히 바꾸게 됩니다. 결국 히컵은 투슬리스와 함께 마을을 위협하는 거대한 적 '레드 데스'에 맞서 싸우고, 바이킹들은 드래곤과 공존할 수 있음을 깨닫습니다.
저는 이 영화에서 히컵과 투슬리스가 처음 마음을 열고 소통하는 장면이 특히 인상 깊었습니다. 전혀 다른 존재였던 둘이 서로를 이해하기 위해 시도하고, 실패하고, 다시 맞춰 가는 과정이 마치 인공지능의 학습 과정과 닮아 있다는 생각 때문이었습니다. AI도 처음에는 아무것도 모른 채 데이터를 받아들이지만, 반복적인 상호작용 속에서 점점 '상대가 무엇을 원하고, 어떤 의미를 담고 있는지'를 배우게 됩니다. 히컵이 투슬리스의 표정과 행동에서 의도를 읽고, 투슬리스가 히컵의 움직임과 목소리에서 신호를 알아차리는 모습이 AI와 어떤 부분에서 닮았다고 할 수 있을지 알아보겠습니다!
AI의 학습 과정과 주인공들의 첫 대면

이야기에서 가장 인상적인 장면 중 하나는 히컵과 투슬리스가 처음으로 마음을 여는 순간입니다.
히컵은 물고기를 먹는 투슬리스를 보고, 그 생존을 돕고 싶다는 의사(호의)를 전하기 위해 직접 물고기를 가져다줍니다. 그 뒤 그는 투슬리스를 자극하지 않기 위해 시선을 피한 채 천천히 손을 내밉니다. 그러자 투슬리스는 망설이다가 그 손에 머리를 살짝 갖다 대죠. 눈을 크게 뜨다가 서서히 가늘게 뜨고, 동공이 변화하고, 으르렁거리다가도 입을 다무는 등 다양한 신호를 보입니다.
이 과정에서 히컵은 투슬리스의 행동이 뜻하는 바를 정확히 이해하지 못하기도 했습니다. 예를 들어, 투슬리스가 눈을 가늘게 뜨며 자신의 먹이였던 물고기를 토해 주었을 때, 처음에는 화난 줄 알았지만 사실은 '호의'의 표현이었던 것이죠. 이렇듯 히컵은 시행착오를 거치며 투슬리스의 행동과 의도를 하나씩 연결해 나갑니다.

이 모습은 AI의 학습 과정과 닮아 있습니다. 인공지능은 우리가 주는 단어나 문장을 '그대로' 이해하지 못합니다. 대신 인공지능은 기본적으로 단어나 개념을 수치화하여 '벡터 공간'이라는 수학적 공간 속 좌표로 바꾸어 표현하죠. 이때 의미가 비슷한 단어들은 가까운 위치에, 다른 단어들은 먼 위치에 놓이고, 그 거리를 통해 AI는 개념 간의 관계를 파악하는 것이죠. 이 과정을 '임베딩(embedding)'이라고 합니다. 더 많은 의미를 담고 싶다면, 하나의 숫자가 아니라 벡터나 행렬처럼 여러 숫자가 연속된 형태로 표현합니다.
이렇게 만든 임베딩이 정확할수록 AI의 학습 결과도 더 좋아집니다. 그래서 개발자들은 데이터셋을 활용해 여러 번의 epoch 동안 AI가 해당 문제를 더 잘 풀 수 있도록 계속 학습시킵니다.
히컵 역시 처음에는 오직 버크 섬의 인간들과 소통하던 경험만을 바탕으로 드래곤의 의도를 해석했습니다. 그러나 투슬리스를 만나고 그 행동을 관찰하며 의미를 해석하는 과정을 통해, 점점 '드래곤과의 소통'에 익숙해집니다. 마치 AI가 새로운 데이터를 학습해 특정 환경에 최적화되듯, 히컵도 자신의 '행동-의도 벡터'를 서서히 조정해 나간 것입니다.
멀티모달리티 - Unified-IO 2 모델

하지만 AI의 학습과 영화 속 사례에는 중요한 차이가 있습니다. AI는 주로 텍스트 데이터만을 바탕으로 학습하지만, 현실 속 히컵과 투슬리스는 시각, 청각, 촉각 등 오감을 모두 활용해 서로에 대한 정보를 얻는다는 점입니다. 이 차이를 반영하듯, 최근 인공지능 개발에서는 여러 형태의 데이터를 함께 활용하는 '멀티모달리티(Multimodality)' 개념이 주목받고 있습니다.
모달리티(Modality)는 '양식', '양상'이라는 뜻인데요, 보통 어떤 현상이나 그것을 받아들이는 형식을 말합니다. 지금의 '멀티모달'은 시각, 청각을 비롯한 여러 양식을 통해 정보를 주고받는 것을 말하는 개념이며, 이렇게 다양한 모달리티를 동시에 받아들여서 학습하고 사고하는 AI를 '멀티모달 AI'라고 합니다. 쉽게 말하면 인간이 사물을 받아들이는 다양한 방식과 동일하게 학습하는 AI라고 볼 수 있겠네요. 우리가 일상생활에서 흔히 사용하는 GPT, Gemini 같은 모델도 사진이나 파일 데이터를 이해하고 생성한다는 점에서 멀티모달 AI입니다.
이 개념이 각광받는 이유는 다양한 형식의 데이터를 하나의 벡터 공간에 매핑해 학습시키면 AI 모델의 학습 효율과 이해 수준이 크게 향상된다는 연구 결과 때문입니다.
아래 이미지는 그 예시입니다.

'Unified-IO 2'는 텍스트, 이미지, 오디오 등 여러 형식의 데이터를 'dynamic packing'이라는 방식으로 하나의 벡터 공간에 매핑해 학습하는 모델입니다. 이를 통해 AI는 서로 다른 종류의 정보를 함께 분석하며 더 풍부한 의미를 이해할 수 있습니다. 이런 최신 연구를 바탕으로 다시 영화를 살펴보았을 때, 더더욱 AI는 AI는 히컵과 투슬리스처럼 다양한 감각과 신호를 종합해 의미를 해석하고, 서로 다른 존재와 소통할 수 있는 가능성에 한 발 더 다가가고 있음을 알 수 있습니다.'
영화 속의 강화 학습

히컵과 투슬리스의 관계 변화는 마치 인공지능이 세상을 배우는 과정을 압축해서 보여주는 듯합니다. 처음 두 존재는 서로의 언어를 전혀 이해하지 못합니다. 히컵은 인간 사회의 규칙과 경험에 맞춰 행동하고, 투슬리스는 드래곤의 습성과 본능에 따라 반응합니다. 하지만 반복적인 만남 속에서 서로의 행동을 관찰하고, 시도와 실패를 거듭하며, 조금씩 의미를 맞춰 나갑니다.
그런데 영화 속 교감 장면을 보면, 히컵과 투슬리스는 단순히 '언어'라는 한 가지 채널만 쓰지 않습니다. 눈빛, 표정, 동공의 변화, 몸짓, 소리, 심지어 먹이를 건네는 행동까지 - 즉, 오감을 모두 활용해 서로를 이해합니다. AI 분야에서는 이러한 다양한 형식의 데이터를 동시에 활용하는 방식을 멀티모달리티(Multimodality)라고 부릅니다. 텍스트, 이미지, 오디오 같은 데이터를 한 벡터 공간에 함께 매핑하면, AI가 더 풍부하고 정확하게 의미를 학습할 수 있다는 연구 결과도 있습니다. 마치 히컵이 투슬리스의 표정과 소리를 함께 보고 들어야만 진짜 의도를 알 수 있었던 것처럼요.
이 과정을 강화 학습(Reinforcement Learning) 관점에서도 볼 수 있습니다. 강화 학습은 '마코프 결정 과정'이라는 틀을 기반으로, 어떤 상태에서 행동을 취했을 때 보상을 받는 구조를 가집니다. 영화 속에서 '상태'는 둘이 마주하고 히컵이 먹이를 건네는 상황, '행동'은 손 내밀기나 눈 가늘게 뜨기, '보상'은 투슬리스의 긍정적인 응답이나 관계의 신뢰라고 할 수 있겠네요. 이를 압축적으로 보여 주는 히컵이 손을 내밀었을 때 투슬리스가 머리를 대는 장면은 '행동 → 긍정적 보상'이라는 경험이 축적되어 둘의 관계가 크게 진전되는 순간입니다.
결국 히컵과 투슬리스의 관계는 '멀티모달 데이터를 기반으로, 반복적인 보상 경험을 통해 강화 학습으로 신뢰 관계를 최적화해 나가는 과정'으로 생각할 수 있는 것이죠.
마무리
그동안은 주로 영상미나 스토리에만 주목했다면, 이번에는 '다른 종(種)과의 소통'이라는 관점에서 영화를 바라보는 것도 흥미로웠습니다. 이런 시각은 크게 보면 반려동물과의 관계, 작게 보면 사람과 사람 사이의 소통과도 맞닿아 있기도 합니다. '다른 사람은 작은 세상이다'라는 말처럼, 타인은 우리와 전혀 다른 벡터 공간을 가지고 있을지도 모릅니다. 그렇다면 타인을 이해한다는 것은, 깊은 대화와 긴 시간을 통해 서로의 벡터를 서서히 유사하게 정렬해 가는 과정이 아닐까요?
"인간 관계의 모든 고민은 '너는 왜 내가 아니라서 그런 말을, 그런 행동을 하는가'에서 시작된다"는 말을 참 좋아합니다. 언뜻 보면 평생 이해할 수 없을 것 같은 사람도, 사실은 우리 사이의 간극이 너무 크기 때문일 수 있습니다. 그렇기에 그 거리를 줄여 보려는 시도가 필요합니다.
예술과 기술은 이런 생각을 가능하게 합니다. 이 <드래곤 길들이기> 속 한 장면을 통해서도 우리는 AI, 학습, 의미 정렬 같은 개념을 떠올릴 수 있고, 그 과정을 통해 인간과 인간, 나아가 인간과 다른 존재가 어떻게 서로를 이해할 수 있는지 다시 생각하게 됩니다. 어쩌면 이것이 단순한 기술을 넘어, 기술 철학이 필요한 이유가 아닐까요?
그림 출처
- 메인 https://www.dreamworks.com/movies/how-to-train-your-dragon-2025#gallery
- 그림1,2,6. https://www.dreamworks.com/movies/how-to-train-your-dragon-2025#gallery
- 그림3. https://developers.google.com/machine-learning/crash-course/embeddings/embedding-space?hl=ko
- 그림4. https://www.samsungsds.com/kr/insights/multi-modal-ai.html
- 그림5. https://www.marktechpost.com/2024/01/01/meet-unified-io-2-an-autoregressive-multimodal-ai-model-that-is-capable-of-understanding-and-generating-image-text-audio-and-action/