서울대·카이스트가 만든 1인칭 AI ‘EgoX’… 3인칭 영상을 내가 보는 시점으로 바꾼다
#EgoX #서울대카이스트 #1인칭AI #비디오확산모델 #VR콘텐츠 #AI논문
이건 진짜 “오늘의 논문 1위” 소리 나올 만합니다.
서울대와 카이스트 연구진이 공개한 EgoX라는 AI 프레임워크가 꽤 충격적인 결과를 보여줬습니다. 한 마디로 말하면, 3인칭(외부 시점) 영상을 자연스러운 1인칭 시점 영상으로 바꿔주는 AI입니다.
지금까지 1인칭 영상은 직접 촬영하거나, 게임·시뮬레이션처럼 처음부터 설계된 환경에서만 가능했죠. 그런데 EgoX는 단 하나의 외향적(3인칭) 영상만으로 ‘내가 직접 보고 있는 것 같은’ 시점을 만들어냅니다.
이게 왜 대단하냐면,
3인칭 → 1인칭 변환은 단순한 카메라 이동 문제가 아닙니다.
원래 보이지 않던 영역을 그럴듯하게 ‘새로 만들어야’ 하고, 시점이 급격히 바뀌어도 공간 구조와 동작이 깨지지 않아야 합니다. 기존 AI들이 가장 취약했던 부분이기도 하죠.
EgoX는 이걸 꽤 정교하게 풀어냈습니다.

핵심 기술을 간단히 풀어보면 이렇습니다.
먼저 비디오 확산 모델(Video Diffusion Model)을 기반으로 합니다. 여기에
- LoRA(저비용 파라미터 적응)를 사용해 대규모 사전학습 모델의 시공간 지식을 효율적으로 활용했고
- 외향적 시점 정보와 자기중심적(1인칭) 사전 정보를 함께 쓰는 통합 조건화 전략을 적용했습니다
그리고 가장 인상적인 부분이 바로
기하학 기반 자기주의(Geometry-aware Self-Attention) 입니다.
AI가 “아무 데나” 상상해서 채우는 게 아니라, 공간적으로 연결되는 영역에만 선택적으로 주의를 줘서 기하학적으로 말이 되는 장면을 만들어냅니다. 그래서 시각적 충실도와 일관성이 상당히 높습니다.
논문에서도 이 부분을 강하게 강조합니다.
보이는 장면은 최대한 그대로 유지하면서,
보이지 않는 영역은 공간적으로 일관된 방식으로 합성한다는 점이죠.
연구진 구성도 눈길을 끕니다.
서울대·카이스트 소속의 강태웅, 키남 김, 김도현, 박민호, 준하형, 재걸 추 연구진이 공동으로 참여했고, 12월 9일 공개 이후 AI 커뮤니티에서 빠르게 주목받고 있습니다.
이 기술이 어디까지 갈 수 있느냐 하면,
댓글에서 다들 공감하듯이 VR과 결합되면 판이 바뀝니다.
- 기존 스포츠·다큐·영화 영상을
→ “내가 그 현장에 있는 시점”으로 변환 - 교육·훈련 영상
→ 실제 체험에 가까운 1인칭 학습 - 로봇·자율주행·에이전트 학습
→ 인간 시점 데이터 대량 생성

이게 전부 기존 콘텐츠를 재활용해서 가능해진다는 게 핵심입니다.
정리하면 EgoX는
“1인칭 콘텐츠를 새로 찍어야 하는 시대”에서
“이미 있는 3인칭 영상을 1인칭으로 바꾸는 시대”로 가는 중요한 전환점에 가깝습니다.
아직은 연구 단계지만,
이 정도 완성도면 논문을 넘어 차세대 몰입형 콘텐츠의 기반 기술로 이어질 가능성이 충분해 보입니다.
서울대·카이스트가 또 한 번 제대로 한 건 건드린 느낌이네요.
핑백: 박나래, 모든 방송 자진 하차… “법적 절차 중, 추가 입장 없다” 정면 돌파 선택 - 케케우