로봇에게 일하는 법을 알려주는 AI의 '꿈': Dream2Flow가 현실의 문제를 해결하는 법

서론: 공상 과학이 현실로

공상 과학 영화 속에서 로봇이 척척 집안일을 대신해주는 장면을 한 번쯤 보셨을 겁니다. 빨래를 개고, 요리를 하고, 집을 정리하는 로봇은 오랫동안 미래의 상징이었습니다. 하지만 왜 아직 우리 집에는 그런 로봇이 없을까요? 그 이유는 로봇에게 새로운 작업을 가르치는 일이 상상 이상으로 어렵기 때문입니다. 인간과 로봇은 신체 구조, 움직이는 방식, 세상을 인식하는 방법이 완전히 다릅니다. 이 근본적인 차이를 **'체화 격차(embodiment gap)'**라고 부르며, 이는 로봇 공학의 가장 큰 난제 중 하나였습니다.

만약 로봇이 AI가 '상상'한 작업 수행 영상을 보고 스스로 방법을 터득할 수 있다면 어떨까요? 최근 스탠포드 대학교 연구팀이 개발한 'Dream2Flow'는 바로 이 질문에 대한 놀라운 해답을 제시합니다. 이 프레임워크는 비디오 생성 AI의 '꿈'을 이용해 로봇이 현실 세계의 문제를 해결하도록 돕습니다.

1. 로봇의 '상상력 엔진'이 된 비디오 생성 AI

Dream2Flow의 가장 놀라운 점은 최신 비디오 생성 AI를 로봇의 '상상력 엔진'으로 활용한다는 것입니다. 사용자가 "빵을 그릇에 담아줘"와 같은 간단한 텍스트 명령과 현재 상황을 담은 RGB-D(컬러+깊이) 이미지 한 장을 제공하면, AI는 사람이 그 작업을 수행하는 짧은 비디오를 '생성'하거나 '상상'해냅니다. 생성된 비디오는 다시 비전 파운데이션 모델을 통해 객체 마스크, 깊이 정보, 움직임 추적 등 정교한 데이터로 분석됩니다.

이것이 왜 중요할까요? 이 방식은 로봇에게 복잡한 코딩이나 수많은 시연 데이터 없이도, 거의 모든 종류의 작업을 직관적인 언어로 지시할 수 있는 새로운 가능성을 열어줍니다. 특정 작업에 대한 사전 데이터 없이도 곧바로 임무를 수행할 수 있게 하는 것, 이것이 바로 '제로샷(zero-shot)' 방식의 핵심입니다. 연구팀은 이 아이디어의 중요성을 다음과 같이 요약합니다.

"생성형 비디오 모델링은 개방된 세계에서의 조작을 위해 그럴듯한 물리적 상호작용을 제로샷으로 추론하는 강력한 도구로 부상했습니다."

2. '어떻게'가 아닌 '무엇을': 핵심은 객체의 움직임

%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%BA%90%EC%8A%A4%ED%8A%B8_2026-01-07_17-27-41.webm

Dream2Flow의 가장 독창적인 부분은 생성된 비디오를 로봇이 그대로 모방하지 않는다는 점입니다. 로봇은 비디오 속 사람의 손이나 팔의 복잡한 움직임을 따라 하려 애쓰지 않습니다. 대신, Dream2Flow는 조작 대상이 되는 '객체'의 3차원 움직임 경로, 즉 **‘3D 객체 흐름(3D object flow)'**만을 추출합니다. 예를 들어 "서랍을 열어줘"라는 명령이 주어지면, 시스템은 사람의 손이 아닌 '서랍' 자체가 시작점에서 목표점까지 이동하는 3차원 궤적에만 집중합니다.

이러한 추상화는 Dream2Flow의 힘이 지닌 개념적 핵심입니다. 행위자의 '특정한 행동'이 아닌 객체의 '바람직한 결과'에 초점을 맞춤으로써, 이 프레임워크는 '체화 격차'라는 고르디우스의 매듭을 깔끔하게 끊어냅니다. 연구팀의 표현을 빌리자면, 이 접근법은 **"환경에서 무엇이 일어나야 하는가(즉, 상태의 변화)를 특정 신체가 그것을 어떻게 달성하는가(즉, 행동)로부터 명확하게 분리"**합니다.

이러한 분리 덕분에 Dream2Flow는 놀라운 범용성을 갖습니다. 이 시스템은 단단한 고체(rigid), 관절로 연결된 연결체(articulated), 형태가 변하는 변형체(deformable), 심지어 입자형(granular) 물질까지 다룰 수 있습니다. 빵과 같은 고체를 그릇에 옮기는 것은 물론, 스카프 같은 변형체를 그릇 위에 덮거나 흩어진 파스타를 쓸어 담는 복잡한 작업까지 가능한 이유가 바로 여기에 있습니다.

3. 하나의 꿈으로 여러 로봇을 가르치다

**'3D 객체 흐름'**이라는 중간 표현 방식은 특정 로봇에 종속되지 않아 매우 일반적이고 확장성이 뛰어납니다. AI가 꾼 '꿈'은 보편적인, 로봇에 구애받지 않는 설명서 역할을 합니다. 3D 객체 흐름이 그 보편적인 언어이며, 각각의 로봇은 자신만의 고유한 물리적 방언으로 그 언어를 번역하는 원어민과 같습니다.

Dream2Flow는 이 점을 여러 종류의 로봇을 대상으로 한 실험을 통해 증명했습니다. 동일한 '문 열기' 작업에 대한 3D 객체 흐름 데이터를 사용하여, 산업용 로봇 팔인 '프랑카 판다(Franka Panda)', 보스턴 다이내믹스의 네 발 로봇 '스팟(Spot)', 그리고 인간형 로봇 **‘GR1'**이 각각 자신만의 독특한 방식으로 문을 여는 데 성공했습니다. 예를 들어, 스팟은 더 나은 접근성을 위해 몸통 베이스를 움직였고, GR1은 더 나은 안정성을 위해 손가락과 손바닥 사이의 넓은 면적을 이용해 문을 당겼습니다. 각 로봇은 자신의 신체적 특성에 맞는 최적의 전략을 스스로 찾아낸 것입니다.

4. 불완전한 상상력이 가진 힘과 한계

물론 AI가 생성하는 비디오가 항상 완벽하지는 않습니다. 때때로 AI는 물리적으로 이상한 영상을 만들어냅니다. 예를 들어, 빵을 옮기는 영상에서 빵이 갑자기 크루아상으로 변하는 **'객체 변형(object morphing)'**이 일어나거나, 영상에 없던 물체가 갑자기 나타나는 '환각(hallucination)' 현상이 발생하기도 합니다.

그럼에도 불구하고 Dream2Flow는 실제 로봇 실험 60회 중 40회(약 67%)를 성공적으로 완수하는 놀라운 결과를 보였습니다. 어떻게 이것이 가능했을까요? 그 이유는 시스템이 비디오의 시각적 결함보다는 객체의 '그럴듯한 움직임'이라는 핵심 정보에 집중하기 때문입니다. 빵이 크루아상으로 변하더라도, 'A 지점에서 B 지점으로 이동한다'는 전체적인 움직임의 흐름만 타당하다면 로봇은 작업을 수행할 수 있습니다.

하지만 실패가 비디오 생성 단계에서만 발생하는 것은 아닙니다. 총 20회의 실패 중 12회는 비디오 생성 오류였지만, 4회는 '흐름 추출(flow extraction)' 단계에서, 그리고 4회는 '로봇 실행(robot execution)' 단계에서 발생했습니다. 이는 AI의 '꿈'이 완벽하더라도, 그것을 3D 경로로 '번역'하거나 로봇이 실제로 '행동'하는 과정에서도 여전히 기술적 난관이 존재함을 보여줍니다. 이는 현재 AI 기술의 한계와 그 안에서 실용적인 해법을 찾아낸 가능성을 동시에 보여주는 흥미로운 지점입니다.

결론: 로봇의 미래를 꿈꾸다

Dream2Flow는 비디오 생성 AI를 '상상력'으로, '3D 객체 흐름'을 '번역기'로 사용하여 인간의 언어적 지시를 다양한 로봇의 실제 행동으로 변환하는 확장 가능하고 일반적인 방법을 제시했습니다. 복잡한 프로그래밍이나 방대한 시연 데이터 없이, 로봇에게 "의자를 빼줘"나 "캔을 재활용해줘"라고 말하는 것만으로 작업을 시킬 수 있는 미래에 한 걸음 더 다가선 것입니다.

이 기술은 아직 초기 단계이지만, 그 잠재력은 무궁무진합니다. 만약 로봇이 AI의 꿈을 통해 무엇이든 배울 수 있게 된다면, 당신이 로봇에게 가장 먼저 가르치고 싶은 일은 무엇인가요?