Jim Fan · NVIDIA 수석 연구원, 임바디드 AI 리드 — 파운데이션 모델을 물리 세계로 확장 · 2026.03.23 ~ 04.06 큐레이션
파운데이션 모델이 물리 세계로 확장되는 속도가 빨라지고 있어요. NVIDIA의 Jim Fan은 최근 로봇 에이전트의 오픈소스 공개부터 원격조종(teleop) 없는 로봇 학습, 그리고 에이전트가 불러오는 새로운 보안 위협까지 — 구체적이고 날카로운 관점을 연달아 내놓았습니다.
로봇 팔이 스스로 기술 라이브러리를 쌓는다 — CaP-X 오픈소스 공개
The power of the Claw, in the palm of a robot hand. Agentic robotics is here! Today, we open-source CaP-X: vibe agents, alive in the physical world. They incarnate as robot arms and humanoids with a rich set of perception APIs, actuation APIs, and auto synthesize skill libraries as they go. CaP-X is a strict superset of our old stack, because policies like VLAs are “just” API calls as well. It solves many tasks zero-shot that a learned policy would struggle with.
CaP-X는 로봇이 인식(SAM3 세그멘테이션, 깊이 추정)·제어(역기구학 솔버, 그립 플래너)·시각화 API를 조합해 작업하면서 스스로 기술 라이브러리를 만들어가는 에이전트 프레임워크예요. 187개 조작 과제를 담은 벤치마크(CaP-Gym)와 12개 최전선 LLM/VLM 비교 평가도 함께 공개됐어요. 특히 CaP-RL에서는 7B 오픈소스 모델이 50번의 학습 반복만으로 성공률을 20%에서 72%로 끌어올렸고, 시뮬레이션에서 만든 프로그램이 실제 로봇에 거의 그대로 이전됐다는 점이 인상적이에요.
2026년, 로봇 없이 로봇을 가르친다 — 탈원격조종 선언
Teleop is so 2025. Ever since we unveiled EgoScale and the dexterity scaling law, it’s been clear to us and the ecosystem that behavior cloning directly from humans is the way to break the curse of teleop. 2026 is all about scaling robot learning without robots.
원격조종(teleop)은 데이터 수집 비용이 크고 확장에 한계가 있다는 문제가 있었어요. Jim Fan은 EgoScale과 손재주 스케일링 법칙(dexterity scaling law)을 공개한 이후, 사람의 행동을 직접 모방하는 행동 복제(behavior cloning)가 이 한계를 돌파할 방법임이 분명해졌다고 밝혔어요. 로봇 없이 로봇 학습을 확장하는 것이 올해의 핵심 방향이에요.
바이브 에이전트의 그림자 — 파일시스템이 새로운 공격 표면
This is pure nightmare fuel. Identity theft of the past would be nothing compared to what vibe agents can do. Sending credentials is too obvious and for rookies. They could easily spread contaminations across ~/.claude, **/skills/*, or even just a PDF your agent visits periodically in /morning-brief. Your entire filesystem is the new distributed codebase. Every file that could go into context would add to the attack vector. Every text can be a base64 virus.
에이전트가 파일을 읽고 코드를 실행하는 환경에서는 자격증명(credentials) 탈취보다 훨씬 정교한 공격이 가능해요. 에이전트가 주기적으로 참조하는 PDF 한 장, 스킬 디렉터리 하나가 오염 경로가 될 수 있다는 거예요. Jim Fan은 이에 대한 해법으로 “de-vibing” — 에이전트 프레임워크 위에 감사(audit) 가능한 구식 소프트웨어 레이어를 덧씌우는 산업이 생겨날 것이라고 전망했어요.
Jim Fan의 글은 로봇 에이전트의 가능성과 위험을 동시에 직시하고 있어요. 능력이 커질수록 그것을 감싸는 ‘껍질(shell)’의 설계도 함께 고민해야 한다는 메시지가 일관되게 담겨 있습니다.
📚 출처 (Sources)
- [1]@drjimfan on 𝕏 · 2026-04-01 — “The power of the Claw, in the palm of a robot hand. Agentic robotics is here! Today, we op…”
- [2]@drjimfan on 𝕏 · 2026-03-23 — “Teleop is so 2025. Ever since we unveiled EgoScale and the dexterity scaling law, it’s bee…”
- [3]@drjimfan on 𝕏 · 2026-03-24 — “This is pure nightmare fuel. Identity theft of the past would be nothing compared to what …”
본 글은 Jim Fan(@drjimfan)이(가) 지난 14일간 X(트위터)에 올린 게시물 중 3건을 인용해
Claude(Anthropic)가 한국어로 큐레이션·해설한 것입니다. 원문 저작권은 작성자에게 있으며,
출처 목록의 [n] 번호 또는 본문 내 [n] 표시를 누르면 원문 트윗으로 이동합니다.
AI·로봇 뉴스레터
매주 월·목, 한국어 AI·로봇 핵심 소식을 이메일로 받아보세요.