Перед тем как вы погрузитесь в изучение статьи, обратите внимание на тот факт что всё упомянутое в ней не является финансовой рекомендацией для принятие более взвешенного решения просьба провести свое собственное исследование.

Вступление​

Мы привыкли восхищаться механикой роботов: мощные приводы, ловкие манипуляторы, сенсоры. Но, как и в Формуле‑1, где победу решают не только аэродинамика и лошадиные силы, а телеметрия, стратегия и микрокорректировки в ПО, в робототехнике главный разрыв создаёт именно софт. Железо определяет потенциал. Софт решает, пересечёт ли робот финиш первым.

Сегодня особенно это верно для гуманоидов: «мозг» — программное обеспечение — столь же важен и масштабируем, как и «тело». Идеально собранный робот не сделает сальто назад, если система управления не умеет правильно распределять усилие на каждой ноге при беге под уклон 14°. Зато скромная платформа с блестящим контролем способна на то, что недостижимо грубой силой.

Что на самом деле делает робот, когда «просто» переносит коробкуЧтобы поднять коробку и унести в угол комнаты, робот за секунды выполняет оркестр процессов:
  1. Зрение и восприятие: камеры выделяют объект, оценивают форму, размер, дистанцию; строится карта пространства и препятствий.
  2. Язык и инструкции: «Перенеси вон ту коробку в угол» — модель должна понять, что такое «вон та» и где именно «угол» в текущем контексте.
  3. Планирование: прокладка маршрута, выбор хватки (сверху/сбоку), оценка массы/содержимого, план пути в тесных проходах.
  4. Моторный контроль: десятки приводов синхронно работают, удерживая баланс; траектории рук выравниваются по ручкам коробки.
  5. Захват: пальцевые датчики оценивают вес и трение; хватка усиливается ровно настолько, чтобы не уронить и не раздавить.
  6. Ходьба с грузом: смещённый центр масс требует постоянных перерасчётов шага, коленей, скорости.
  7. Избежание препятствий: динамическое сканирование и экстренная перепланировка при внезапных помехах.
  8. Размещение: плавное опускание и отпускание в момент касания поверхности, с сохранением устойчивости.
  9. Обучение: логирование, корректировка внутренних моделей, «здравый смысл» на следующий раз.
Это родственно тому, как обучают большие ИИ‑модели: не прошивка правил, а обучение на массивах данных. Железо давно умеет не падать и делать сальто; снижение стоимости ускоряет массовость (свежий пример — доступные гуманоиды). Узкое место — мозги. Переход от «неуклюжих малышей» к «взрослым помощникам» — задача на триллионы. И это преимущественно задача данных и алгоритмов.
Немного терминов: размер модели (например, 7B или 50B параметров) — это ёмкость «памяти» сети, но не гарантия качества. Архитектура и данные решают не меньше. Хорошо обученная 7B способна обыграть плохо обученную 50B.

Фундаменты для роботики: четыре лидирующие линии​

  1. Physical Intelligence (Pi Zero)Идея: «GPT для роботов», единый мозг для множества тел и задач. Мультимодальное обучение на реальных демонстрациях, изображениях, текстах и сенсорике. Выход — низкоуровневые моторные команды. Импровизация вместо жёсткого кодирования: одна модель — разные бытовые задачи (сортировка, складывание, тостер и т. д.). Ставка — масштаб и обобщение, поддержанные огромным раундом финансирования и топ‑командой. Миссия — преодолеть парадокс Моравека: дать роботам интуитивную физическую смекалку детского развития, но за счёт данных и обучения.
  2. OpenVLAОткрытая 7‑миллиардная «генералистская» политика из академического консорциума. Обучена на одном из крупнейших наборов реальных демонстраций (Open X‑Embodiment), охватывающем 22 типа роботов и множество задач. Цель — «из коробки» управлять новыми роботами и задачами, часто без дообучения. Показала результаты, сопоставимые и выше закрытых более крупных моделей на многошаговых манипуляционных бенчмарках. Архитектура модульна: двойной визуальный энкодер (DINOv2 + SigLIP), языковая основа на LLaMA‑2 7B, проектор из визуального в токенное пространство, дальше — породнение действий. Сильная сторона — доступность, воспроизводимость и сообщество.
  3. NVIDIA Isaac GR00T N1Открытая базовая модель для обобщённой «гуманоидной» разумности. Двухсистемная схема: System 2 (медленное, планирующее VLM‑мышление) + System 1 (быстрый диффузионный трансформер моторики на траекториях). Сочетание планирования длинного горизонта и мгновенной реакции на возмущения. Обучена на смеси реальных демонстраций, симуляций Omniverse, эгоцентричных видео и синтетики. Разработчики могут доучивать под своё железо с небольшими данными. Подход — открытая экосистема и «общий мозг» для разных тел, чтобы ускорить стандартизацию и переиспользование навыков.
  4. Figure HelixИндустриальный прагматизм: фокус на качественных реальных демонстрациях (около 500 часов телеоперации) и автономной генерации «инструкций задним числом» (hindsight instructions), чтобы связать траектории с языком без армии разметчиков. Архитектура также System 2 (около 7B) + System 1 (~80M) с высокой частотой управления, единые веса для верхнего корпуса и кистей для координированных двухручных задач и даже мульти‑роботного управления. Ключ: работает полностью на борту (без облака), снижая задержки и повышая надёжность на производстве. Результат — обобщение на незнакомые объекты, бытовые и фабричные сценарии, скорость, сравнимая с человеком, и курс на масштабирование к десяткам тысяч роботов.

Недостающий слой: «ОС» для соединения мозгов и тел​

Фундаменты — это мозги. Но нужен слой, который соединит любой мозг с любым телом и инфраструктурой. Концептуально такую роль стремится занять Codec: «операционная система» для VLA‑агентов и роботов. Идея — абстрагировать разнообразие железа, коммуникаций, симуляций и развёртываний, чтобы разработчики строили навыки, не тонув в драйверах и пайпингах. Изолированные «операторы» (pods) с GPU как модули мозга: один отвечает за зрение, другой — за равновесие, третий — за планирование; их можно комбинировать, масштабировать, обучать в симуляции, а затем переносить в реальный мир.

Зачем блокчейн​

Два ключевых мотиватора:
  • Рынок вычислений: распределённый пул для симуляций и мозгов с оплатой микротранзакциями; гибкость против «запирания» у одного облачного провайдера.
  • Маркетплейс навыков: публикация и монетизация операторов‑скиллов, понятная экономика лицензирования и распределения выручки. Это стимулирует коллективное улучшение и ускоряет диффузию лучших практик.
В результате возникает «Windows для ИИ‑автоматизации»: три слоя — вычислительный, системный и интеллектуальный. Цель — сделать развёртывание ИИ‑работников столь же простым, как установку приложения, и открыть путь к машинной экономике, где агенты платят за услуги друг другу автоматически.

Финальные мысли​

Робототехника готова к «сезону мозгов»: открытые и настраиваемые фундаментальные модели, модульная платформа исполнения, дешёвевшее железо и зрелые симуляции создают условия для скачка. Инвест‑нарратив уже формируется: за последние месяцы — крупные анонсы раундов, девятизначные оценки. Среди публичных «идеологических» ставок выделяется токенизированная платформа, которая делает акцент на глубине стека и архитекторной целостности.

Главный вывод прост:
  • Железо даёт потенциал. Софт превращает его в результат.
  • Побеждать будут те, кто совмещает качественные данные, грамотную архитектуру и открытую экосистему навыков.
  • Стандартизация «мозга» и «ОС» для роботов ускорит отрасль сильнее, чем ещё один процент эффективности привода.