フィジカルAI – ロボット基礎の習得

Robotics Deep Dive

Physical AI Era

Physical AI時代のロボット工学:
原理から実装の最前線まで

ロボットは単なる機械ではありません。それは物理世界(フィジカル)と計算世界(デジタル)が衝突する最前線です。 アクチュエータ、センサ、制御理論、そしてAIがどのように統合され、摩擦や遅延といった物理的制約を乗り越えているのか。 本稿では、基礎的な制御ループの概念から、最新のヒューマノイド開発を支える技術までを包括的に解説します。

ロボットを理解する最短ルートは、それを「物理の世界に介入するための、閉ループ制御系(Closed-loop System)」として捉えることです。 AIがどれほど高度になっても、最終的には物理的なアクチュエータを動かし、その結果をセンサで観測し、次の瞬間の指令値を決定するというサイクルから逃れることはできません。

基本の1ループ(関節制御の例)

目標(角度/速度/トルク) → 制御器(PID等) → パワーエレクトロニクス/モーター → 機械(リンク) → センサ(エンコーダ等) → 目標との差(誤差)へ戻る

4つの構成要素と支配的な制約

ロボットシステムは主に4つの層で構成されています。それぞれの層には、専門家が常に意識している「制約」が存在します。

  • 機械(Mechanism): リンク、関節、減速機。ここでの支配的な要因は「剛性(硬さ)」「摩擦」「バックラッシュ(ガタ)」「共振」です。これらは制御の限界を物理的に決定づけます。
  • 電気(Electronics): モータードライバ、電源、配線。ここでは「電流制御の帯域」「ノイズ」「熱」が重要です。適切な電流制御なしに精密な動きは作れません。
  • 計測(Sensing): エンコーダ、IMU、カメラ、力センサ。センサには必ず「ノイズ」と「遅延」が含まれます。真の値を知ることはできず、常に推定する必要があります。
  • 計算(Computation): 制御アルゴリズム、OS、通信。ここでは「制御周期」と「遅延(レイテンシ)」が命です。計算が間に合わなければ、ロボットは振動し、転倒します。
Physical AI / Embodied AI の位置付け

Physical AI(身体性AI)は、主にこのピラミッドの上位層を革新します。

  • 上位(AIの領域):視覚言語モデルによる指示理解、把持手順の生成、不整地歩行の方策(Policy)決定。
  • 下位(制御工学の領域):関節のトルク制御、姿勢安定化、高周波の振動抑制。

重要なのは、「AIが賢くても、低レイヤ(制御)が不安定ならロボットは動けない」ということです。AIの指令を物理運動に変換する最終段では、依然として古典的な制御工学の知識が不可欠です。

1. アクチュエーション:動きを生み出す筋肉

ロボットの性能(力強さ、俊敏さ、安全性)の大部分は、アクチュエータの選定と設計で決まります。特に「モーター」と「減速機」の組み合わせは、制御のしやすさに直結する重要な要素です。

1-1. モーター技術:BLDCとベクトル制御

現代の高性能ロボットでは、BLDC(ブラシレスDCモーター)PMSM(永久磁石同期モーター)が標準的に採用されています。これらは従来のブラシ付きモーターと比較して、摩耗部品がなく寿命が長い、放熱性が良い、出力密度が高いといった利点があります。

ベクトル制御(FOC)の重要性

これらを精密に制御するために用いられるのがFOC(Field Oriented Control)です。FOCは、モーター内部の磁界の向きに合わせて電流を制御することで、無駄なエネルギー消費を抑えつつ、最大限のトルクを発生させることができます。トルクは電流に比例する(τ ≈ Kt · i)ため、電流制御の精度が力の制御精度に直結します。

1-2. モーターの種類の比較

種類特徴ロボ用途での使いどころ
BLDC / PMSM高効率・高出力密度。制御回路(インバータ)が必須。現代ロボの標準。関節、ドローン、ホイールなど。
ステッピングパルス数で位置決めが容易(開ループ制御)。脱調のリスクあり。3Dプリンタ、低コストな搬送機。高速・高負荷には不向き。
DCブラシ安価で制御が簡単だが、ブラシ摩耗やノイズが発生。玩具、教育用、短寿命でよい用途。
油圧圧倒的なパワー密度と耐衝撃性。Atlas(旧型)や重機。配管やオイル管理が難点で、電動化されつつある。

1-3. 伝達機構:減速機と構造の選択

モーター単体は高速回転が得意ですが、大きなトルクを出すのは苦手です。一方、ロボットの関節は低速で大きなトルクを必要とします。この「インピーダンス整合」を行うのが減速機の役割です。 しかし、減速機は摩擦、コンプライアンス(柔らかさ)、バックラッシュ(ガタ)といった非線形要素を系に持ち込むため、制御の難易度を上げる主因となります。

① ダイレクトドライブ (DD)

減速機を一切使わず、モーターのローターを直接負荷(アーム等)に接続する方式です。

  • 特徴: バックラッシュやギア摩擦が物理的に存在しないため、力の伝達特性(透明性)が極めて高い。外力を正確に感知でき、人間との接触において最も安全。
  • 課題: 必要なトルクをすべてモーターの磁力だけで生み出す必要があるため、モーター径が巨大になり、重量が増加する。熱設計もシビア。
  • 用途: 半導体ウェハ搬送ロボット、超高速パラレルリンクロボット、高精度な触覚デバイス。

② 波動歯車装置 (Harmonic Drive®)

楕円形のカム(ウェーブジェネレータ)と薄肉カップ(フレクスプライン)を変形させながら噛み合わせる特殊な減速機です。

  • 特徴: 「ノンバックラッシュ」が最大の特徴。小型軽量で1:30〜1:160といった高減速比が得られるため、協働ロボットやヒューマノイドの指・手首・肘に多用される。
  • 課題: 薄肉カップを変形させる構造上、角度伝達誤差(Angle Transmission Error)によるトルクリップル(振動)が発生しやすい。また「ソフトワインドアップ」と呼ばれるバネのような柔らかさがあり、剛性が低い。ラチェッティング(歯飛び)による破損リスクがある。

③ サイクロイド減速機 (RV減速機)

偏心運動するディスクとピンを組み合わせた機構です。産業用ロボットの事実上の標準です。

  • 特徴: 接触面積が広いため剛性が非常に高く、耐衝撃性に優れる。1:100以上の高減速比でも高効率。アームの根元や大型ロボットの脚など、重荷重がかかる部位には必須。
  • 課題: 構造が複雑で重量があり、部品点数も多い。慣性モーメントも大きくなりがちで、高速な力制御(バックドライバビリティ)には不向きな場合がある。

④ Quasi-Direct Drive (QDD: 準直動駆動)

近年の四足歩行ロボット(MIT Cheetah, Unitree等)で主流となった、「高トルク密度モーター」+「低減速比の遊星歯車(1:6〜1:10程度)」の組み合わせです。

  • 特徴: 減速比を低く抑えることで、減速機が持つ摩擦や慣性の影響を最小限にする。これにより、ギア付きでありながらDDに近い「透明性(Backdrivability)」を実現し、地面の反力を素早く制御できる。
  • 課題: モーター自体が高トルク(大径・多極)である必要がある。遊星歯車特有のバックラッシュ対策が必要。

⑤ 直列弾性アクチュエータ (SEA)

モーターと負荷の間に意図的に「バネ」を直列挿入する設計思想です。

  • 特徴: バネの変位量(フックの法則 F=kx)から、ノイズの少ない正確な力計測が可能。バネがローパスフィルタとして機能し、ギアや衝撃の高周波振動を吸収する。
  • 課題: 物理的なバネを入れるため、制御帯域(反応速度)が物理的に制限される。共振周波数が下がり、高速精密な位置決め制御は困難になる。

⑥ Tendon-driven (腱駆動)

モーターを胴体側に置き、ワイヤで関節を引っ張る方式です。

  • 特徴: 重いモーターを手先から排除できるため、慣性モーメントが激減し、俊敏な動作が可能になる。
  • 課題: ワイヤの伸び、プーリーの摩擦、配索の複雑さが課題。ワイヤの張力を維持するためのプリテンション機構が必要。

2. センシング:物理世界をデジタル化する

正確な制御には正確な計測が不可欠です。ロボットのセンサは、自身の状態を知る「内界センサ」と、環境を知る「外界センサ」に大別されます。

2-1. 内界センシング:身体感覚

  • エンコーダ: 関節の角度を測ります。光学式は高精度ですが埃に弱く、磁気式は堅牢ですが精度で劣る傾向があります。分解能が高いほど、速度制御や微分成分の質が向上します。
  • 電流センサ: モーターに流れる電流を測ります。トルクは電流に比例するため、実質的に「筋肉が出している力」を測るセンサとして機能します。
  • IMU(慣性計測装置): 加速度と角速度を測り、重力方向や自身の姿勢を推定します。しかしIMUの信号は積分して使うため、時間とともに誤差(ドリフト)が蓄積します。

2-2. 外界センシング:視覚と力覚

種類特徴課題
視覚 (Vision)
RGB, Depth, LiDAR
情報量が最も多い。対象物の形状、距離、意味を把握する。計算負荷が高く、遅延が発生しやすい(数十ms〜)。照明変化や遮蔽に弱い。
力覚 (Force/Torque)
6軸力センサ
手首などで「接触力」を直接測る。組付けや研磨作業に必須。高価で壊れやすい。過負荷保護が必要。
触覚 (Tactile)
GelSight, 圧力分布
指先の接触形状や滑りを検知する。Gel系はカメラでゴムの変形を撮る方式。配線が複雑になりがち。耐久性や表面の摩耗対策が必要。
音 (Audio)異常検知(異音)、HRI(音声対話)。マイクアレイでの音源定位。環境ノイズ(自機のモーター音など)の除去が必要。
センサーフュージョン 単一のセンサでは限界があるため、複数を組み合わせます。例えば、IMUのドリフトを補正するために、足の接地情報(運動学)やカメラ画像(Visual Odometry)をカルマンフィルタ等で統合し、正確な自己位置を推定します。

3. 制御とAI:数理モデルから学習へ

アクチュエータをどう動かすか。ここでは、伝統的な制御理論から最新のAI活用までを連続的に捉えます。

3-1. 基礎:PID制御と逆運動学

最も基本的かつ強力な制御はPID制御です。目標値とのズレ(P)、ズレの蓄積(I)、変化の勢い(D)を見て出力を調整します。シンプルですが、摩擦や重力の影響を事前に計算して上乗せする「フィードフォワード制御」と組み合わせることで、実用上十分な性能を発揮します。

また、手先を特定の位置に動かすには、各関節を何度にすればよいかを計算する逆運動学(IK: Inverse Kinematics)が必要です。関節数が多い(冗長な)ロボットでは解が無数に存在するため、障害物を避ける、関節への負荷を減らすといった評価関数を用いて最適な姿勢を数値的に解きます(ヤコビアンを用いた最適化)。

3-2. 発展:現代制御と力制御

  • モデル予測制御 (MPC): 歩行ロボットのようにバランスが重要な系では、今の瞬間のことだけでなく「数秒先」まで予測して動く必要があります。物理モデルを使って未来の挙動をシミュレーションし、制約(転ばない、滑らない等)を満たす最適解をリアルタイムに計算し続けます。
  • インピーダンス制御: 接触作業において、「位置」ではなく「柔らかさ(バネ・ダンパ特性)」を制御する手法です。これにより、未知の物体にぶつかっても壊さず、人間のように柔軟にならう動作が可能になります。

3-3. 最前線:AI制御とSim2Real

近年急速に普及しているのが、AI(ニューラルネット)に制御を行わせるアプローチです。特に強化学習(Reinforcement Learning)は、試行錯誤を通じて歩行や把持などのスキルを獲得させます。

Sim2Real:シミュレーションから現実へ 実機で何万回も転んで学習させるのは不可能です。そこで、シミュレータの中で高速に学習させ、その脳を実機に移植する手法が主流です。
ここで重要になるのがドメインランダム化(Domain Randomization)です。シミュレーション内の摩擦係数、リンクの重量、センサノイズなどを意図的にランダムに変動させて学習させることで、現実世界の不確実性やモデル誤差に対して頑健な(ロバストな)AIを作ることができます。

4. ソフトウェア基盤:ROS 2とリアルタイム性

ロボット開発のデファクトスタンダードであるROS(Robot Operating System)は、OSではなくミドルウェアです。カメラ、モータ制御、地図生成などの機能を独立したプログラム(ノード)として作り、それらを通信でつなぐアーキテクチャを採用しています。

4-1. ROS 2の設計思想

現行のROS 2では、通信の基盤にDDS(Data Distribution Service)という産業用標準規格を採用しました。これにより、信頼性の高い通信や、リアルタイム性の確保が可能になりました。

特に重要なのがQoS(Quality of Service)の設定です。「一部データが欠落してもいいから最新のセンサ値を最速で送る(Best Effort)」のか、「遅れてもいいから確実に指令を届ける(Reliable)」のか、用途に応じて通信品質を細かく定義できます。これが噛み合わないと通信自体が成立しないため、システム設計の要となります。

4-2. リアルタイム性の罠

「リアルタイム」とは「高速」という意味ではなく、「決められた時間内(デッドライン)に処理が終わることを保証する」という意味です。 ロボットのバランス制御などでは、1ミリ秒でも処理が遅れると転倒につながります。

そのため、実務では重要な制御ループ(1kHz〜)はROSの通信層から切り離し、専用のマイコンやRTOS(リアルタイムOS)スレッドで実行させるのが定石です。ROSはあくまで上位の指令やロギング、可視化のために使用します。

5. 補足

教科書的な制御理論だけでは、現実のロボットはうまく動きません。ここでは、実務や実装の現場で「壁」となりやすい物理現象と、それを克服するための技術を紹介します。

5-1. 共振と剛性:軽さは正義か?

ロボットを軽く作ると、動作が俊敏になり、安全性も高まります。しかし、軽量化は「構造剛性の低下」を招きます。部材が薄くなると、ロボット全体がバネのようにたわみやすくなります。

問題は共振(Resonance)です。制御ゲインを上げて素早く動かそうとすると、その指令が構造の固有振動数を刺激し、激しい振動(発振)が始まります。 共振周波数は概ね f ∝ √(剛性k / 質量m) で決まります。軽くしても剛性がそれ以上に下がれば、共振周波数は下がり、制御できる帯域(速さ)の上限が下がってしまいます。
対策: 構造解析(FEM)での剛性確保、ノッチフィルタによる特定周波数のカット、あるいはSEAのようにあえて柔らかくして共振を管理する設計が必要です。

5-2. 外乱オブザーバ (DOB) の深層

高価な力センサを使わずに外力を検知する技術として、外乱オブザーバ(Disturbance Observer: DOB)が広く使われています。 これは「入力した電流(トルク指令)」と「エンコーダで測った実際の動き」の差分を監視し、そのズレを「外乱(外からの力)」として逆算する手法です。

メリット
  • 追加のセンサコストがゼロ。電流制御ループ内で高速に計算できるため、応答性が非常に高い。
  • モデル化誤差(パラメータのズレや未知の現象)も含めてすべて「外乱」として推定するため、これを使ってフィードバックすることで、モデルが完璧でなくても制御を安定させられる(ロバスト性が高い)。
デメリット(落とし穴)
  • 「接触力」だけを検知したい場合、モデル化誤差(摩擦や重力のズレ)も外乱に含まれてしまうため、誤検知の原因になる。正確な力推定には、高精度なシステム同定が必要。
  • 減速比が高い場合、手先の外力がモーター軸には減衰して伝わる(1/減速比)うえ、減速機内部の大きな摩擦に埋もれてしまうため、実質的に外乱を検知できなくなる(バックドライバビリティの喪失)。

5-3. 接触推定:ゴム変形と歪みゲージ

物体との接触を知る方法は、F/Tセンサだけではありません。

  • 視触覚(Visuotactile): GelSightなどが有名です。柔らかいゴムの中にカメラを埋め込み、ゴムが物体に押し付けられて変形する様子を内側から撮影します。微細なテクスチャや形状を高解像度で取得できますが、絶対的な「力(ニュートン)」の精度は高くありません。
  • 歪みゲージ: 金属の微細な伸び縮みを電気抵抗の変化として読み取ります。非常に高精度ですが、貼り付け作業が難しく、温度変化で値がドリフトするため、温度補償回路(ホイートストンブリッジ等)の設計が必要です。

5-4. おすすめ:システム同定 (System Identification)

制御パラメータ(PIDゲインなど)を勘で決めるのは限界があります。 プロはまず、ロボットに「チャープ信号(周波数が徐々に上がる波)」などを入力し、その応答を計測します(周波数応答解析)。 これにより、そのロボットが「どの周波数で共振するか」「どこまでゲインを上げられるか」を可視化(ボード線図)できます。 制御不能なものを制御することはできません。まずは対象を知ることが、実装の近道です。

6. 開発の最前線:量産化とエコシステム

現在、ロボット産業は「特注品の研究開発」から「標準機の量産」へとフェーズが移行しています。

6-1. ヒューマノイドのコモディティ化

Unitree社のH1/G1やTeslaのOptimusに代表されるように、人型ロボットの低価格化・量産化が進んでいます。これらは独自設計の高トルク密度モーターと、AIによる学習ベースの運動制御を組み合わせることで、従来の精密制御ロボットよりもラフな環境で動けるタフさを手に入れました。特にUnitreeはモーターの仕様やAPIを積極的に公開しており、世界中の研究者が共通のプラットフォームとして使い始めています。

6-2. サプライチェーンの進化

ロボットの「部品」も進化しています。NVIDIAのJetsonのようなエッジAIコンピュータは、複数のカメラ映像と大規模なニューラルネットをロボット内部で処理することを可能にしました。また、減速機やセンサも中国メーカーの台頭により価格破壊が起きており、個人や小規模チームでも高度なロボットを作れる環境が整いつつあります。

7. ロボットの「頭脳」:最先端AI研究の潮流

従来のロボットは「決められた通りに動く」ことが仕事でしたが、これからのロボットは「見て、考えて、動く」能力が求められます。ここでは、Physical AIの中核をなす最先端の研究トレンドを紹介します。

7-1. VLAモデル (Vision-Language-Action)

ChatGPTのような大規模言語モデル(LLM)に、視覚(Vision)と行動(Action)の入出力を統合したものです。 Google DeepMindのRT-2PaLM-E、オープンソースのOpenVLAなどが代表例です。 「青いブロックを捨てて」という指示に対し、画像認識と言語理解を同時に行い、ロボットの手先位置などの「アクショントークン」を直接出力します。これにより、事前のプログラミングなしで、抽象的な命令を実行できるようになります。

7-2. Diffusion Policy (拡散モデルによる方策)

画像生成AI(Stable Diffusionなど)で使われる「拡散モデル」を、ロボットの動作生成に応用した技術です。 従来のAIは、例えば「障害物を右に避ける」データと「左に避ける」データを混ぜて学習すると、平均をとって「真っ直ぐ突っ込む」という失敗をしがちでした(マルチモーダル性の欠如)。 Diffusion Policyは、ノイズから動作の分布を復元するプロセスを経ることで、「右に行くか、左に行くか」という明確な意思決定を含む、複雑で繊細な動作を生成できます。

7-3. World Models (世界モデル)

人間が頭の中で「こう動いたらこうなるだろう」と想像するように、AIの中に物理世界のシミュレータ(メンタルモデル)を持たせる研究です。 DreamerV3などが有名です。AIは脳内のシミュレーション(潜在空間)で未来を予測しながら行動を選択できるため、現実世界での試行錯誤を減らし、未知の環境への適応能力が高まると期待されています。

参考文献・資料

本サイトでご紹介する各情報は生成AIにより生成された情報を含んでおり情報が不正確または不適切な場合があります。

コメント