次世代自律移動ロボットに向けて:Kudan Visual SLAM × NVIDIA Isaac Perceptorを搭載した視覚データ駆動型AMR技術の深掘り
03.18.2025
1. はじめに
自律移動ロボット(AMR)は、複雑で反復的、かつ危険な作業を自動化することで、産業界を急速に変革してきました。かつては基本的なセンサとあらかじめ設定された経路に基づいて動作していましたが、現在のAMRは進化を遂げ、視覚データを活用した高度なシステムへと発展しています。これにより、高度な3DビジョンとAI駆動の認識技術を活用し、リアルタイムで環境を解釈できるようになっています。
この革命の最前線にあるのが、精密な自己位置推定、堅牢な空間認識、リアルタイムのデータ処理を統合したソリューションです。こうした進化するニーズに応えるため、私たちは二つの最先端技術を融合させました。一つは、困難な実環境においても高度な精度・堅牢性・適応性を誇るKudan Visual SLAM。もう一つは、NVIDIA Isaac ROSをベースに構築され、AI駆動のワークフローを活用し、包括的な3D認識機能を提供するNVIDIA Isaac Perceptorです。
この度の統合により、AMRは3Dカメラから得られる豊富な情報を活用し、複雑かつ未構造化されたダイナミックな環境を認識・理解・移動する性能を強化しています。KudanのVisual SLAMが提供する堅牢で高度な自己位置推定・マッピング機能と、NVIDIA Isaac Perceptorのマルチカメラ3Dサラウンドビジョンを組み合わせることで、ロボットはこれまでにないレベルの環境認識と適応能力を発揮し、産業オートメーションや物流をはじめ、さまざまな分野において、新たな可能性の扉を開きます。
本記事では、Kudan Visual SLAMとNVIDIA Isaac Perceptorの統合がAMRの認識性能をどのように向上させ、自律型ロボティクスの進化を次のステージへと押し上げるのかを、技術的な観点から詳しく解説しています。
本ブログの主な内容:
- 3D カメラが 2D LiDAR に対して持つ利点
- ソフトウェアアーキテクチャと主要モジュール
- 産業環境における性能評価
- 期待されるメリット: コスト効率の向上、高精度なマッピング、優れた障害物検知、正確な自己位置推定
- 今後の技術革新
2. KdVisualとIsaac Perceptorの統合
従来の2D LiDARベースのシステムは一定の効果を発揮するものの、高コスト、特定の高さを超える障害物や動的要素の検出の難しさ、環境変化への適応性の低さといった課題を抱えています。こうした制約を克服するために、Kudan Visual SLAMとNVIDIA Isaac Perceptorの統合は、3Dカメラを活用した包括的な空間認識による革新的なソリューションを提供します。
Isaac Perceptorにより、AMRは3Dカメラデータを活用して、高精度なグローバル占有マップ及びローカル3D障害物マップを生成できるため、高価なLiDARハードウェアに依存する必要がなくなります。さらに、Kudan Visual SLAM技術の精密なトラッキングと堅牢なマッピング技術を組み合わせることで、以下のような大きなメリットをもたらします。
- コスト効率の向上:3Dカメラを活用することで、高価なLiDARセンサと比較してハードウェアコストを大幅に削減しながら、同等またはそれ以上のパフォーマンスを実現。
- カバー範囲の拡大:3Dカメラは、地面にある障害物だけでなく、頭上の障害物も検出可能。これにより、より広範囲の環境情報の把握が可能になり、運用時の安全性や衝突回避性能が向上。
- デュアル機能の活用:自己位置推定に使用されるカメラが同時に障害物検出も実行できるため、冗長なセンサハードウェアが不要となり、システム全体のコストをさらに削減。
- 動的障害物への耐性:視覚空間内での操作により、動的環境に対する本質的な耐性を提供。また、UNetベースのセグメンテーションマスクを統合することで、マップ生成やトラッキング時に動的障害物を効率的にフィルタリングし、よりクリアなマップと高精度な自己位置推定を実現。
- 複雑な環境への適応性向上:従来の2D LiDARベースの手法では、長い廊下のような特徴の少ないエリアや頻繁に景観が変化する動的環境で動作に課題。3DカメラベースのVisual SLAMでは、外観情報と幾何学的情報の両方を活用することで、テクスチャの少ない空間、構造的特徴が最小限の開放領域、継続的な視覚的変化が進行している環境でも、信頼性の高い位置特定が可能になる。
統合をさらに強化するために、NVIDIAのNvbloxパッケージを活用することで、深度画像から直接 グローバルおよびローカルのコストマップの両方を生成します。これにより、ROS 2 Nav2スタックと連携し、スムーズで信頼性の高いナビゲーションを実現し、安全性と運用効率を最適化しています。
また、高度なセンサフュージョンと堅牢なループクロージャーメカニズムを通じて、Kudan Visual SLAMはIsaac Perceptorの機能を活用したカスタムSLAMソリューションを提供し、精密かつ高信頼な自己位置推定を実現できます。この度の統合は、視覚データ駆動の認識と最先端のAI技術を効果的に融合することで、AMRナビゲーションの新たなスタンダードを確立し、高価な従来型センサに依存することなく、安全・効率的かつコストパフォーマンスの高い運用を可能にします。
重要なポイント: Kudan Visual SLAMとNVIDIA Isaac Perceptorの統合により、3Dカメラを活用して従来の2D LiDARシステムの限界を克服し、AMR向けにコスト効率が高く、堅牢で適応性のあるナビゲーションソリューションを提供します。
3. ソフトウェアアーキテクチャ
以下の図は、統合パッケージの全体的なソフトウェアアーキテクチャを示しており、Kudan Visual SLAMとIsaac Perceptorの間の統合と相互作用を重点的に説明しています。
主要ソフトウェアモジュールとその役割:
- ステレオ画像:ステレオカメラを使用して撮影
- Kudan Visual SLAM:マッピングおよびトラッキングのフェーズで、高精度なi位置推定と姿勢推定を提供
- Isaac ROS ESS Depth Inference:ステレオカメラ入力から深度画像を生成し、Nvbloxによって利用
- UNet セグメンテーションマスク:動的障害物(主に人)を検出し、それをNvbloxのコストマップおよびKudan Visual SLAMのマップから除外することで、正確な自己位置推定を実現
- Isaac ROS Nvblox:深度画像をメッシュおよびコストマップに変換し、ナビゲーションに活用
- Nav 2(ROS 2 ナビゲーションスタック):生成されたコストマップをもとに、ロボットの安全かつ効率的な移動を実現
- Rviz:マップの可視化機能を提供し、ナビゲーション目標位置情報の設定を可能にする
データフロー:認識からナビゲーションへ
本システムは、以下の2つの異なるフェーズで動作します。
マッピングフェーズ:
- 視覚マップの生成:Kudan Visual SLAMが高精度な視覚SLAMマップを作成
- グローバルコストマップの生成:NvbloxがKudan Visual SLAMの位置推定軌跡と深度画像を活用し、グローバルコストマップを構築
- 動的障害物のフィルタリング:UNetセグメンテーションマスクにより、動的障害物が視覚マップおよびグローバルマップから除外され、マップの精度が向上
トラッキングとナビゲーションフェーズ:
- Kudan Visual SLAMは事前に作成された視覚マップを活用し、正確なロボットの自己位置推定を実施
- Nvbloxのローカル3D再構築とコストマップにより、ROS 2 Nav2スタックが複雑な環境でもロボットを安全かつ効率的にナビゲートすることが可能
- セグメンテーションマスクを活用して動的障害物を適切に処理し、Kudan Visual SLAMのトラッキングの信頼性はさらに向上
統合における課題と解決策
このセットアップにおける主要な課題の一つは、視覚マップとグローバルコストマップの完璧な整合性と一貫性を確保することです。この課題を解決するために、2段階のマッピングプロセスを実装しました。
- Kudan Visual SLAMによる最適化された視覚マッピング:まずはKudan Visual SLAMを用いて、ループクロージャと最適化を施した高精度な視覚SLAMマップを生成。これにより、正確で安定した自己位置推定を確保
- 整合した軌跡に基づくNvbloxマップの生成:視覚マップとグローバルコストマップを別々に作成するのではなく、Kudan Visual SLAMマップから得られた軌跡を基に、同じデータセットからNvbloxマップを生成。このアプローチにより、Kudanのループクロージャと最適化プロセスの利点を活かしながら、Nvbloxのクリアな占有グリッド生成を効果的に統合し、両方のマッピングの整合性を確保
このようにマッピングフェーズを構築することで、両技術の強みを最大限に活用しながら、AMRのナビゲーションのための高精度で安定した一貫性のあるマップ表現を実現します。
重要なポイント: 本ソフトウェアアーキテクチャは、Kudan Visual SLAMとNVIDIA Isaac Perceptorを2段階アプローチで統合することで、マップの整合性などの課題にも対応しながら、正確な自己位置推定と効率的なナビゲーションを実現しています。
4. 性能評価と主要なメリット
本セクションでは、統合システムの評価結果を紹介し、その性能とメリットを検証します。
4.1 評価環境とシステムセットアップ
評価は、パレットラックや動的な産業環境を備えた3,000平方メートルの稼働中の倉庫にて実施され、性能を検証しました。テストプラットフォームとして、Nova Carter ロボットを使用し、以下の構成で試験を行いました:
- 3Dビジョンベースのナビゲーション用の4台のHawkステレオカメラ
- ベースライン比較用の2台の2D LiDAR
- マッピングとトラッキングにおける真値生成用の1台のHesai XT-32 3D-LiDAR
- トラッキングもおける真値生成用の1台のレーザー距離計
4つの重要な性能指標に焦点を当てた評価ポイント:
- マッピング品質 – ナビゲーション、障害物回避、経路計画をサポートするコストマップ構築の精度
- 衝突回避性能 – リアルタイムでの障害物検出および回避の有効性
- トラッキング精度 – 環境内を移動しながら正確な自己位置推定を維持する精度
- トラッキングの堅牢性 – 動的かつ複雑な環境での自己位置推定の安定性と信頼性
4.2 評価結果
マッピング精度
以下の画像は、次の2つのマップを比較:
- 真値マップ:3D-LiDARを使用して構築され、検出されたすべての静的および動的障害物を含む
- Nvbloxコストマップ:カメラ入力のみから生成され、占有と空きスペースを正確に表現
観察結果:
- Nvbloxコストマップは、カメラベースの認識のみで倉庫環境を正確に再現しており、LiDARベースのマッピングの代替手段としての実用性が証明された
- UNetセグメンテーションマスクを活用することで、Nvbloxコストマップでは動的障害物が自動的にフィルタリングされ、ナビゲーション精度が向上。対照的に、真値マップは比較のためにすべての動的要素を意図的に保持。
- マップ生成プロセス全体は非常に効率的で完全に自動化されており、手動介入が不要で、スケーラビリティと展開の即応性を確保
Nvbloxを用いたコストマップ生成の主要なメリットの一つは、環境の完全な3Dマッピングが可能 な点です。以下の動画では、Nvbloxがどのように高精細で構造化された3Dマップを構築し、従来の2Dコストマップと比較して、より明確で詳細な環境認識を提供するかを示しています。
ー衝突回避性能
リアルタイムでの障害物検出と衝突回避能力を評価するため、Nvbloxベースの3D認識と従来の2D LiDARを比較しました。
テストでは、グローバルコストマップには存在しなかった低い位置にあるパレットをロボットの経路上に配置しました。
Nvbloxのカメラベース認識は、パレットをリアルタイムで正確に検出し、コストマップを動的に更新。ロボットは軌道を調整し、衝突を回避することに成功しました。
一方、従来の2D LiDARは、低い位置のスキャンに制限があるためパレットを検出できず、ロボットが障害物に衝突する結果となりました。

Nvbloxと2D LiDARによる低い位置にあるパレットの検出結果の比較
同様のテストを、作業員、箱、緩んだケーブル、低反射率の物体など、さまざまな障害物を対象に実施しました。その結果、すべてのケースにおいて、Nvbloxは同等またはそれ以上の障害物回避性能を発揮しました。
この評価は、カメラベースの3Dマッピングにおける重要なメリットを示しています。すなわち、異なる高さの予期せぬ障害物を検出し、即座に対応できる能力により、動的かつ未構造化された環境でのナビゲーションの安全性が大幅に向上することが確認されました。
ートラッキング精度
Kudan Visual SLAMの自己位置推定精度を評価するため、以下の制御テストを実施しました。本テストでは、様々なシナリオにおいて正確に自己位置を維持するシステムの性能に焦点を当てています。
テストシナリオ
2つの異なるナビゲーションパターンを対象にテストを実施しました。
- 直線ナビゲーション – ロボットが25メートルの直線経路を移動し、位置のずれと自己位置推定精度の一貫性を評価
- 円形ナビゲーション – ロボットが30メートルのループ軌道を走行し、ターン時の位置のずれと自己位置推定の安定性を評価
評価指標
精度評価は、以下の2つの主要な基準に基づいて実施しました:
- 目標地点精度:事前に設定された目標地点への到達精度
- 軌跡精度:推定された軌跡が真値とどれだけ乖離しているか
真値基準
信頼性の高いベンチマークを確保するため、以下の方法を使用しました:
- 3D LiDARベースの自己位置推定(例:Kudan 3D-LiDAR SLAM)を軌跡の基準として使用
- レーザー距離計を用いて、目標地点精度を検証
テスト手法
統計的信頼性を確保するため、各テストシナリオを同一条件下で10回繰り返し実施しました
評価中にデータを収集・分析し、Kudan Visual SLAMの自己位置推定性能を真値測定値と比較しました。Kudan Visual SLAMは、2Dマーカーなどの人工的なマーカーを使用せず、自然環境の構造のみを活用して自己位置推定を実施しました。
結果
以下のセクションでは、評価結果を記載します。
1. 目標地点精度:
2. 軌跡精度:
軌跡精度 – 直線ナビゲーションのサンプル結果(3例)
軌跡精度 – 円形ナビゲーションのサンプル結果(3例)
評価結果から、Kudan Visual SLAMは産業環境におけるAMRの運用に十分な精度のトラッキングを提供していることを示しています。
さらに、より高精度を求めるアプリケーション(例:ドッキングシナリオなど) では、Kudan Visual SLAMは2Dマーカーを統合して精度を向上させることができ、必要に応じてセンチメートル以下の精度を達成することが可能です。
ートラッキングの堅牢性
最後のテストでは、Kudan Visual SLAMと2D LiDARベースの自己位置推定を比較し、過酷な環境下でのトラッキングの安定性と堅牢性を評価しました。評価には、以下の4つの主要なシナリオで実施されました:
- 構造変化 – 環境内の構造が変更された際の適応能力を評価
- 照明変化 – さまざまな照明条件下での自己位置推定性能を検証
- 動的障害物 – 環境内の移動障害物に対する耐性をテスト
- トラッキングロストからの復帰 – 一時的に自己位置を見失った際の復元能力を測定
構造変化への対応
照明変化への対応
動的障害物への対応
トラッキングロストからの復帰
本評価の結果、Kudan Visual SLAMはすべてのテストシナリオにおいて高い自己位置推定の堅牢性を発揮し、動的環境下でも安定したトラッキングを維持できることを実証しています。これは、単一のスキャン平面に依存する2D LiDARベースの自己位置推定では適応が難しい環境変化に対しても、Kudan Visual SLAMが優れた適応力を持つことを示しています。
また、この結果は Kudan Visual SLAMの環境適応性と信頼性の高さを示しており、静的かつ構造化された環境に限定されることなく、一貫したパフォーマンスを発揮できることを証明しました。この特長により、人工マーカーや追加の位置特定補助システム等を必要とせず、自然環境の構造のみで効果的に動作するため、実際の産業環境でのAMR展開において重要な利点となります。
4.3 主要なメリット
性能評価の結果、Kudan Visual SLAMとNVIDIA Isaac Perceptorの統合により、動的な産業環境において、コスト効率が高く、高精度で適応性に優れたAMR向けナビゲーションを提供できることが確認されました。
まとめると、主な利点は以下の通りです:
- コスト効率の向上 – LiDARに依存せず、3Dカメラを活用して自己位置推定と障害物検知を同時に実行。ハードウェアおよびメンテナンスのコストを削減
- マッピング精度と環境認識の向上 – 動的な障害物を自動的にフィルタリングし、正確でリアルタイムな3Dコストマップを生成。従来の2Dマップと比較して優れた空間理解を実現
- 高度な障害物検知と衝突回避 – 2D LiDARでは見逃しやすい低所・頭上・予測不能な障害物も検知し、安全性と運用の信頼性を向上
- 高精度で堅牢な自己位置推定 – 長距離の移動、動的環境、光の変化にも強い安定したトラッキングを維持
- 複雑な環境への適応性 – 環境の構造変化や移動物体に対する適応力が高く、トラッキングの復旧にも優れる。単一平面の2D LiDARと比較してコスト効率が高く、スケーラブルな運用が可能
カメラベースの認識を活用することで、本統合はスケーラブルでコスト効率が高く、適応性に優れたAMRナビゲーションを実現し、産業オートメーションにおけるLiDARベースシステムの有力な代替手段となることを実証することができました。
重要なポイント:本統合システムは、マッピング精度、衝突回避性能、トラッキング精度、堅牢性の各分野で優れた成果を発揮し、コスト効率と適応性を兼ね備えたLiDARベースシステムの代替ソリューションを提供します。
5. 今後の技術革新
高度なディープラーニング技術を活用することで、AMRは視覚データからより豊かで詳細な洞察を抽出できるようになり、単なるマッピングを超えて周囲の環境を真に理解する段階へと進化しています。この幾何学的認識から意味的理解へのシフトにより、ロボットは物体を認識し、移動パターンを予測し、動的要素をフィルタリングして、安定した関連情報のみを保持することが可能になります。
しかし、これはさらなる技術革新のほんの始まりに過ぎません。AI技術、特に画像ベースのインテリジェンスが進化することで、AMRはより深いコンテクスト認識を獲得することが期待されます。リアルな環境での実践から継続的に学習することで、予測不可能な産業環境への適応力、意思決定の洗練化、長期的な運用における耐久性の向上を実現していきます。これにより、あらかじめ設定された経路を単にたどるだけでなく、リアルタイムで周囲の状況に知的に対応するロボットが出現することでしょう。
コンテクストを理解するAMRの台頭
将来のビジョン搭載型AMRは、コンピュータービジョンと言語処理を組み合わせたマルチモーダルAIを統合し、環境の理解をさらに深化させるようになります。単に物体を検出・分類するだけでなく、それぞれの要素が持つ機能的な意味を特定のタスクの文脈の中で理解することが可能になります。
例えば、AMRは機械や家具を単に識別するだけでなく、空間内にある要素をもとにその目的を推測できるようになります。作業工具が揃った部屋であれば「作業場」と認識し、机やモニターが並ぶ空間であれば「オフィス」と判断するなど、より高度な環境認識が可能になります。このような深いコンテクスト解釈により、AMRは単なる自動化ツールの枠を超え、自律的な意思決定や積極的な問題解決が可能なインテリジェントエージェントへと進化していくでしょう。
認識能力の拡張と人間との協働
オープンボキャブラリー認識の進化により、AMRの適応性がさらに拡大し、これまで見たことのない物体や環境を識別しながら、適切に対応できるようになります。多様なデータセットでトレーニングされた基盤モデルを活用することで、AMRは事前にプログラムされたシナリオを超えて認識を一般化し、複雑で進化する環境においても堅牢でリアルタイムの適応力を発揮できるようになります。
さらに、AMRと高度な言語モデルを統合することで、人間とロボットのシームレスな協働を実現します。これらのロボットは自然言語の指示を解釈し、意思決定の理由を明確に説明できることで、人間とロボットの間に信頼関係が生まれ、協力が促進されます。この直感的なインタラクションにより、業務フローの合理化や運用効率の向上、職場の安全性の強化が実現します。
ビジョン搭載型AMRの未来
これらの技術革新により、かつてない知性と自律性を持って動作するAMRへと進化しています。ビジョン搭載型AMRは、もはや単なる受動的な観察者ではなく、状況に応じて能動的で、適応力があり、協働できる存在へ進化を遂げていきます。これにより、産業環境において、よりスマートで安全、そしてコンテクストを理解したロボティクスソリューションが実現されることでしょう。
6. 結論
本記事では、視覚データ駆動型AMRの技術に深く踏み込み、Kudan Visual SLAMとNVIDIA Isaac Perceptorの統合が、コスト効率の高いマッピング、優れた障害物検出、高精度な自己位置推定を通じて、AMRのナビゲーションをどのように再定義しているかを紹介しました。
評価結果から、3Dカメラを活用した認識技術はLiDARの代替として十分にスケーラブルであり、動的環境での適応性を大きく向上させることが確認されました。
ロボティクス技術の進化が続く中、私たちはAMRの開発者、研究者、業界関係者の皆様に、この統合ソフトウェアパッケージを活用していただき、堅牢で高性能な自己位置推定・環境認識機能を取り入れることで、AMRの効率性と信頼性をさらに向上させることを推奨してまいります。
今後の展望として、このソフトウェアスタックを統合したAMRの商用展開が始まり、実際の産業現場での大規模な導入を進めていく見込みです。産業オートメーションをはじめとする幅広い分野で、ビジョン搭載型AMR導入の次のフェーズに向けて進む中、今後の最新情報にご期待ください。