News

Kudanの視点〜Kudan CTOが読み解く人工知能と人工知覚の結びつき〜

04.23.2024

Share on

Written by Anthony Glynn, Kudan CTO

ロボット工学とエッジコンピューティングに関するNVIDIAの視点

先月、Kudanはサンノゼで開催されたNVIDIAのGPU Technology Conference (GTC)とJetson Partner Dayに参加しました。ジェネレーティブAIや広範なロボティクス分野の最新動向に直接触れ、市場動向に対するNVIDIAの視点について理解を深め、NVIDIAのロボティクスチームやその他の潜在的な協力者と協力を進める絶好の機会となりました。

NVIDIAの成長の大部分は現在データセンターに集中しており、これは計算集約的なモデルが主流である生成AIの現在の状況を反映しています。大規模言語モデル(LLM)のパラメータ数は通常数十億であり、GPT-4のような最近の進歩は1兆パラメータの大台に乗ると推定されています。

しかし、ロボット工学やエッジ・コンピューティングにおけるアクセラレーテッド・コンピューティングとなると、まだ日が浅いです。小型言語モデル(SLM)とミニ視覚言語モデル(VLM)は、Orin Nanoを含むNVIDIA Jetsonデバイス上で実行可能です。しかし、エッジ・コンピューターは単一のタスク以上の処理を期待され、ロボットやエッジ・デバイスが実行するタスクの重要な性質は、エラーに対する許容度をはるかに低くする必要があります。チャットボットは何度かミスを犯してもユーザーに価値を提供できるが、ロボットがミスを犯せば、その代償は破滅的なものになりかねません。

エッジコンピューティングとロボティクスの将来に対するNvidia社の強気な見通しは、これらの分野への戦略的投資の指針となっています。この初期段階とその先に横たわる課題にもかかわらず、エッジAIの市場機会は紛れもなく大きいです。この市場拡大の時期はまだ不確定だが、それが意味する機会の大きさは明らかです。

ロボット工学におけるAIの役割

人工知能(AI)は、ロボット工学の分野に計り知れない影響を与えています。ディープ強化学習技術は、脚式ロボットによる凹凸のある地形の移動や、高速で移動するドローンの操縦など、予測不可能で複雑な環境におけるロボットの制御に不可欠なものとなっています。大規模言語モデル(LLM)もまた、タスク・プランニングや人間とロボットのインタラクション強化に直接応用されています。

多くの議論において繰り返されたテーマは、ロボット工学における学習済みAIモデルの将来的な役割でした。この分野は、エンド・ツー・エンドの学習済みモデルのみを使用する方向に進むのだろうか、それともモデル予測制御(MPC)のような伝統的な手法の居場所はまだあるのだろうか。最終的には学習ベースのアプローチが優位に立つと主張する者もいたが、一般的な意見としては、学習済み手法と古典的手法のどちらにもメリットがあり、相乗的に共存できるというものでした。

学習ベースのAIモデルをロボット工学に応用する際の主な課題は、質の高い学習データの取得でした。言語モデルや視覚モデルを学習するために容易に入手できるデータとは異なり、ロボット工学モデルには、具体的な実世界の相互作用から得られたデータが必要です。シミュレーションは、この問題を軽減するための重要な戦略となっており、NVIDIAの高度なロボティクス・シミュレーション・ツールへの投資を支えています。とはいえ、実世界のデータの必要性は依然として残っており、シミュレーション環境と実世界のギャップを埋めるという継続的な課題が浮き彫りになっています。

言語モデルがSLAMに与える影響

大規模言語モデル(LLM)と視覚言語モデル(VLM)が初めて提示した能力は、人工知能(AI)と人工知覚(AP)の融合による、真のセマンティックSLAMへの実現可能な道を示唆しています。歴史的に、SLAMは主にメトリックSLAMに焦点が当てられてきました。メトリックSLAMは、環境内の特徴の幾何学的配置をマッピングし、正確な位置と向きの推定値を生成することに関係します。一方、セマンティックSLAMは、環境からより高いレベルの意味を抽出することを目的としており、例えば、システムが、テーブル、椅子、カトラリー、グラス、食事をしている人々を識別することで、レストランのセッティングを認識できるようにします。

知覚ネットワークが、入力データや地図データから、人や車などいくつかの基本的なオブジェクトのカテゴリーを識別するために使われてきたことは事実です。しかし、このアプローチは意味理解への初期段階に過ぎず、拡張性に欠けていました。言語モデルは2つの利点を提供します。それは、以前に見たことのないカテゴリに対するオブジェクト検出器の記述と一般化を可能にし、新しいオブジェクトクラスに対して常にモデルを再学習する必要性をなくします。言語モデルはまた、環境のより高度な記述を構築するための構造化された出力の作成を容易にします。

真のセマンティックSLAMは多くの利点を提供します。SLAMによって生成されたマップを搭載したAIエージェントと対話する個人にとって、ユーザビリティの向上は即座にもたらされます。例えば、「階段を上って2階に行き、右に曲がって廊下を進み、青い両開きのドアをくぐると、両開きのドアの先、左側の3つ目のドアがある」といった、システムから提供される指示は、格段に直感的で意味のあるものになります。

真のセマンティックSLAMのもう一つの利点は、システムが何に注意を払う価値があり、何を無視してもよいかを理解できることです。例えば、家具や駐車中の車のような一過性のオブジェクトは、位置が変わる可能性があるため、再訪時に場所を認識するための信頼性が低くなります。より高度な環境記述を活用することで、システムのロバスト性は大幅に向上します。このアプローチでは、環境の外観だけでなく、環境の構造やレイアウトに注目することで、照明の違いなどさまざまな条件下でも、同じ場所を確実に認識することができます。

Kudanの方針

ロボット工学におけるエンドツーエンドの学習済みモデルと従来のアプローチの採用に関する議論は、ディープラーニングが脚光を浴び始めたSLAMコミュニティで生まれた過去の同様の議論を非常に思い起こさせるものでした。その際にコンセンサスとなった見解は、私たち自身の結論とも一致しています。たとえば、三角測量法のように、あるプロセスが方程式で簡潔に記述できる場合、その方程式を直接実装するのが最も効率的であることが多いです。しかし、ディープラーニングの強みは、異なる照明条件下で特徴がどのように見えるかを記述するような、簡単な数学的定式化が困難な課題に対処することにある。このことが、例えばビジュアルSLAMシステムでディープラーニングされた特徴量を使用することを探求する動機となり、私たちは人工知能(AI)を組み込んだSLAMの開発に成功するだけでなく、ディープラーニングモデルをSLAMに統合する新しい方法を検討し続けています。

Nvidia社をはじめとするパートナー企業との議論を通して、特にマッピング、ローカリゼーション、ナビゲーションに言語モデルの最近の開発をどのように活用できるかということに関連して、いくつかの新鮮な新しいアイデアを呼び起こしました。私たちは、これらのアイデアを試し、さらに探求することを楽しみにしていますし、これがモバイル・マシンのための空間知能の未来にどのような意味を持つのか、非常に期待が高まるとともに、今後公開を進めていきたいと考えています。


【Kudan株式会社について】
Kudanは、人工知覚(AP)のアルゴリズムを専門とする深層技術の研究開発企業です。人工知覚(AP)は、人工知能(AI)と相互補完する技術として、機械を自律的に機能する方向に進化させるものです。現在、Kudanはロボティクス・デジタルツイン・自動運転などを中心に幅広い次世代ソリューションに対して技術ライセンスを提供しています。詳細な情報は、Kudanのウェブサイト(https://www.kudan.io/jp/)をご参照ください。

■会社概要
会 社 名: Kudan株式会社
証券コード: 4425(東証グロース)
代 表 者: 代表取締役CEO 項 大雨

■お問い合わせ先はこちら

Share on

Recent Posts