セミナー　Zoom　Web配信　視覚基盤モデル Vision Foundation Model 視覚言語モデル VLM 視覚言語行動モデル VLA Physical AI Embodied AI 深層学習物体検出領域分割視覚タスク自動運転ロボット製造業自己教師あり学習 Self-supervised Learning 対比学習 Contrastive Learning マスク画像モデリング Masked Auto-encoder 自然言語処理 BERT GPT Transformer マルチモーダル学習 CLIP Vision Language Model 汎用外観検査集約型視覚基盤モデル 3D表現学習 Neural Radiance Fields NeRFs 3D Gaussian Splatting スチューデントt分布 VGGT Visual Geometry Grounded Transformer　CAD CADTalk CADDreamer 行動理解ロボティクス Set-of-Mark SoM Trace-of-Mark ToM Magma A Foundation Model for Multimodal AI Agents ロボットシミュレーション VLA Vision-Language-Action 早稲田大学　速水悟

　☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆

開催日時：2025年9月9日（火）13:00-17:00
受講料：お1人様受講の場合　51,700円[税込]／1名
　　　　　1口でお申込の場合　66,000円[税込]／1口（3名まで受講可能）

　★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
　お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★受講中の録音・撮影等は固くお断りいたします。

　速水　悟（はやみずさとる）　氏　

　　　早稲田大学　グリーン・コンピューティング・システム研究機構　上級研究員　/　研究院　教授（博士（工学））

＜経歴、等＞

　1981年、東京大学大学院　工学系研究科　修士課程修了。通商産業省工業技術院電子技術総合研究所、CMU 客員研究員、CNRS/LIMSI 客員研究員、岐阜大学教授を経て、2021年より、早稲田大学グリーン・コンピューティンクグ・システム研究機構。
著書「製造業向け人工知能講義」日経BP（2024/08）、日経クロステック「速水教授の人工知能講義」
　IEEE、エレクトロニクス実装学会、電子情報通信学会、日本技術士会等の会員。
　著書：バウンダリスキャンハンドブック（青山社、監訳）、Three-Dimensional Integration of Semiconductors （Springer、共著）ほか。
　研究分野：知覚情報処理／メディア情報学／機械学習。

　本セミナーでは、視覚基盤モデル（Vision Foundation Model）を技術者向けに解説します。この技術は視覚言語モデル（VLM）、視覚言語行動モデル（VLA）へと発展し、実世界との接点としてPhysical AI（Embodied AI）への適用が注目されています。そこで視覚基盤モデルの技術を解説し、工学分野・製造業に与える影響を考察します。

　講義項目

　1　視覚基盤モデルの重要性
　　　1.1　外界を認識し、行動する上で「見る」ことの重要性
　　　1.2　深層学習の深化：物体検出、領域分割など視覚タスクの広がり
　　　1.3　タスクごとのモデルから基盤モデルへの進化
　　　1.4　自動運転、ロボット、製造業における応用

　2　自己教師あり学習
　　　2.1　自己教師あり学習（Self-supervised Learning）の意義
　　　2.2　自己教師あり学習手法（対比学習: Contrastive Learning）
　　　2.3　マスク画像モデリング（Masked Auto-encoder）
　　　2.4　自然言語処理分野での成功（BERT、GPT）の波及

　3　Transformerのインパクトとマルチモーダル学習
　　　3.1　画像分野におけるTransformer のインパクト
　　　3.2　マルチモーダル学習：画像とテキストの融合（CLIP）
　　　3.3　視覚言語モデル（Vision Language Model）における言語の役割
　　　3.4　外観検査への視覚言語モデルの応用：汎用外観検査
　　　3.5　集約型視覚基盤モデル：AM-RADIO [CVPR2024]、 RADIO-v2 [CVPR2025]

　4　三次元（3D）世界への拡張：3D表現学習
　　　4.1　二次元（2D）視覚からの発展：なぜ3D理解が重要なのか？
　　　4.2　三次元表現手法（その1）：Neural Radiance Fields（NeRFs）
　　　4.3　三次元表現手法（その2）：3D Gaussian Splatting
　　　4.4　スチューデントt分布の適用：3D Student Splatting and Scooping [CVPR2025]
　　　4.5　VGGT：Visual Geometry Grounded Transformer [CVPR2025]
　　　4.6　CADとの連携：CADTalk [CVPR2024]、CADDreamer[CVPR2025]

　5　行動理解とロボティクスへの視覚基盤モデルの応用
　　　5.1　動画像からの人間動作理解：視覚の役割深化
　　　5.2　マークと軌跡の利用（Set-of-Mark：SoM、Trace-of-Mark：ToM)
　　　5.3　Magma: A Foundation Model for Multimodal AI Agents [CVPR 2025]
　　　5.4　ロボットシミュレーションにおけるVLA（Vision-Language-Action）モデル
　　　5.5　言語による汎化性＋推論による行動計画・実行の進化
　　　5.6　UI ナビゲーションから点検作業支援／安全管理への発展の可能性

注）テキストからの画像生成は時間の関係で扱いません。

『技術者のための視覚基盤モデル入門
　：2015年からの進化と未来』

S250909AW

速水　悟（はやみずさとる）　氏

早稲田大学　グリーン・コンピューティング・システム研究機構　上級研究員　/　研究院　教授（博士（工学））

『技術者のための視覚基盤モデル入門 ：2015年からの進化と未来』

S250909AW

速水 悟（はやみずさとる） 氏

早稲田大学 グリーン・コンピューティング・システム研究機構 上級研究員 / 研究院 教授（博士（工学））

『技術者のための視覚基盤モデル入門
　：2015年からの進化と未来』

　速水　悟（はやみずさとる）　氏　

　　　早稲田大学　グリーン・コンピューティング・システム研究機構　上級研究員　/　研究院　教授（博士（工学））