『名古屋ではたらく社長のIT実験室』のカバーアート

名古屋ではたらく社長のIT実験室

名古屋ではたらく社長のIT実験室

著者: ikuo suzuki
無料で聴く

このコンテンツについて

名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。ikuo suzuki 科学
エピソード
  • Ep.34 Lex Fridman × Demis Hassabis
    2025/07/29

    Google DeepMindのデミス・ハサビスは、人工知能が物理学や生物学といった自然界の複雑なシステムをモデル化する能力について語ります。彼は、AlphaFoldのようなAIがタンパク質の折り畳みのような問題を解決する際に、自然界に見られるパターンを効率的に学習できるという仮説を提唱します。さらに、彼はAIがビデオゲームのオープンワールド環境を生成し、宇宙の性質をより深く理解することに貢献できると論じます。この講演の抜粋では、AIの能力の限界、特に意識や創造性の理解と模倣の可能性について検討し、将来の汎用人工知能(AGI)の開発における研究の方向性と課題を強調しています。

    続きを読む 一部表示
    2 時間 29 分
  • Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
    2025/06/17

    Discrete Diffusion Timestep (DDT) Tokensに関するこの論文は、マルチモーダル大規模言語モデル (MLLMs)における視覚理解と生成を統合する革新的なアプローチを提案しています。既存のMLLMが使用する空間視覚トークンは、言語に固有の再帰的構造が欠けているため、LLMが完全に習得するのが困難であるという問題点を指摘しています。この課題に対処するため、著者は拡散タイムステップを活用して、離散的で再帰的な視覚トークンを学習する新しい手法を導入しています。これらのDDTトークンは、ノイズの多い画像における漸進的な属性損失を再帰的に補償することで、LLMの自己回帰推論能力と拡散モデルの正確な画像生成能力を効果的に組み合わせ、シームレスなマルチモーダル理解と生成を可能にします。実験では、このアプローチが、他のMLLMと比較して、マルチモーダル理解と生成の両方で優れた性能を達成していることを示しています。

    続きを読む 一部表示
    9 分
  • Ep.32 CVPR 2025 Best Student Paper Honorable Mentions : 3D Student Splatting and Scooping
    2025/06/16

    この文書では、3D Gaussian Splatting (3DGS) という、新しい視点合成フレームワークの基本的な定式化を改善する研究が紹介されています。著者らは、3DGSのガウス分布の代わりに、より表現力豊かなStudentのt分布を使用する新しいモデル、Student Splatting and Scooping (SSS) を提案しています。SSSは、正の密度(スプラッティング)だけでなく**負の密度(スクーピング)**も利用することで、モデルの表現力とパラメータ効率を向上させています。また、Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) に基づく新しいサンプリング手法を導入し、学習時のパラメータの結合問題を解決しています。実験により、SSSが既存の手法と比較して、画像品質とパラメータ効率の両方で優れた性能を示すことが実証されています。

    続きを読む 一部表示
    8 分
まだレビューはありません