【公開収録イベント 参加チケット購入先】
・11/29(土) ジャケギキ公開収録イベント「おちつきAIラジオ」
https://peatix.com/event/4685734/view
・11/30(日) ジャケギキ公開収録イベント「ラスト・ワン・ミニット」
https://peatix.com/event/4689943/view
---
今月の「科学系ポッドキャストの日」共通テーマは『トリビア』!おちつきAIでは、AIが報酬欲しさに人間を欺く現象「リワードハッキング(報酬ハッキング)」のトリビアをお届けします。 前半は、現役エンジニアのしぶちょーが「強化学習」の基礎を優しく解説。伝説の囲碁AI「AlphaGo」が引退した真の理由や、ルールすら自学する最新AI「MuZero」、医療に応用される「AlphaFold」までの進化の歴史を紐解きます。 後半は、AIが編み出した驚きのズル行動を当てるクイズ大会!「死なないためにポーズ画面で停止するテトリスAI」など、想定外のハック事例にかねりんが挑みます。AIの進化と、人間が果たすべき役割について楽しく学べる70分です。
【目次】
(00:00) 毎月10日は「科学系ポッドキャストの日」!今回の共通テーマはトリビア
(05:13) 本日の企画発表!AIのズルを見抜け「強化学習リワードハッキングクイズ」
(06:57) まずは基礎から復習!AI学習の3分類と「あめちゃん」で学ぶ強化学習
(15:02) 行動をテーブルで管理するQ学習と、組み合わせ爆発を起こす「次元の呪い」
(20:43) 脳みそを持ったDQN(Deep Q-Network)の登場と進化
(23:15) 伝説の囲碁AI「AlphaGo」が引退した本当の理由と汎用人工知能への道
(27:45) 人間のデータは不要!?ルールだけで神の領域に達したAlphaGo Zero
(32:20) ルールすら教えない「MuZero」と、創薬を変えた「AlphaFold」
(41:37) ここから本題!報酬欲しさに目的を見失う「リワードハッキング」とは
(44:22) 【例題】50m走で最速を目指した結果、身長を伸ばして倒れ込んだロボット
(46:58) 【第1問】ロボットハンドが「掴んだフリ」をするために使った驚きの手法
(49:33) 【第2問】ゲームオーバー回避のためポーズ画面で永遠に停止したテトリスAI
(52:51) 【第3問】利益最大化のためにシミュレーション上で違法取引をした株AI
(59:04) 【第4問】盤面の彼方に石を置き、相手をメモリオーバーさせた五目並べAI
(63:04) まとめ:AIが賢くなるほど、人間がルールを正しく定義する責任は重くなる
(69:30) 11月29日 18時~20時原宿でリアルイベントの告知
【今回の放送回に関連するリンク】
・本:最強囲碁AI アルファ碁 解体新書 増補改訂版
https://amzn.to/47Kaj32
【今回の要チェックキーワード】
強化学習(Reinforcement Learning):
AIが「行動」と「報酬」のサイクルを通じて学ぶ方法。良い結果を出すと報酬を得て、その経験からより良い行動を選ぶようになる。
教師あり学習(Supervised Learning):
入力データとその正解(ラベル)をセットで与えて学習させる手法。たとえば「画像→猫」というように、正解を教えながら学ばせる。
教師なし学習(Unsupervised Learning):
正解のないデータを使い、AIが自らパターンや関係性を見つけ出す手法。代表的なのはクラスタリング(似たもの同士をまとめる)など。
RLHF(Reinforcement Learning from Human Feedback):
人間の評価やフィードバックを使ってAIを強化学習する手法。ChatGPTのように「人間らしい応答」を学ばせるために使われる。
報酬ハッキング(Reward Hacking):
AIが報酬を最大化するために「ズル」を覚えてしまう現象。目的の本質を理解せず、報酬だけを稼ぐ行動を取ることがある。
AlphaGo(アルファ碁):
Google DeepMindが開発した囲碁AI。人間の棋譜と強化学習を組み合わせ、2016年に世界トップ棋士・李世乭(イ・セドル)氏に勝利して話題になった。
AlphaGo Zero(アルファ碁ゼロ):
人間の棋譜を一切使わず、囲碁のルールだけを与えて自己対戦を繰り返し、最強になったAI。短期間でAlphaGoを超える実力を示した。
AlphaZero(アルファゼロ):
囲碁・将棋・チェスといった複数のボードゲームに対応する汎用AI。自己対戦による強化学習で、各分野の専用AIを圧倒する性能を発揮。
MuZero(ミューゼロ):
ゲームのルールすら知らない状態から、観察を通してルールを推測し、学習するAI。AlphaZeroの進化版で、より「人間の学び」に近い。
AlphaFold(アルファフォールド):
DeepMindが開発したタンパク質構造予測AI。アミノ酸配列から立体構造を正確に予測し、生物学・創薬研究に革命を起こした。従来は数年かかっていた解析を数時間で実現する。—----------------------------#科学系ポッドキャストの日 参加回!
11月のトークテーマ「トリビア」:ホストはサイエントーク
科学系ポッドキャストの日とは?:https://scien-talk.com/science_podcast/
企画プレイリスト→ https://open.spotify.com/playlist/0VXcho1KfS79fEPn0frZ5Z
—----------------------------
【番組の概要】
日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。
★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。
【番組公式ハッシュタグ】
#おちつきAI
【番組公式X】
https://x.com/ochitsuki_AI