勝間和代が執筆速度を10倍にした音声入力の技術──メルマガ1000字を3分で書く方法
限界突破ライフハックに、経済評論家の勝間和代さんがゲスト出演。MCのけんすうさん・田中渓さんが「20年来の読者」として初対面を果たし、音声入力を軸にした執筆ワークフローの全貌に迫りました。SuperWhisper×Groq×Geminiの組み合わせでメルマガ1000字を3分で仕上げ、パソコン6台体制でどこでも書ける環境を構築しているという、その内容をまとめます。
2010年から続く音声入力の研究
今回の収録は、けんすうさんと田中渓さんにとって「原点」との初対面でもありました。二人とも20年以上前から勝間さんの著書を読み、生産性やライフハックの考え方を学んできたとのこと。田中さんが「みんな勝間だった」と表現するほど、番組の思想的ルーツが勝間さんにあることが冒頭で明かされます。
勝間さんの音声入力歴は長く、AmiVoice音声認識ソフトの老舗ブランド。医療・議事録など業務用途でも広く使われていた日本発の音声認識エンジンです。やDragon SpeechNuance Communications社が開発した音声認識ソフト。英語圏では業界標準的な存在で、日本語版も提供されていました。を使っていた2010年前後にまで遡ります。高性能マイクをぶら下げ、辞書を鍛えながらローカルで動かしていた時代から、Shimeji、Gboard、VoiceWinと「その時々に一番いいやつ」を乗り換え続けてきたそうです。
パソコン通信世代ですから。ローカルの頃からずっと研究してます
けんすうさんも「Shimejiは勝間さんの影響で使っていた」と振り返ります。当時はGboardに句読点機能がなく、句読点を付けてくれるShimejiをリモートマウス経由でパソコンに接続するという運用をしていたとのこと。15年以上にわたる試行錯誤の末に、現在の環境にたどり着いたことがわかります。
SuperWhisper × Groqという最適解
現在のメインツールは、OpenAIChatGPTやGPTシリーズ、Whisperなどを開発するAI企業。2015年設立。のWhisperモデルOpenAIが開発したオープンソースの音声認識モデル。多言語対応で高精度。2024年に開発がストップしたものの、いまだに現役で使われています。をベースにしたSuperWhisperWhisperモデルを使った音声入力アプリ。Mac版が先行し、Windows版は2024年12月にリリース。URLごとにプロンプトやモデルを切り替えられるカスタマイズ性の高さが特徴です。というアプリです。もともとMac版のみでしたが、Windows版が2024年12月にリリースされ、Windows派の勝間さんも使えるようになりました。きっかけは、前回ゲスト出演した小原さんからの紹介だったそうです。
URLごとにプロンプトを自動切替
SuperWhisperの最大の魅力はカスタマイズ性です。モデルごとにプロンプトを設定でき、たとえばGeminiを使うときは「素のまま渡す」設定に、Facebookへの投稿時は「丁寧に整形する」設定にと、URLで自動判定して切り替わります。LLMを通す・通さないの選択、モデルサイズ(Large / Medium / Tiny)の使い分けも、パソコンのスペックに応じて全台個別に設定しているとのこと。
Groqで爆速・激安処理
音声認識の処理にはGroqLPU(Language Processing Unit)というSRAMベースの専用チップを搭載した推論ハードウェア企業。CPUの100倍速いとされる処理速度が特徴。Elon MuskのxAI社が提供するチャットボット「Grok」とは別の会社です。のAPIを活用しています。勝間さんいわく「CPUの10倍速いのがGPU、GPUの10倍速いのがLPU」。Whisperの最大モデルでも1時間あたり11セント、Turboなら3セントという破格のコストです。
スマホ側ではDictateGroq APIを利用した音声入力アプリ。買い切り約400円で、WhisperモデルとLLMの両方をGroq経由で処理します。という400円の買い切りアプリを使い、裏側でGroqのWhisper+LLMを動かしています。SuperWhisper自体も買い切りプラン(約3万円)があり、月額課金を嫌う勝間さんは迷わずそちらを選択。「みんなAquaVoiceとかによくあんな月に高い料金払ってるな」と率直に語っていました。
Pythonで書けばいいんですよ。もし本当にお金かけたくなかったら
「指ほど遅いものはない」──入力速度の根本見直し
田中さんが「バーッと喋るより、手で書いた方が深い思考ができるのでは?」と問いかけると、勝間さんは即座に否定しました。
けんすうさんも「4倍ぐらい違いますよね」と同意。思考速度と入力速度のギャップが、タイピングでは埋めきれないという実感です。田中さんが「立ち止まりながら言葉を探す時間も必要では」と食い下がると、勝間さんは「それは習慣です」と一蹴。音声入力なら言い直しも「あ、違った」と言えばLLMが訂正してくれますし、「今の5秒なし」と言えば削除してくれるとけんすうさんが補足していました。
思考速度の約1/4。考えていたことが消えてしまう。修正にも手間がかかる
思考速度に近い速度で出力可能。言い直し・訂正もLLMが処理してくれる
結果として、勝間さんはHHKBPFU(現・リコー)が開発する高級コンパクトキーボード「Happy Hacking Keyboard」。プログラマーやライターに愛用者が多い。を全台から外し、G-Tune付属のキーボードで十分という結論に。音声入力の訂正だけを親指シフトで行う、という最小限のキーボード運用に落ち着いています。
Geminiは「整形係」として厳命する
メルマガの執筆フローは驚くほどシンプルです。無料版の約1000字のメルマガなら、要素を音声でバーッと喋り、GeminiGoogle DeepMindが開発した大規模言語モデル。Googleアカウントで全端末がシームレスに繋がるため、複数デバイスで使う勝間さんにとってChatGPTより使いやすいとのこと。に整形だけさせて完成。所要時間は「1分とか2分とか3分」だそうです。
厳命してるのは、とにかくあんたが勝手に足すな。あと私の文章を改変するな
1スレッド運用という割り切り
勝間さんはGeminiを1つのスレッドで継続運用しています。過去のメルマガのフォーマットを読み込ませ、自分が修正したものを再送して「何が違うか確認して、次回から参考にしろ」と指示。スレッドが重くなったらプロンプトだけ抽出して新スレッドに引っ越す、というシンプルな方法です。
GemsGeminiのカスタムプリセット機能。用途に合わせた専用のGeminiを事前に作っておける機能ですが、勝間さんは「作っても更新しないから使わない」とのこと。については「嫌い」と即答。「作ったってどうせまた更新しないし。あれは人に使わせるものであって、自分で使うもんじゃない」という、実用主義に徹した判断が印象的でした。
音声で要素を喋る
構成を考えず、Geminiと会話するような感覚で要素を伝える
Geminiが整形
過去フォーマットを参考に「こんにちは。勝間和代です」等の定型も自動付与
修正→再送→学習
出力がイマイチなら修正して戻し、差分を確認させて次回に反映
本1冊もこの方法で
田中さんが「10万字の本はどれぐらいで書けるのか」と聞くと、勝間さんは著書『勝間家電勝間和代さんの著書。家電選びの考え方や具体的な商品レビューを収録。冷蔵庫は「片開き」がいい理由など、独自の視点が話題になりました。』を例に「2〜3週間」と回答。締め切りを忘れてハワイに行ってしまい、ゴルフ以外の時間はずっと執筆していたというエピソードも。編集者からのフィードバックで5回ほど書き直しが入っても、音声入力の速さで乗り切ったそうです。
パソコン6台・カフェでも小声入力の執筆環境
足踏みペダルから無変換キーへ
かつてはフットスイッチで音声入力のオン・オフを切り替えていた勝間さんですが、現在は無変換キーをSuperWhisperのトグルに割り当てています。SuperWhisperは海外製のため本来Altキーしかトグルに設定できませんが、Microsoft標準のキーリマップツールで「無変換キー=左Alt」という信号を出させることで解決。キーボードから手を離さず音声入力を起動・停止できるようになりました。
カフェではUSB-C有線マイク+小声で
カフェでの音声入力も諦めていません。USB-Cの有線マイクでボソボソ喋り、Whisperの最大モデルで拾わせます。さらにプロンプトに「この音声入力はカフェで録っています」と書いておくだけで、LLMがノイズを考慮した補正をしてくれるそうです。
カフェの音ってうるさいし、周りがずっと喋ってるじゃないですか。だからあの音にかき消される程度の音だったら出していいと思ってるんです
6台のパソコンを「置きっぱなし」で運用
勝間さんのパソコン運用は「持ち運ぶ」のではなく「各所に置いておく」発想です。千葉と東京の家にそれぞれ2台(1階・2階)、車に1台、持ち歩き用に1台の計6台。すべてG-Tuneマウスコンピューターのゲーミングブランド。Nキーの真下に変換キーがある「N割れ」配列で、親指シフトと両立できる稀有なゲーミングノートとして勝間さんが愛用しています。のゲーミングノートが中心です。
| 場所 | 台数 | 用途 |
|---|---|---|
| 千葉の家 | 2台 | 1階・2階に各1台 |
| 東京の家 | 2台 | 1階・2階に各1台 |
| 車 | 1台 | 置きっぱなし |
| 持ち歩き | 1台 | 約1kgのマウスプロ薄型 |
スマホも同様で、メインのPixel 1台に加え、千葉と東京の寝室に1台ずつ、遠出時のバックアップ用に1台。古い端末は「絶対売らない」方針で、型落ちをよく使う場所に配置しています。Pixel 6から全機種をPixelで揃え、Foldは2世代試した末に「内面ディスプレイがふにゃふにゃでフリック打ちづらい」とやめ、現在はPixel XLに落ち着いたとのことです。
AI時代のインプット哲学──「枠の外は人間担当」
毎日のメルマガ4000字分のネタはどこから来るのか。田中さんの質問に対する勝間さんの答えはシンプルでした。「毎日遊んでればいいんですよ、朝から晩まで」。
実際、勝間さんは1日に20〜30回Geminiと会話しています。収録スタジオに来る道中だけでも、「ここに一番近いハイルーフ対応の駐車場を教えて」「モバイル回線が遅くなる輻輳がどこで起きるか」「三大キャリアのブラックパターンの違い」といったテーマで次々とGeminiに質問。そうした雑多な対話そのものがインプットになり、日々のメルマガのネタとして降ってくるそうです。
ChatGPTではなくGeminiを使い続ける理由も明快です。ChatGPTは複数端末でログインするとセキュリティ上ログアウトされてしまいますが、GeminiはGoogleアカウントで全端末がシームレスに繋がります。「会話する瞬間にログインしなきゃいけないっていうストレスが嫌」という、パソコン6台・スマホ複数台を使いこなす勝間さんならではの判断基準です。
アウトプットの速度をAIで極限まで上げたからこそ、人間にしかできない「遊ぶ」「体験する」「人と会う」というインプットの価値が浮き彫りになる。AI時代にスマホの折りたたみをやめてパソコンに回帰したのも、「AIを動かすためにVRAMが大きいのが欲しい」という実利的な理由から。ツールは変わっても、「最適なものを選び続ける」という姿勢は20年前からまったく変わっていないようです。
まとめ
2010年代のAmiVoice・Dragon Speechから始まり、Whisper × SuperWhisper × Groqに至るまで、勝間さんの音声入力環境は常に進化し続けています。その根底にあるのは「思考に手が追いつかない」という課題意識と、「月額課金より買い切り+APIの方が合理的」「Gemsより1スレッド運用が実用的」という徹底した実用主義でした。
パソコン6台を各所に配置し、カフェではUSB-Cマイクで小声入力し、Geminiに「勝手に足すな」と厳命しながら整形させる。一見極端に見えるワークフローですが、すべてに明確な理由があります。そしてその先にある結論は、「アウトプットが速くなった分だけ、遊んでインプットする時間を増やせ」というシンプルなものでした。
- 音声入力のメインはWhisperモデル × SuperWhisper(買い切り約3万円)。URLごとにプロンプト・モデルを自動切替
- 推論処理はGroqのLPU。Whisper最大モデルでも1時間11セントという破格のコスト
- 「指ほど遅いものはない」──思考速度と入力速度のギャップを音声入力で解消
- Geminiは1スレッドで継続運用し「整形係」として厳命。Gemsは使わない
- 無変換キーをトグルに割り当て、カフェでもUSB-C有線マイクで小声入力
- パソコン6台を各所に配置し「持ち運ばずどこでも書ける」環境を構築
- AI時代の本質は「枠の中はAI、枠の外は人間」。遊ぶことが最大のインプット
