Claude Codeで動画に字幕を自動でつける方法
「採用動画やセミナーの録画に字幕をつけたいけれど、1本ごとに聞き取って文字を打ち込むのは時間がかかりすぎる」——動画を社内で活用しようとすると、誰もがこの壁にぶつかります。
結論から言うと、字幕付けは「文字起こし→字幕データ生成→動画への焼き込み」という3つの工程に分かれていて、この一連の流れはClaude Codeを司令塔にすればほぼ自動化できます。専用の編集ソフトを覚える必要はありません。
株式会社Fyveは、中小企業がAIを業務に取り込む支援をしています。私自身も動画素材に字幕を付ける作業をClaude Codeに任せており、この記事では非エンジニアの方でも再現できるよう、その仕組みと頼み方を順を追って説明します。

そもそもClaude Codeで字幕は「直接」つけられるのか
最初に誤解を解いておきます。Claude Code(ターミナル上で動くAIエージェント型の開発ツール)には、「字幕を生成する」という専用機能はありません。公式ドキュメントを見ても、字幕専用のコマンドは用意されていません。
ではどうやって字幕をつけるのか。答えは、Claude Codeが司令塔(指揮役)になって、字幕作りに必要な外部ツールを呼び出して動かす、という形です。Claude Codeにはパソコン上でコマンドを実行したり、ファイルを読み書きしたり、複数の作業を順番につなげたりする能力があります。この力を使って、字幕に必要なツールを段取りよく動かしてくれるわけです。
登場する外部ツールは主に2つです。
- ffmpeg(エフエムペグ):動画や音声を変換・加工する定番の無料ツール。動画から音声だけを取り出したり、できあがった字幕を動画に重ねたりする役割を担います。
- Whisper(ウィスパー):OpenAIが公開した音声認識AI。音声を聞き取って文字に書き起こします。無料で自分のパソコン上で動かせる版もあります。
つまり「Claude Codeで字幕をつける」とは、正確には「Claude CodeにffmpegとWhisperを操作させて字幕をつける」という意味になります。あなたが日本語で指示を出し、Claude Codeが裏側でこれらのツールへの命令文を組み立てて実行する、という分担です。ffmpegとWhisperを組み合わせた字幕付けは、海外の技術記事でも定番の手順として紹介されています(参考: ffmpegとWhisperによる字幕自動生成の解説)。
字幕自動化の3工程:文字起こし→字幕生成→焼き込み
字幕付けの全体像は、次の3つの工程で考えると分かりやすくなります。Claude Codeはこの3工程を一本につないで実行してくれます。
工程1:音声を取り出して文字起こしする(Whisperの担当)
まず動画から音声を抜き出し、その音声をWhisperに渡して文字に起こします。このとき単なる文章ではなく、「この言葉は何分何秒に話された」というタイミング情報付きで書き起こされるのがポイントです。このタイミング情報があるからこそ、後で映像と字幕がぴったり同期します。
Whisperにはいくつかモデル(精度と速度の違うバージョン)があります。日本語では2024年9月に公開された「turbo」モデルが速度と精度のバランスが良く、従来の高精度版(large-v3)と比べて約8倍速いとされています。長い動画でも現実的な時間で処理できるようになりました。
工程2:字幕データ(SRT)を作り、文章を整える(Claudeの本領)
文字起こしの結果は「SRT(エスアールティー)」という形式の字幕ファイルにまとめられます。SRTは「何番目の字幕を、何分何秒から何分何秒まで、どんな文字で表示するか」を並べただけのシンプルなテキストファイルです。
ここがClaude Codeの最も価値を発揮する工程です。Whisperの文字起こしは、固有名詞や専門用語をよく聞き間違えます。また「えー」「あのー」といった口癖や言い直しもそのまま文字になります。そこでClaude Codeに「会社名や専門用語の誤字を直して、不要な口癖を削り、読みやすい字幕にして」と頼むと、SRTを整文してくれます。聞き取り(Whisper)と推敲(Claude)で役割を分けるのが品質のコツです。
このように粗い文字起こしをAIで整える運用は、字幕の質を上げる手堅い方法として個人の実践例でも報告されています。
工程3:ffmpegで動画に字幕を焼き込む
仕上げに、整えたSRTをffmpegで動画に重ねます。やり方は2通りあります。1つは映像そのものに文字を埋め込む「焼き込み(やきこみ)」。もう1つはSRTを別ファイルとして動画に添える方法で、YouTubeなどにアップロードする際はこちらが向きます。
SNS用のショート動画など「どの再生環境でも必ず字幕を出したい」場合は焼き込みを選びます。Claude Codeに「字幕を映像に焼き込んで」と伝えれば、ffmpegの命令文を組んで実行してくれます。

実際にClaude Codeにどう頼むか(コマンドの暗記は不要)
ここまで読んで「結局コマンドを覚えないといけないのでは」と不安になった方もいるかもしれません。安心してください。AIありきで進めるこの方法では、難しいコマンドを暗記する必要はありません。
たとえば、動画ファイルを置いたフォルダでClaude Codeを起動し、次のように日本語で頼むだけです。
- 「この動画から音声を文字起こしして、日本語の字幕ファイルを作って」
- 「字幕の誤字と口癖を直して、見やすく整えて」
- 「整えた字幕を動画に焼き込んで、別名で書き出して」
すると、Claude Codeが裏側でffmpegやWhisperへの命令文を自分で組み立て、順番に実行していきます。ffmpegのコマンドは独特で覚えにくいものですが、必要な命令文はその都度AIが生成してくれるので、利用者が構文を暗記する必要はありません。
もう一歩進めたい場合は、「次から同じ手順を一発でできるようにスクリプトにまとめて」と頼めば、定型作業を自動化する小さなプログラムまで作ってくれます。動画が複数あるなら「このフォルダ内の動画すべてに同じ処理をして」とまとめて指示することも可能です。一度仕組みを作ってしまえば、2本目以降は素材を置いて声をかけるだけになります。
ショート動画の編集まで含めて自動化する全体像は、別の記事で実装の流れをまとめています。
つまずきやすいポイントと回避策
便利な一方で、実際にやってみると引っかかりやすい場所があります。先に知っておけば回避できるものばかりです。
日本語が文字化けする
最も多いのが焼き込み時の文字化けです。原因はフォントの指定漏れや文字コードの設定ミスで、字幕が□(豆腐)になったり表示されなかったりします。Claude Codeに「日本語フォントを指定して文字化けしないようにして」と一言添えるか、文字化けしたら「字幕が文字化けするので直して」と伝えれば、設定を修正してくれます。
固有名詞・専門用語の聞き間違い
Whisperは社名・製品名・業界用語を高い確率で間違えます。これは避けられないので、工程2のClaude Codeによる整文をほぼ必須の作業と考えてください。あらかじめ「正しい社名は○○、用語は△△」と伝えておくと、置き換えの精度が上がります。
初回のセットアップは必要
「頼むだけ」で動くのは、ffmpegやWhisperを一度パソコンに入れた後の話です。初回はこれらのツールの導入作業が必要で、ここだけは「即用」とはいきません。とはいえ、この準備自体もClaude Codeに「字幕作りに必要なツールを入れたいので手順を教えて、できるところは進めて」と頼みながら進められます。
つなぎ目で時間を溶かしやすい
各工程は単体だと素直に動くのに、文字起こしから焼き込みまでを一気通貫でつなごうとすると、ファイルの受け渡しでつまずきがちです。X上の実務家からも「パイプライン化(工程の連結)が一番時間を溶かす」という声が出ています。対策はシンプルで、いきなり全自動を目指さず、まず工程ごとに動くことを確認し、その後でつなぐこと。各工程を部品として分け、つなぎ目だけを後から整えると安定します。
長い動画は処理に時間がかかる
1時間の素材だと文字起こしだけで15〜25分ほどかかります。Apple Siliconのパソコン(M2など)ならGPU加速が効いて速くなりますが、それでも長尺は相応の待ち時間を見込んでおきましょう。自分のパソコンで動かす無料版は費用ゼロな反面、処理能力に左右される点は理解しておくと安心です。

もっと手軽に:字幕特化のSkillやツールを使う
ゼロから工程を組むのが大変なら、字幕付けに特化した既製の仕組みを使う手もあります。
1つはClaude Code向けの拡張機能として配布されている動画編集ツール群です。たとえば「video-use」というオープンソースのツールは、会話形式で動画を編集でき、字幕の焼き込み機能も備えています(参考: video-use のリポジトリ)。文字起こしから字幕生成、好みのスタイルでの焼き込みまでをまとめて扱えるのが特徴です。
もう1つは、ffmpeg自体の進化です。最新のFFmpeg 8系には音声認識(Whisper)の機能が組み込まれ、1つの命令で音声からSRT字幕を生成できるようになりました(参考: FFmpegのWhisper連携機能)。工程が1つにまとまるぶん、つまずきどころも減っていく方向です。
Python・Whisper・ffmpegを組み合わせた手順は、公式系のチュートリアルでも丁寧に解説されています(参考: WhisperとffmpegでSubtitleを付ける手順)。これらをClaude Codeに「この手順を参考に進めて」と渡すと、調べながら自分の素材に合わせて動かしてくれます。
ただし、これらの拡張ツールの多くは第三者が作ったオープンソースで、Anthropic公式の動画字幕プラグインではありません。動作の安定性は環境によって差が出るため、最初は短いテスト動画で試してから本番素材に使うことをおすすめします。AI動画編集ツールの設計思想の違いは、別記事で比較しています。
中小企業が字幕自動化で得られるもの
字幕は「あれば親切」程度の飾りではありません。音を出せない通勤電車やオフィスで再生される動画では、字幕の有無が最後まで見てもらえるかどうかを左右します。採用動画、商品やサービスの説明動画、社内研修やセミナーの録画——どれも字幕が付くだけで届く範囲が広がります。
これまで字幕は外注するか、担当者が手作業で打ち込むしかありませんでした。前者はコストと納期がかかり、後者は本業の時間を奪います。Claude Codeを司令塔にした自動化は、この負担を大きく減らし、動画を「出して終わり」ではなく継続的に活用できる体制に変えてくれます。
最後にもう一度、要点を整理します。
- Claude Codeに字幕の専用機能はなく、ffmpegとWhisperを動かす司令塔として使う
- 字幕付けは文字起こし→字幕生成・整文→焼き込みの3工程に分かれる
- 難しいコマンドは暗記不要。日本語で頼めばAIが命令文を組み立てる
- 聞き取りはWhisper、誤字や口癖の整文はClaudeと役割を分けると品質が上がる
- いきなり全自動を狙わず、工程ごとに動作確認してからつなぐのが安定への近道
私が中小企業の現場で実感しているのは、こうした地味な定型作業ほどAIに任せる効果が大きいということです。動画活用に二の足を踏んでいたなら、まずは手元の1本で字幕付けを試してみてください。最初の1本が動けば、2本目からは驚くほど楽になります。
御社の業務に合わせたClaude Code導入支援
「AIツールを導入したが、現場で使われない」を終わらせる。
業務課題のヒアリングから設計、ハンズオン実践、運用定着まで一貫して支援します。