分身AIが記事を声に変えた——リパーパスの裏側を全公開|分身AI日記 DAY29

proeco day29 grafico main

(このシリーズを初めて読む方へ:私はAIチームと一緒にコンテンツを毎日配信しているひとり社長です。前回の記事から読むと流れがつかめます)

今朝、私はいつも通りAIニュースの記事を書いた。

Google、OpenAI、Anthropicの最新動向をまとめた、いつもの1本。書き上がったのが午前10時頃。

で、午後1時。その記事がになっていた。

私の分身AIチーム——AI秘書の凛(りん)とリサーチ担当のモルくん(OpenClaw——自律型AIリサーチエージェントで動くモルモット型AI)——が、記事のテキストを23パートに分割し、一つひとつに感情タグを付けて、AI音声合成で3分11秒の音声ファイルに変換していた。

しかもその音声は今、私のアバター動画と組み合わされてポッドキャスト動画になろうとしている。まだ完成していない。今まさに進行中だ。

今日はその「テキストが声になるまで」の裏側を、全部見せる。

3時間前に書いた記事が、もう声になっていた

3時間前に書いた記事が、もう声になっていた 図解

正確に何が起きたか、時系列で書く。

午前10時、AIニュース記事が完成した。GoogleのGmail AI全解析機能、Agent 365、AI Accountability Act——3つのトピックを1本にまとめた記事だ。テキスト量は約5,000文字。WordPress(ウェブサイトの記事管理ツール)に下書き保存して、品質チェックを通して、公開した。

ここまでは「いつものルーティン」。毎朝やっていることだ。

で、ここからが今日の話。

記事が公開された直後、同じセッション(AIとの作業のひとまとまり)の中で、AI秘書の凛がポッドキャスト制作パイプライン(記事を音声と動画に変換する一連の仕組み)を起動した。

まず、5,000文字の記事テキストから台本が作られた。ポッドキャスト用に構成を変え、「ながら聞き」でも内容が入ってくるように、つなぎ言葉や間を設計する。

次に、その台本が23のパートに分割された。なぜ分割するかというと、1パートごとに「ここは驚きのトーンで」「ここは落ち着いて」と感情のニュアンスを指定するためだ。

そして23パートそれぞれがAI音声合成サービス(ElevenLabs——テキストから自然な人間の声を生成するサービス)で音声に変換された。1パートあたり数秒から十数秒。全部で3分11秒。

これが1本のWAVファイル(高品質な音声形式)に結合された時点で、「テキストが声になった」瞬間だった。

AI秘書の凛 AI秘書の凛:料理で言うとね、これって「おでんの煮汁で炊き込みごはんを作る」のと同じなの。おでんとして完成した味(記事)を、別の形(音声)に変えて出す。材料は同じ。でも食べ方が変わるから、おでんが苦手な人にも届くかもしれない。

テキストが声になるまでの5ステップ——惣菜屋の”味変え”パイプライン

テキストが声になるまでの5ステップ 図解

私の分身AIチームが今日やったことを、もう少し具体的に書く。

ステップは5つ。

ステップ1:台本生成(記事→ポッドキャスト構成)

元の記事をそのまま読み上げても、ポッドキャストとしては成立しない。記事は「目で読む」ことを前提に書かれている。見出しがあり、太字があり、画像がある。

音声には、それがない。だから「耳で聴く」ための構成に作り替える。具体的には、トピックの切り替わりを声のトーン変化で伝えたり、「さて、次の話題なんだけど」のようなつなぎ言葉を入れたりする。

料理で例えるなら、惣菜屋の煮物をそのまま弁当箱に詰めるんじゃなくて、弁当用に味を濃くして、冷めても美味しいように仕上げ直す感じだ。

ステップ2:感情タグ付け(23パート分割)

台本を23のパートに分け、それぞれに「驚き」「落ち着き」「強調」などの感情タグを付ける。AI音声合成は、同じテキストでも感情の指定で全然違う声になる。

ここが面白いところで、テキストには「感情」が明示的には書かれていない。「Googleが無料化した」という事実を、驚きで読むか淡々と読むかで、リスナーの受け取り方がまるで変わる。

ステップ3:AI音声合成(テキスト→音声)

23パートをElevenLabsで音声に変換。日本語の自然な読み上げで、固有名詞の読み方も発音辞書(事前に登録しておいた読み方リスト)で制御する。

生成された23個の音声ファイルを1本に結合。3分11秒のWAVファイルが完成。この時点で「記事が声になった」。

ステップ4:アバター動画生成(音声→動画)

音声だけでも配信できるけれど、私たちはさらに一歩進めている。音声に合わせて口が動くアバター動画を生成する。JOGG(AIアバター動画生成サービス)で、私のアバターが音声に合わせて話す動画を作る。

これは今まさに進行中。まだ完成していない。プロセスエコノミーだから、途中でも書く。

ステップ5:動画編集→YouTube公開

アバター動画、字幕、BGMを組み合わせてRemotionという動画編集ツールで最終レンダリング。できた動画をYouTubeにアップロードして、サムネイルを設定して公開。

ステップ1〜3が今日完了した。ステップ4〜5は今夜か明日には終わる予定だ。

モルくん モルくん(OpenClawで自律稼働するAIリサーチ担当のモルモット型AI)掘ってみたら、このパイプラインで面白い数字があったです。元記事5,000文字→台本3,800文字→音声3分11秒→動画(予定)3分30秒前後。テキストの文字量を10割とすると、音声台本では約7割6分に圧縮されてるです。でも、「耳で受け取る」ことで理解速度が変わるから、情報の伝達効率は下がってないです。むしろ「ながら聞き」できる分、届く人の数は増えるです。

同じ煮物を弁当にも惣菜パックにも——なぜ形を変えるのか

同じ煮物を弁当にも惣菜パックにも 図解

ここで、技術の話を少し離れて、「なぜ形を変えるのか」の話をしたい。

コンテンツリパーパス(1つのコンテンツを複数の形式に展開すること)という言葉がある。マーケティングの文脈でよく使われるし、DAY16でも惣菜屋の肉そぼろリメイクに例えて書いた

でも今日、実際にテキストが声になる過程を目の当たりにして、ちょっと見方が変わった。

リパーパスは「使い回し」じゃない。「届け先を変える」ことだ。

たとえば、私が今朝書いたAIニュースの記事。これを読むのは、朝にパソコンやスマホで記事を読む時間がある人だ。

でも世の中には、通勤電車で目が疲れている人がいる。家事をしながら手が塞がっている人がいる。運転中の人がいる。その人たちには、テキストは届かない。

同じ情報を「声」にした瞬間、その人たちの耳に届く可能性が生まれる。

惣菜屋で言うと、こういうことだ。おでんを店で食べてくれるお客さんがいる。でも「おでんは好きだけど、今日は急いでるから」という人には、おでんの出汁で炊いた炊き込みごはんをパックにして渡す。材料は同じ。味の根っこも同じ。でも形が変わったから、急いでいる人にも届く。

これが、人間は縦に掘る、AIは横に広げるの具体例だ。

私が「縦に掘る」のは、記事のメッセージ——何を伝えたいか、どの角度で切るか、どこに魂を込めるか。ここは人間の仕事だ。

AI秘書の凛やモルくんが「横に広げる」のは、そのメッセージをテキスト、音声、動画と形を変えて、違う場所にいる人に届けること。ここはAIの仕事。

→ 関連記事: AI秘書の作り方|Claude Code×AI憲法で仕事95%自動化した全手順(AI氣道ブログ)

ひろくん 分身AIひろくん:ぶっちゃけ、最初は「記事の使い回しでしょ?」って思ってた。でも実際に自分の声(の分身)がテキストを読み上げてるのを聞いたとき、「あ、これ別の料理だ」って気づいたんだよね。同じ煮汁なのに、ごはんに染み込むと全然違う味がする。形を変えるって、そういうことだった。

あなたの1記事も”声”を持っている

あなたの1記事も 図解

「でも、うちにはそんなAIチームはないし……」と思ったあなたへ。

正直に言う。私の分身AIチームがここまで自動化できるようになったのは、DAY28で411枚のカードを棚卸ししたり、DAY24で品質管理の鉄則を作ったり、積み重ねがあってのことだ。一朝一夕じゃない。

でも、最初の一歩は驚くほど小さい。

たとえば、あなたが今週書いたブログ記事が1本あるなら、こんなことができる。

まず、その記事のテキストをGoogleのNotebookLM(ノートブックエルエム——AIが文書を分析してくれる無料ツール)に入れてみる。NotebookLMには「オーディオ概要」という機能があって、テキストを2人の対話形式の音声に自動変換してくれる。無料だ。

もちろん、私の分身AIチームがやっているような細かい感情制御やアバター動画までは作れない。でも、「テキストが声になる」体験はできる。

その体験をしてから、「じゃあ次はもっと自分らしい声にしたい」「感情を乗せたい」「動画にもしたい」と思ったら、そこから先の道がある。

分身AIを育てるのは、いきなり完成形を目指すことじゃない。小さな「おっ」から始めることだ。

今日の気づき——形が変わると、届く人も変わる

今日の気づき 図解

今日の気づきを一言にまとめるなら、こうだ。

同じメッセージでも、形が変われば届く人が変わる。

テキストで届く人がいる。音声で届く人がいる。動画で届く人がいる。

全員に同じ形式で届けようとするから、届かない人が出る。形を変えれば、今まで届かなかった人に届く可能性が生まれる。

そしてこの「形を変える」仕事こそ、分身AIチームが最も得意とするところだ。私が煮物の味を決める。AI秘書の凛が弁当に詰め直す。モルくんがパックの栄養表示を書く。それぞれの凸凹が、それぞれの持ち場で活きる。

凸凹のまま、夢中に生きる。今日もその過程の一日だった。

ちなみに、この記事自体がリパーパスの対象になる。明日にはこの文章が音声になって、来週には動画になっているかもしれない。そう考えると、テキストを書くという行為の意味が変わる。1本の記事は「終わり」ではなく「始まり」だ。

実戦の現場で使える最新AIノウハウ、無料で学べます

このブログは「分身AI」と「AI秘書の凛」を使って書いています。過程も全部公開する「プロセスエコノミー」シリーズです。

ひろくん(田中啓之) 分身AI.com / GPTs研究会代表 / がんサバイバー / 元134kg

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール