AIが話す赤ちゃん動画はTikTokで大人気です。これらの動画では、愛らしい赤ちゃんが大人の話題について話したり、面白いジョークを言ったりしていますが、一体どのように作られているのでしょうか?そして、なぜこれほどまでに中毒性が高いのでしょうか?VSTは人気の動画を分析し、その背後にあるAIツールと制作プロセスを探りました。

AI Babyのポッドキャスト動画には、アメリカの有名コメディアン、テオ・ヴォンの音声クリップが頻繁に登場します。インターネット上には、それぞれ82万件と116万件の「いいね!」を獲得している2つの動画があり、どちらもテオ・ヴォンのポッドキャスト番組のオリジナル音声クリップを使用しています。

テオ・フォン
テオ・フォン独特のアメリカ南部訛りと、少し不安定で神経質な思考表現は、非常に特徴的で、それ自体がコミカルな魅力を放っています。さらに、子供は時に無意識のうちに深い意味を持ったり、率直に正直なことを言ったりすることがあるという事実も加えると、AIベビーがテオ・フォンのジョークを真顔で繰り返すと、テオ・フォン本人が言うよりも理にかなっているように聞こえるというネットユーザーもいます。

その理由は明白です。AIベビーポッドキャストのコンテンツは、既に訴求力があり市場テスト済みの人気ポッドキャストやコメディコントから派生しているため、高いエンターテイメント性とバイラル性を備えています。さらに、オリジナルのポッドキャストやコメディアンには既に多くのファンがおり、AIベビーが話すという斬新なフォーマットで再解釈することで、既存の視聴者層を効果的に拡大することができます。これまではやや難解でニッチだった話題も、AIベビーの解釈によってより身近なものとなり、より幅広い視聴者層を惹きつけます。無邪気でナイーブなベビーのイメージと、大人の成熟した言動との鮮やかな対比こそが、視聴者の注目を集め、ユーモアを生み出す核心です。オリジナルコンテンツが大人向けであればあるほど、ベビーのイメージとの組み合わせはよりユーモラスで不条理なものになります。多くのネットユーザーは、ベビーのイメージが軽妙で遊び心のある方法で深刻な大人の話題を解体していくため、このような動画を見ることでストレス解消になるとも述べています。
AIが話す赤ちゃん動画に使用されている具体的なAIツールについての議論では、Hedraと呼ばれるAIツールが頻繁に言及されます。一部のクリエイターの共有やVSTの実際のテストに基づくと、AIが話す赤ちゃん動画の制作プロセスは、大きく分けて3つのステップに分けられます。
ステップ1:AIによる赤ちゃん画像の生成
Midjourney、GPT-4o、Gemini、Stable Diffusion、Doubao、Ideogramといった主流のAI画像生成ツールは、いずれも赤ちゃん画像の生成に使用できます。価格、特徴、メリットといった要素に基づいて選択できます。重要なのは、具体的な説明(キャラクター、服装、シーン、顔の特徴など)を通して、AIモデルが期待通りの赤ちゃん画像を生成できるように導くことです。
ステップ2:AIベビーの声優
AIベビーキャラクターを作成したら、次のステップは声優の起用です。音声ソースは主に2つありますが、重要なのは、音声コンテンツ自体が魅力的でドラマチック、そしてバイラルヒットの可能性を秘めているかどうかです。
1. 既存のオーディオクリップを使用する
AIが話す赤ちゃん動画のコンテンツとして、現在最も一般的なのはこれです。クリエイターは、興味深く、面白く、再利用可能な音声素材を様々なチャンネルから探します。素材としては、人気のポッドキャスト、コメディトーク番組、名作映画やテレビシリーズのセリフ、ポップソング、オンラインで話題になった面白い音声クリップなどが挙げられます。YouTubeなどの動画プラットフォームから素材を入手した場合は、Cobaltなどのツールを使用して音声をダウンロード・抽出できます。
2. 新しいAI音声を生成する
クリエイターがオリジナルのテキストコンテンツをお持ちの場合、またはAIベビーに特定の音声を生成させたい場合は、ElevenLabsやMinimax Speech 02モデルなどのAI音声生成ツールを使用できます。ElevenLabsは、高品質の音声合成(TTS)と音声複製機能で知られており、非常に自然で感情的な音声を生成できます。
既存の音声を選択する場合でも、新しい音声を生成する場合でも、著作権の問題に注意することが重要です。許可を得たコンテンツ、またはフェアユースの範囲内にあるコンテンツを優先してください。他人の声を無断で複製し、商業目的やその他の違法な目的で使用しないでください。
ステップ3:AIベビーに「話させる」
最後に、AI Babyの画像と用意した音声ファイルをHedra Labsにアップロードします。AIビデオモデル、動画のアスペクト比、解像度(最大720p)を選択できるほか、キャラクターの感情や行動を説明するプロンプトワードも入力できます。AIはキャラクターの顔の特徴を分析し、音声の感情、リズム、発音に基づいて自然な微表情や顔のダイナミックな変化を適用し、キャラクターの唇の動きとの「音声と映像の同期」を実現します。
もちろん、関連技術の応用展望はこれにとどまらず、ゲームキャラクターや映画・テレビアニメのキャラクターなど、幅広い分野で活用される可能性があります。VSTでは、AIクリエイティブツールに関する最先端の情報を深く掘り下げることができます。VSTは、TikTok起業家のためのワンストップサービスプラットフォームの構築に尽力しており、情報やニュース、専門コンサルティング、スキルトレーニング、AIソリューション、起業支援、ビジネスマッチングなど、包括的なサービスを提供することで、起業家が効率的に成長し、より多くのビジネスチャンスを発見できるようにする強力な商業エコシステムを確立しています。さらに、VSTはAIクリエイティブツールの研究開発にも深く関わっています。その関連技術は、翻訳やコンテンツ作成だけでなく、デジタルアンカーやバーチャルアシスタントなどの分野でも大きな可能性を示しています。VSTに参加して、AIテクノロジーがもたらす無限の可能性を探求してください。