無限の仙境 (Infinite Wonderland) - 物語のイラストを生成する

Google I/Oにおいて、Googleは「無限のワンダーランド」(Infinite Wonderland)という製品を紹介しました。それは以前に共有されたものに似ています。

体験

公式サイト https://infinitewonderland.withgoogle.com/では、お気に入りのアーティストテーマを選択し、それに応じたテキストセグメントを選んで、物語のイラストを生成することができます。

この方法により、ユーザーは無限のワンダーランドの創造的な魅力を直接体験でき、古典的な小説と現代技術を完璧に融合させ、独自のビジュアルストーリーを作り出すことができます。生成される画像は毎回ユニークなものとなり、アーティストとAIのコラボレーションによる無限の可能性を示します。

技術基盤

は、Googleが提供する最高品質のテキストから画像を生成するモデルであり、詳細で緻密な描写、豊かな照明効果、そして少ないノイズを持つ画像を生成できます。自然言語による指示を理解し、多様な視覚スタイルを生成可能で、複雑な指示の中にある細部も捉えます。

は、ユーザーが単一の参考画像を提供することで、特定のスタイルに沿った高品質な画像を生成することができます。効率的なパラメータ微調整と反復訓練を通じて、ユーザーが指定したスタイルを精密に捉え、再現します。

実現プロセス

01 各自のアーティストが物語のためにオリジナルの画像を作成

ジョン・テニエル(John Tenniel)のオリジナルイラストレーションに触発され、各アーティストはこの小説を彼ら自身の視点で表現するために、一部のカスタム画像を作成しました。彼らはそれぞれの画像に対して説明を書き、自分だけのユニークなスタイルを定義しました。

02 アーティストがImagen 2のオリジナル画像スタイルを微調整

StyleDropと呼ばれる微調整技術を使用して、アーティストたちは彼らのオリジナル画像を使って画像生成モデルのImagen 2を微調整しました。これは反復的なプロセスであり、各アーティストは自分のオリジナル画像がモデルの出力にどのように影響するかを見ることができ、その後クリエイティブな修正を行い、モデルが出力する美学や構図が自分のスタイルに最も適合すると感じたところまで進めます。完了後、これらの微調整により、彼らは独自のスタイルで任意の描写に基づく画像を生成できるようになりました。

03 各文がGeminiによってカスタムの画像プロンプトに変換される

ルイス・キャロル(Lewis Carrol)の原著小説には1200以上の文があります。少量の例提示を使用して、ジェミニは各文を画像の説明に変換しました。その後、各画像の説明は、イマージェン2のプロンプトとして、各アーティストの微調整されたスタイルに基づいてカスタマイズされました。

04 各文は任意のアーティストの微調整されたスタイルで無限の画像を生成できます。

各アーティストの微調整されたスタイルをそのカスタム画像プロンプトと組み合わせることで、この本の各文は、任意のアーティストの微調整されたスタイルで見かけ上無限の画像を生成することができます。この組み合わせが無限のワンダーランド体験の核心であり、この永遠のクラシックをアーティスト、AI、そしてユーザーによって絶えず再想像させます。