Toonsutra ożywia komiksy: wciągająca lektura dzięki interfejsowi Gemini API, wersji testowej Gemini 2.5 Pro i Lyria 2

Sharad Devarajan | Vishal Anand

Założyciele Toonsutra

Avneet Singh

Menedżer produktu, Google Partner Innovation

Toonsutra, największa indyjska platforma z komiksami internetowymi i powieściami graficznymi, ma na celu umożliwienie globalnej publiczności dostępu do ogromnego wszechświata narracyjnego komiksów internetowych, ze szczególnym uwzględnieniem udostępniania światowej klasy historii w językach indyjskich. Aby zwiększyć zaangażowanie widzów, Toonsutra zapytała: jak możemy przekształcić tradycyjne czytanie komiksów w wciągającą, filmową podróż, w której głos, muzyka i fabuła płyną naturalnie w języku, w którym czytelnicy czytają komiksy?

Nowy rozdział w interaktywnej narracji

To pytanie stało się głównym tematem Toonsutra. Opinie społeczności wskazywały na potrzebę zwiększenia zaangażowania i dostępności. Zdając sobie sprawę z ogromnego potencjału AI i korzystając z funduszu na badania nad AI, firma Toonsutra nawiązała współpracę z zespołami Google Labs i Partner Innovation. Razem wykorzystują interfejs Gemini API, w tym Gemini 2.5 Pro Preview i Lyria 2 (model generowania muzyki od Google DeepMind), aby stworzyć nową jakość komiksów internetowych dla fanów na całym świecie.

Współpraca, zaprezentowana na konferencji Google I/O, to oparta na AI technologia komiksów, w których historie nie są tylko wyświetlane na stronie, ale reagują i zachęcają do interakcji, przekształcając statyczne obrazy w dynamiczne narracje audio:

Dostosowanie podkładu głosowego AI: Gemini 2.5 Pro Preview tworzy podkład głosowy AI, który dostosowuje się do szybkości czytania, nadając postaciom wyrazistość dzięki charakterystycznym głosom. Jest to szczególnie ważne w przypadku czytelników z Indiego, gdzie niuanse kulturowe w języku są bardzo zróżnicowane. Adaptacyjne i wielojęzyczne możliwości Gemini 2.5 Pro w połączeniu z zastrzeżonym silnikiem kontekstu postaci firmy Toonsutra zapewniają spójne i zróżnicowane opowiadanie historii.
Dynamiczne dźwięki: dzięki multimodalnemu modelowi Gemini 2.5 Pro Preview oraz wbudowanym funkcjom generowania dźwięku w Lyria i Gemini platforma generuje wciągające dźwięki, w tym muzykę, ścieżki dźwiękowe i dźwięki ruchu – od dźwięku uderzenia mieczem po atmosferę tętniącego życiem targowiska.
Ulepszona interaktywność: elementy oparte na Gemini 2.5 Pro Experimental umożliwiają czytelnikom wywoływanie unikalnych dialogów, odkrywanie ukrytych szczegółów i subtelne wpływanie na wątki narracyjne, co zapewnia różnorodne wrażenia podczas czytania.

Dane techniczne

Ten projekt przedstawia nowatorskie podejście do automatycznego generowania dźwięku otaczającego w przypadku komiksów cyfrowych wraz z synchronizowanymi metadanymi przestrzennymi. W jej podstawie powstała architektura wieloagentowa oparta na Gemini 2.5 Pro Preview, która zawiera wyspecjalizowane agenty: ekstraktor kontekstu komiksu, lektora, kompozytora muzyki, reżysera muzycznego i agentów efektów dźwiękowych.

Proces rozpoczyna się od agenta Comic Context Extractor, który analizuje wiele rozdziałów komiksu, aby uzyskać pełny opis, gatunek i cechy postaci. Następnie panele są wyodrębniane z określonymi granicami. Agent lektora dopasowuje dialog z transkrypcji do tych paneli, które po wzbogaceniu o kontekst postaci są odczytywane przez Gemini Native Audio. Równocześnie agent skomponowania muzyki, zainspirowany ścieżkami dźwiękowymi do filmów, używa funkcji Gemini 2.5 Pro Preview do rozróżniania tematów i emocji w poszczególnych rozdziałach oraz przekształcania ich w prompty muzyczne dla Lyrii, aby generować ścieżki dźwiękowe. Agent Music Director mapuje tę muzykę na konkretne panele, a agent Sound Effects mapuje panele na odpowiednie tagi efektów dźwiękowych pobrane z bazy danych.

Ten proces kończy się utworzeniem pliku JSON zawierającego informacje o współrzędnych paneli, ścieżce dźwiękowej, efektach dźwiękowych i synchronizowanej muzyce, które są przekazywane do interfejsu Toonsutra.

Kluczowym elementem sukcesu jest możliwość generowania przez Gemini kinowego dźwięku w językach indyjskich, w tym w hindi, co przyczynia się do realizacji misji Toonsutra związanej z dostępnością.

„To było bardzo interesujące i ciekawe zastosowanie możliwości multimodalnych i wielojęzykowych Gemini. Wykorzystanie potężnych dużych modeli językowych Google do semantycznego rozumienia obrazów, postaci, szkiców i motywów okazało się świetnym mechanizmem kondensowania mediów wejściowych do ich podstaw. Potężne możliwości generowania muzyki przez Lyrię i wbudowane funkcje mowy Gemini, zwłaszcza w językach indyjskich, pozwoliły nam zaoferować w współpracy z Toonsutra jeszcze lepsze wrażenia.

– Avneet (PM, Google Partner Innovation)

Od Google I/O do ogólnej dostępności

Prezentacja na konferencji Google I/O była niesamowitym krokiem milowym, który pokazał, jak AI może zasadniczo ulepszać treści cyfrowe. W przypadku Toonsutra jest to dopiero pierwszy rozdział.

Jak często mówi nasz zespół: „Naszą wizją w Toonsutrze zawsze było uczynienie komiksów bardziej angażujących i dostępnych dla wszystkich, wszędzie. Ta współpraca z Google to ogromny krok w kierunku realizacji tej wizji. Umożliwienie tworzenia takich wciągających, opartych na AI doświadczeń jest odpowiedzią na opinie naszej społeczności i przyspiesza nasze innowacje. Jesteśmy zachwyceni reakcją na I/O i chcielibyśmy zintegrować tę funkcję z aplikacją Toonsutra, a potem nawet udostępnić interfejs API, aby umożliwić korzystanie z niej innym twórcom”.

Toonsutra skupia się teraz na stopniowej integracji tych funkcji w głównej aplikacji, uważnie słuchając opinii społeczności. Uważają, że nie tylko wzbogacają swoją platformę, ale też pomagają tworzyć nowy plan tworzenia treści z wykorzystaniem AI.

Chcesz tworzyć? Zapoznaj się z dokumentacją Gemini API i zacznij korzystać z Google AI Studio.

Toonsutra jest uczestnikiem funduszu AI Futures Fund od Google, który inwestuje w ambitne startupy i współpracuje z nimi nad rozwojem AI.

Toonsutra ożywia komiksy: wciągająca lektura dzięki interfejsowi Gemini API, wersji testowej Gemini 2.5 Pro i Lyria 2

Nowy rozdział w interaktywnej narracji

Dane techniczne

Od Google I/O do ogólnej dostępności

Powiązane studia przypadków