分享

2025 年 5 月 20 日

Toonsutra 讓漫畫栩栩如生:Gemini API、Gemini 2.5 Pro 預先發布版和 Lyria 2 打造身歷其境的閱讀體驗

Sharad Devarajan | Vishal Anand

Toonsutra 創辦人

Avneet Singh

Google 合作夥伴創新產品經理

Cartwheel 展示主頁橫幅

Toonsutra 是印度最大的數位漫畫和圖文小說平台,致力於讓全球觀眾接觸豐富多元的數位漫畫世界,並特別著重於以印度語言提供世界級的故事。為了加深觀眾的互動程度,Toonsutra 提出了一個問題:如何將傳統的漫畫閱讀體驗,轉變為沉浸式電影般的體驗,讓聲音、音樂和故事自然地以讀者喜愛的語言流暢呈現?

打造互動式說故事的下一個篇章

這個問題成為 Toonsutra 的核心重點。他們的社群回饋指出,使用者渴望更深層的互動體驗和更廣泛的無障礙功能。有鑑於 AI 的巨大潛力,並獲得 Google AI Futures Fund 的支持,Toonsutra 與 Google 的 Labs 和 Partner Innovation 團隊合作,他們共同運用 Gemini API (包含 Gemini 2.5 Pro 預先發布版) 和 Lyria 2 (Google DeepMind 的音樂生成模型),為全球漫畫迷打造全新的網漫體驗。

這項合作計畫在 Google I/O 大會上亮相,展示了 AI 輔助的漫畫體驗,讓漫畫不再只是靜態圖片,而是能回應並與讀者互動,將靜態圖片轉換為動態的音訊敘述:

  • 自適應 AI 旁白:Gemini 2.5 Pro 預先發布版會根據閱讀速度生成 AI 旁白,以獨特的聲音呈現角色,讓角色栩栩如生。這項功能對印度讀者特別有幫助,因為印度的語言文化差異很大。Gemini 2.5 Pro 的適應性和多語言功能,搭配 Toonsutra 專屬的角色脈絡引擎,可確保提供一致且細膩的故事情節。
  • 動態音效:透過 Gemini 2.5 Pro 預覽版的多模態理解功能,以及 Lyria 和 Gemini 的原生音訊生成功能,平台可產生沉浸式音效,包括客製化音樂、旁白和動作聲響,從劍聲到熱鬧市場的環境音效皆有。
  • 提升互動性:Gemini 2.5 Pro 預覽版元素可讓讀者觸發獨特對話、探索隱藏細節,或巧妙地影響敘事主題,提供多樣化的閱讀體驗。

技術詳細資料

這項專案採用創新方法,可自動為數位漫畫產生身歷式音訊,並同步處理空間中繼資料。其核心是建構在 Gemini 2.5 Pro 預先發布版上的多代理程式架構,其中包含專屬代理程式:漫畫內容擷取器、旁白、音樂作曲家、音樂總監和音效代理程式。

工作流程會先由漫畫內容擷取代理程式開始,分析多個漫畫章節,以便提供完整的摘要、類型和角色特徵。接著,系統會擷取面板並定義邊界。Narrator Agent 會將對話內容與這些面板對齊,並透過 Gemini Native Audio 朗讀,以便角色背景資訊更豐富。與此同時,受到電影配樂啟發的音樂作曲代理程式會使用 Gemini 2.5 Pro 預先發布版,判斷各章節的主題和情緒,並將這些資訊轉譯為音樂提示,讓 Lyria 生成背景配樂。Music Director Agent 會將這首音樂對應至特定面板,而 Sound Effects Agent 則會將面板對應至從資料庫擷取的相關音效標記。

這個工作流程的最終結果是 JSON 檔案,其中詳細說明面板座標、旁白、音效和同步音樂,並提交至 Toonsutra 前端。

這項成果的關鍵在於 Gemini 能夠以印度文等印度語言原生生成這類劇情片音訊,進一步實現 Toonsutra 的無障礙目標。

「這是一個運用 Gemini 多模態和多語言功能的趣味應用實例,使用 Google 強大的大型語言模型,以語意理解圖片、角色、繪圖草圖和主題,是將輸入媒體濃縮為基礎內容的絕佳機制。Lyria 強大的音樂生成功能,以及 Gemini 原生語音功能 (特別是印度語言),讓我們與 Toonsutra 合作推出的最終體驗更上一層樓。」

- Avneet (產品經理,Google 合作夥伴創新)

從 Google I/O 到正式發布

Google I/O 大會的展示活動是令人驚豔的里程碑,展示了 AI 如何從根本上提升數位內容。對於 Toonsutra 來說,這只是第一章。

正如我們的團隊經常說的:「Toonsutra 的願景向來是讓漫畫更引人入勝,並讓世界各地的所有人都能輕鬆閱讀。這次與 Google 的合作,正是我們朝著這項願景邁出的一大步。我們能夠打造出這些 AI 輔助的沉浸式閱讀體驗,直接回應社群的意見回饋,並加速創新。我們很高興在 I/O 上獲得迴響,也非常期待將這項功能整合至 Toonsutra 應用程式,甚至日後推出 API 供其他創作者使用。」

目前,Toonsutra 正專注於將這些功能逐步整合至主要應用程式,並密切留意社群的意見回饋。他們認為這不僅能豐富平台內容,還能協助制定 AI 強化內容的新藍圖。

準備開始建構了嗎?請參閱 Gemini API 說明文件,並立即開始使用 Google AI Studio

Toonsutra 是 Google AI Futures Fund 的參與者,該基金會投資並與雄心勃勃的新創公司合作,共同打造 AI 的未來。