แชร์

16 พฤษภาคม 2025

Cartwheel พัฒนาภาพเคลื่อนไหวของตัวละครโดยใช้ Gemini API

Jonathan Jarvis

ผู้ร่วมก่อตั้งและ CTO

Andrew Carr

ผู้ร่วมก่อตั้งและนักวิทยาศาสตร์คนสำคัญ

Vishal Dharmadhikari

AI DevRel

รูปภาพหลักของ Showcase ของ Cartwheel

Cartwheel พัฒนาภาพเคลื่อนไหวของตัวละครโดยใช้ Gemini API

Cartwheel เป็นผู้นำด้านภาพเคลื่อนไหวรุ่นถัดไป โดยให้บริการแพลตฟอร์มที่รับอินพุตเป็นภาษาธรรมชาติ (เช่น "jump" "salsa dance spin") ควบคุมการกระทำของตัวละครโดยตรง นวัตกรรมนี้ช่วยปรับปรุงวิธีสร้างภาพเคลื่อนไหวสำหรับวิดีโอ เกม โฆษณา และโซเชียลมีเดียของครีเอเตอร์ Cartwheel ผสานรวม Imagen 3 เพื่อการออกแบบข้อความเป็นตัวละครที่ใช้งานง่าย รวมถึงใช้ประโยชน์จาก Gemini 2.5 Pro Preview เพื่อพัฒนาอัลกอริทึมเฉพาะสำหรับภาพเคลื่อนไหวที่ซับซ้อน สำรวจโค้ดเบสที่ซับซ้อน และเร่งการเพิ่มประสิทธิภาพแพลตฟอร์ม ซึ่งช่วยให้ผู้ใช้ขยายการเล่าเรื่องอย่างสร้างสรรค์ได้

การฝ่าฟันอุปสรรคด้าน R&D ในการเคลื่อนไหวแบบ 3 มิติแบบ Generative

การพัฒนาแพลตฟอร์มภาพเคลื่อนไหวล้ำสมัยไม่เพียงต้องใช้เครื่องมือออกแบบที่ใช้งานง่ายเท่านั้น แต่ยังต้องใช้นวัตกรรมอย่างต่อเนื่องในอัลกอริทึมแบ็กเอนด์และการจัดการโค้ดเบสที่มีประสิทธิภาพ Cartwheel พบปัญหาในการสร้างต้นแบบและใช้งานฟีเจอร์ภาพเคลื่อนไหวที่ซับซ้อนอย่างรวดเร็ว การเพิ่มประสิทธิภาพโค้ดฐานขนาดใหญ่เพื่อประสิทธิภาพ และช่วยให้นักพัฒนาซอฟต์แวร์เข้าใจและมีส่วนร่วมกับระบบขนาดใหญ่ได้อย่างรวดเร็ว ทีมต้องการพาร์ทเนอร์ AI ที่มีประสิทธิภาพเพื่อเร่งการพัฒนา

วิธีที่ Cartwheel ใช้ Imagen 3 และ Gemini 2.5 Pro เวอร์ชันตัวอย่าง

Cartwheel ใช้ Gemini API เพื่อปรับปรุงไปป์ไลน์การสร้างที่แสดงต่อผู้ใช้และเพื่อช่วยเหลือกระบวนการพัฒนาภายใน

  • การสร้างตัวละครด้วย AI ด้วย Imagen 3: Cartwheel ผสานรวมความสามารถการแปลงข้อความเป็นรูปภาพของ Imagen 3 ซึ่งช่วยให้ครีเอเตอร์ใช้พรอมต์ข้อความเพื่อสร้างแนวคิดและสร้างภาพตัวละครที่ไม่เหมือนใครได้โดยตรงภายในแพลตฟอร์ม ตัวละครที่ออกแบบเองเหล่านี้สามารถเคลื่อนไหวโดยใช้ภาษาที่เป็นธรรมชาติ จากนั้นส่งออกแบบมีการควบคุมการเคลื่อนไหวอย่างเต็มรูปแบบและพร้อมใช้งานในซอฟต์แวร์แก้ไข 3 มิติมาตรฐานอุตสาหกรรม เช่น Maya หรือ Blender ซึ่งช่วยให้ผสานรวมเข้ากับสภาพแวดล้อมการผลิตระดับมืออาชีพได้
  • การช่วยพัฒนาและเพิ่มประสิทธิภาพด้วย Gemini 2.5 Pro Preview: ทีม Cartwheel ใช้ Gemini 2.5 Pro Preview ภายในเพื่อรองรับเวิร์กโฟลว์ด้านวิศวกรรมและการวิจัย ดังนี้
    • การพัฒนาอัลกอริทึม: ตัวอย่าง Gemini 2.5 Pro นำมาใช้เพื่อช่วยพัฒนาฟีเจอร์เฉพาะสำหรับภาพเคลื่อนไหว ซึ่งรวมถึงอัลกอริทึมสำหรับภาพเบลอจากการเคลื่อนไหวเพื่อสังเคราะห์ข้อมูล พีระมิด Laplacian สำหรับการผสม และ IK (Inverse Kinematics) อัตโนมัติสำหรับการโพสท่าในโปรแกรมแก้ไข
    • การสํารวจและการแก้ไขข้อบกพร่องโค้ด: ทีมใช้ Gemini 2.5 Pro Preview เพื่อสํารวจฐานโค้ดที่ซับซ้อน สร้างแนวคิดสําหรับการทดสอบใหม่ และช่วยแก้ไขข้อบกพร่องกรณีขอบได้อย่างมีประสิทธิภาพ เช่น ข้อผิดพลาดในการหมุนกล้องที่ซับซ้อน
    • ใช้ประโยชน์จากบริบทแบบยาวสําหรับการดําเนินการกับโค้ดเบส: ความสามารถของบริบทแบบยาวของ Gemini 2.5 Pro Preview ใช้ในการดําเนินการกับโค้ดเบสทั้งหมดของ Cartwheel ซึ่งจะช่วยให้นักพัฒนาแอปสามารถนําโค้ดเบสใหม่ (เช่น ฟรอนต์เอนด์) มาใช้ในบริบทเพื่อช่วยเพิ่มฟีเจอร์หรือถามคําถามระดับสูงเกี่ยวกับสถาปัตยกรรมและฟังก์ชันการทํางานของระบบได้

การเพิ่มประสิทธิภาพเวิร์กโฟลว์ภาพเคลื่อนไหว

Cartwheel ใช้ Gemini 2.5 Pro Preview เพื่อช่วยในการพัฒนาอัลกอริทึม การสํารวจโค้ด และการแก้ไขข้อบกพร่อง โดยมีเป้าหมายเพื่อปรับปรุงกระบวนการพัฒนาและเร่งการเพิ่มประสิทธิภาพแพลตฟอร์ม การผสานรวม Imagen 3 ช่วยให้ผู้ใช้สร้างภาพตัวละครจากข้อความได้อย่างรวดเร็ว ขณะที่ Gemini 2.5 Pro Preview เป็นเครื่องมือที่จะช่วยนักพัฒนาซอฟต์แวร์สร้างเทคโนโลยีพื้นฐาน การผสานรวมเหล่านี้สอดคล้องกับเป้าหมายของ Cartwheel ในการทำให้เวิร์กโฟลว์ภาพเคลื่อนไหวทำงานได้เร็วขึ้นและเข้าถึงได้ง่ายขึ้น ซึ่งช่วยให้ใช้ฟีเจอร์ต่างๆ ได้ดังนี้

  • เร่งการสร้างชิ้นงานสำหรับเกมและวิดีโอ ซึ่งช่วยให้ทีมมุ่งเน้นที่การออกแบบหลักได้
  • อำนวยความสะดวกในการสร้างเนื้อหาการตลาดและโซเชียลมีเดียอย่างมีประสิทธิภาพ

"ภาพเคลื่อนไหวเป็นหนึ่งในวิธีบริสุทธิ์ที่สุดในการถ่ายทอดเรื่องราวจากในหัวของคุณและแสดงให้โลกเห็น เรากำลังสร้างเครื่องมือที่จะช่วยให้ทุกคนเข้าถึงสิ่งเหล่านี้ได้ง่ายขึ้นและสะดวกยิ่งขึ้น"

- Jonathan Jarvis, CEO / Co-founder, Cartwheel

การสร้างอนาคตของภาพเคลื่อนไหว

การผสานรวม Imagen 3 กับ Gemini 2.5 Pro Preview ของ Cartwheel แสดงให้เห็นว่า AI ของ Google สามารถนำไปใช้เพื่อเปิดใช้ฟีเจอร์ใหม่ๆ ที่แสดงต่อผู้ใช้ และช่วยงานพัฒนาที่ซับซ้อนซึ่งจําเป็นต่อการสร้างเครื่องมือรุ่นถัดไปได้อย่างไร

ดูเอกสารประกอบเกี่ยวกับ Gemini API, ดูข้อมูลเกี่ยวกับ Imagen 3 และเริ่มต้นใช้งานใน Google AI Studio

Cartwheel เป็นผู้เข้าร่วมในกองทุนเพื่ออนาคตด้าน AI ของ Google ซึ่งลงทุนและทำงานร่วมกับสตาร์ทอัพที่มีความทะเยอทะยานในการสร้างเทคโนโลยี AI ใหม่ๆ