Genmo, video üretiminde yeni bir standart belirleyen Mochi 1 modelini tanıttı. Bu model, 10 milyar parametre ile bugüne kadar halka açık olarak sunulan en büyük yapay zeka video modeli olma özelliğini taşıyor. Açık kaynak olarak sunulan Mochi 1, özellikle hareket kalitesi ve metin talimatlarına uyumluluk konusunda ileri bir teknoloji sunuyor.
Teknik Özellikler ve Yenilikler
Mochi 1, 30 FPS hızında ve 5,4 saniyeye kadar videolar oluşturabiliyor. Model, sıvılar, kürk ve saç hareketleri gibi fiziksel efektleri son derece gerçekçi bir şekilde simüle edebiliyor. Ancak, aşırı hareketlerde zaman zaman bozulmalar gözlemlenebiliyor.
Bu model, özellikle foto-gerçekçi içerik için optimize edilmiş olsa da animasyonlu içerikler için daha az uygun olduğu belirtiliyor. Mevcut sürüm 480p çözünürlükte videolar üretebiliyor; ancak yıl sonuna kadar 720p HD bir sürümün de piyasaya sürülmesi planlanıyor.
Teknik açıdan, Mochi 1, Asymmetric Diffusion Transformer (AsymmDiT) adlı yeni bir mimariye dayanıyor. Bu mimari, görsel ve metin içeriklerini ayrı ayrı işleyerek görsel kısma metin kısmına göre dört kat daha fazla parametre ayırıyor. Diğer modern difüzyon modellerinden farklı olarak, sadece T5-XXL dil modeli kullanılarak metin girdileri işleniyor, bu da verimliliği artırmayı amaçlıyor.
Performans Karşılaştırması
Benchmark testlerine göre, Mochi 1:
- Hareket kalitesinde mevcut rakiplerinden üstün,
- Metin talimatlarını doğru şekilde uygulamada ise yaklaşık %80 başarı oranıyla en üst sırada yer alıyor.
Bu başarı, video üretiminde hareket kalitesini ve metin uyumluluğunu birleştirerek diğer modellerin önüne geçmesini sağlıyor.
Finansman ve Erişim
Genmo, Mochi 1’in duyurusuyla birlikte, NEA liderliğinde 28.4 milyon dolar değerinde bir Seri A yatırım aldığını açıkladı. Şirket, DDPM, DreamFusion ve Emu Video gibi büyük yapay zeka projelerinin çekirdek ekip üyelerini bünyesinde barındırıyor.
Modelin ağırlıkları ve kodu, Apache 2.0 lisansı altında Hugging Face ve GitHub’da ücretsiz olarak sunuluyor. Ayrıca, Genmo’nun resmi web sitesinde ücretsiz bir demo aracı ile modeli test etmek mümkün.
Rakipler ve Gelecek Perspektifi
Her ne kadar Mochi 1’in açık kaynak özellikleri etkileyici olsa da, Runway Gen-3 gibi ticari modeller hala daha uzun ve yüksek çözünürlüklü videolar üretebiliyor. Ayrıca, görsel girdiler, sanal kamera hareketleri ve yüz ifadelerini AI karakterlerine aktarma gibi ek özellikler sunuyor. Meta da kısa süre önce Movie Gen adlı yeni bir video modelini piyasaya sürerek bu alandaki rekabeti artırıyor.
Sonuç
Genmo Mochi 1, açık kaynak video üretimi alanında önemli bir adım olarak öne çıkıyor. Özellikle hareket kalitesi ve metin uyumluluğunda rakiplerine üstünlük sağlarken, açık kaynak bir çözüm arayanlar için etkileyici bir seçenek sunuyor. Ticari modellerin sunduğu ek özelliklere rağmen, Mochi 1, açık kaynak dünyasında bir dönüm noktası olarak görülüyor.
No responses yet