Google Veo 3 yapay zekada çığır açıyor

Google’ın yeni jenerasyon yapay zekâ görüntü üretim modeli olan Veo 3, yalnızca birkaç sözlük metin komutlarıyla gerçekçi görüntüler oluşturabiliyor. Yeni sürümle birlikte, sistem artık bu görüntülere ortam sesleri, insan sesi ve gerçek vakitli fizik simülasyonları da ekleyebiliyor. Örneğin; “kalabalık bir metro vagonu” komutu verildiğinde, sırf görsel değil, tren sesleri, kalabalığın uğultusu ve konuşmalar da oluşturulabiliyor.
Veo 3, ağız hareketleriyle senkronize ses üretimi konusunda da savlı. Bu da onu sinema sanayisi için kıymetli bir araç haline getiriyor. Model, Google’ın yeni duyurduğu AI tabanlı sinema üretim aracı Flow üzerinden de erişime açık. Şimdilik sırf ABD’deki Gemini Ultra aboneleri tarafından kullanılabiliyor.
Google, bu gelişmeyi “yaratıcı bölümlerde kullanılabilir yapay zeka üretme vizyonumuzun bir parçası” olarak tanımlıyor.
ZORLU BİR TEKNİK MAHZUR AŞILDI
Video ve sesi birebir anda yapay zekâ ile üretmek, teknoloji dünyasında bugüne dek epeyce şiddetli bir sıkıntı olarak görülüyordu. Zira görüntü sabit karelerden oluşurken, ses dalga formunda ve büsbütün farklı vakit ölçeklerinde işliyorlar. Bu da iki farklı bilgi tipinin tıpkı anda işlenmesini ve senkronize edilmesini son derece karmaşık hale getiriyor.
Örneğin; birebir otomobil, 10 km/saat süratle gittiğinde farklı, 100 km/saat süratle gittiğinde farklı ses çıkarır. Yüzeye nazaran de ses değişir: Taş döşeli bir yolda yürüyen atın sesi, çim üzerindekiyle tıpkı değildir. Veo 3, bu cins fizikî değişkenleri dinamik olarak hesaplayabilen bir altyapıya sahip.
Google’ın yanı sıra Meta da bu alanda adım atan teknoloji devlerinden biri. Lakin Google’ın Veo 3 modeli, eş vakitli görüntü ve ses üretimini muvaffakiyetle gerçekleştiren birinci modellerden biri olarak öne çıkıyor.
Yapay zekâ, artık yalnızca manzara değil; duyulabilen, hissedilebilen sahneler de yaratabiliyor. Bu da dijital içerik üretiminin geleceğini büsbütün tekrar şekillendirebilir.



