Columbia Üniversitesi Mühendislik Fakültesi’ndeki Creative Machines Lab’de geliştirilen bir insansı robot, şimdiye kadar robotik dünyasında pek az örneği görülen seviyede gerçekçi dudak hareketleri sergilemeyi başardı. Üstelik bunu, insan görüntülerini izleyerek ve taklit ederek öğrendi. Araştırma, bir otonom sistemin konuşma ve müzik söylemeye yönelik doğal dudak hareketlerini, sadece görsel öğrenme yoluyla kazandığı birinci çalışma olarak kayda geçti.
İnsansı robot dizaynında yıllardır aşılamayan en büyük problemlerden biri yüz hareketleri. Yürüyüş, kavrama ve genel mekanik maharetlerde önemli ilerlemeler kaydedilmiş olsa da, bilhassa konuşma sırasında ağız ve dudakların “doğru hissettiren” biçimde hareket etmesi hala büyük bir zorluk. En gelişmiş robotlar bile birden fazla vakit kukla gibisi, yapay ağız hareketleri sergiliyor. İnsan beyni bu cins küçük tutarsızlıklara son derece hassas ve bu durum, robotların ürkütücü algılanmasına yol açıyor.
DOĞAL KONUŞMA İÇİN EPEYCE ÖNEMLİ
Araştırma grubu bu probleme alışılmışın dışında bir yaklaşımla çözüyor. Robotun yüzü, yumuşak sentetik bir deri altına yerleştirilmiş 26 minyatür motordan oluşuyor. Lakin bu motorlar, evvelce her ses için elle yazılmış kurallarla değil; deneme, müşahede ve taklit yoluyla eğitilmiş.
İlk etapta robot bir aynanın karşısına yerleştiriliyor ve binlerce rastgele yüz tabiri üreterek kendi hareketlerini izliyor. Bu süreçte hangi motor hareketinin yüzde nasıl bir form oluşturduğunu öğreniyor, yani robot, evvel kendi yüzünün nasıl çalıştığını anlıyor da diyebiliriz.
Bu evreden sonra ise insanları gözleme basamağına geçilmiş. Sistem, YouTube’daki saatlerce konuşma ve müzik söyleme görüntüsü ile eğitildi. Geliştirilen vision-to-action (VLA) modeli sayesinde robot, sesi direkt motor komutlarına çevirmeyi öğrendi. Böylelikle duyduğu seslerle senkronize dudak hareketleri üretebildi.
Testlerde robotun birden fazla lisanda dudak senkronu yapabildiği, hatta Hello World isimli yapay zeka üretimi birinci albümünden modüller “söylerken” hayli ikna edici göründüğü belirtiliyor. Elbette sistem hala kusursuz değil. “B” harfi üzere sert dudak kapanışı gerektiren sesler yahut “W” üzere büzülme isteyen harfler robot için hala zorlayıcı. Creative Machines Lab Yöneticisi ve makine mühendisliği profesörü Hod Lipson ise “İnsanlarla ne kadar çok etkileşime girerse, o kadar düzgün olacak” diyor.
Araştırmanın asıl kıymeti cümbüş tarafında değil, bağlantının derinliğinde yatıyor. Daha doğal yüz hareketlerine sahip robotlar, beşerlerle duygusal açıdan çok daha güçlü bağlar kurabilir. Çalışmanın başyazarı Yuhang Hu, bu çeşit yüz animasyonlarının ChatGPT yahut Gemini üzere sohbet tabanlı yapay zekalarla birleştiğinde, etkileşimlerin duygusal gerçekliğini önemli biçimde artırabileceğini vurguluyor. Vakitle mikro yüz tabirlerinin bağlama daha hassas hâle gelmesi de mümkün.