माइक्रोसॉफ्ट का VASA-1 AI ऐप स्थिर छवियों को एनिमेटेड वीडियो में बदल देता है, जिसमें चेहरे के सजीव भाव ऑडियो के साथ समन्वयित होते हैं, जो चिंताओं को बढ़ाते हुए गेमिंग अवतारों की क्षमता का प्रदर्शन करते हैं।
माइक्रोसॉफ्ट रिसर्च एशिया की AI टीम ने VASA-1 पेश किया है, जो arXiv पर हाल के पेपर में प्रदर्शित एक अभिनव AI एप्लिकेशन है। VASA-1 यथार्थवादी चेहरे के भाव प्रदर्शित करते हुए स्थिर छवियों को सिंक्रनाइज़ भाषण या गीत के साथ एनिमेटेड अभ्यावेदन में परिवर्तित करता है।
विकास और परिणाम
शोध का उद्देश्य प्रामाणिक चेहरे के भाव सुनिश्चित करते हुए ऑडियो ट्रैक के साथ स्थिर छवियों को एनिमेट करना था। VASA-1 इस प्रयास में उल्लेखनीय सफलता प्रदर्शित करता है, ऐसे एनिमेशन तैयार करता है जो प्रदान किए गए ऑडियो के साथ सहजता से सिंक्रनाइज़ होते हैं, जैसा कि प्रोजेक्ट पेज पर नमूना वीडियो से पता चलता है।
क्रियाविधि
विभिन्न चेहरे के भावों वाली हजारों छवियों वाले विविध डेटासेट पर VASA-1 को प्रशिक्षित करके, टीम ने प्रभावशाली परिणाम प्राप्त किए। विशेष रूप से, सिस्टम Nvidia RTX 4090 GPU का उपयोग करके प्रति वीडियो दो मिनट के औसत प्रसंस्करण समय के साथ, 45 फ्रेम प्रति सेकंड पर उच्च-रिज़ॉल्यूशन (512-by-512 पिक्सल) एनिमेशन उत्पन्न करता है।
अनुप्रयोग और सीमाएँ
गेमिंग और सिमुलेशन के लिए जीवंत अवतार बनाने की क्षमता को स्वीकार करते हुए, टीम संभावित दुरुपयोग और नैतिक निहितार्थों के बारे में चिंताओं के कारण सामान्य उपयोग के लिए VASA-1 जारी करने से बचती है।