مراجعة OpenAI’s Sora: قام Marques Brownlee بتفكيك نموذج فيديو الذكاء الاصطناعي

لقد وصل للتو أحد أكثر المنتجات المتعلقة بالذكاء الاصطناعي التي طال انتظارها: مولد فيديو الذكاء الاصطناعي Sora من OpenAI أطلقت يوم الاثنين كجزء من الشركة 12 يومًا من OpenAI حدث.

قدمت OpenAI نظرة خاطفة على مخرجات Sora في الماضي. ولكن، ما مدى اختلاف الأمر عند الإطلاق؟ من المؤكد أن OpenAI بذلت جهدًا كبيرًا لتحديث وتحسين مولد الفيديو المدعم بالذكاء الاصطناعي استعدادًا لإطلاقه العام.

كان لدى مستخدم YouTube Marques Brownlee ملف أول نظرة على سورا، حيث أطلق مراجعة الفيديو الخاصة به لأحدث منتجات OpenAI قبل ساعات من إعلان OpenAI رسميًا عن الإطلاق. ماذا كان رأي براونلي؟

ما يجيده سورا

وفقًا لبراونلي، وجد اختبار Sora الذي أجراه أن مولد الفيديو المزود بالذكاء الاصطناعي يتفوق في إنشاء المناظر الطبيعية. تبدو لقطات الطبيعة أو المناظر الطبيعية الشهيرة التي تم إنشاؤها بواسطة الذكاء الاصطناعي وكأنها لقطات من المخزون الواقعي. بالطبع، كما يشير براونلي، إذا كنت على دراية جيدة بكيفية ظهور المناطق المحيطة بالمعلم، فقد يتمكن المرء من اكتشاف الاختلافات. ومع ذلك، ليس هناك الكثير مما يبدو واضحًا أنه تم إنشاؤه بواسطة الذكاء الاصطناعي في هذه الأنواع من المقاطع التي أنشأها Sora.

أنظر أيضا:

كيفية تجربة Sora الخاص بـ OpenAI الآن

ربما يكون نوع الفيديو الذي يستطيع سورا إنشاءه بشكل أفضل، وفقًا لبراونلي، هو مقاطع الفيديو المجردة. يمكن إنشاء الفن التجريدي من نوع الخلفية أو شاشة التوقف بشكل جيد بواسطة Sora حتى مع وجود تعليمات محددة.

سرعة الضوء ماشابل

وجد براونلي أيضًا أن أنواعًا معينة من محتوى الرسوم المتحركة التي أنشأها Sora، مثل الرسوم المتحركة المتوقفة عن الحركة أو الرسوم المتحركة من نوع Claymation، تبدو مقبولة في بعض الأحيان حيث تبدو الحركات المتشنجة أحيانًا التي لا تزال تصيب فيديو الذكاء الاصطناعي وكأنها اختيارات أسلوبية.

أنظر أيضا:

7 فيديوهات Wild Sora تضج مواقع التواصل الاجتماعي بعد إطلاقها

والأكثر إثارة للدهشة هو أن براونلي وجد أن سورا كان قادرًا على التعامل مع مرئيات نصية متحركة محددة جدًا. غالبًا ما تظهر الكلمات كنص مشوه في نماذج إنشاء الصور والفيديو الأخرى التي تعمل بتقنية الذكاء الاصطناعي. مع Sora، اكتشف براونلي أنه طالما كان النص محددًا، مثل بضع كلمات على بطاقة العنوان، كان Sora قادرًا على إنشاء الصورة المرئية بالتهجئة الصحيحة.

حيث يخطئ سورا

ومع ذلك، لا يزال Sora يمثل العديد من المشكلات نفسها التي عانت منها جميع مولدات فيديو الذكاء الاصطناعي التي جاءت قبلها.

أنظر أيضا:

OpenAI’s Sora موجود رسميًا هنا

أول شيء يذكره براونلي هو ديمومة الكائن. يواجه Sora مشكلات في عرض شيء معين في يد شخص ما، على سبيل المثال، طوال فترة تشغيل الفيديو. في بعض الأحيان سيتحرك الكائن أو يختفي فجأة. تمامًا كما هو الحال مع نص الذكاء الاصطناعي، يعاني فيديو Sora المزود بالذكاء الاصطناعي من الهلوسة.

وهو ما يقود براونلي إلى مشكلة سورا الأكبر: الفيزياء بشكل عام. يبدو أن الفيديو الواقعي يمثل تحديًا كبيرًا بالنسبة لسورا لأنه لا يبدو أنه يحرك الحركة بشكل صحيح. سيبدأ الشخص الذي يمشي ببساطة في التباطؤ أو السرعة بطرق غير طبيعية. سوف تتشوه أجزاء الجسم أو الأشياء فجأة إلى شيء مختلف تمامًا في بعض الأحيان أيضًا.

وعلى الرغم من أن براونلي قد ذكر هذه التحسينات مع النص، إلا إذا كنت محددًا للغاية، فإن سورا لا يزال يحرف تهجئة أي نوع من نص الخلفية كما قد تراه على المباني أو لافتات الشوارع.

يعد Sora عملاً مستمرًا إلى حد كبير، كما شاركت OpenAI أثناء الإطلاق. على الرغم من أنها قد تقدم خطوة للأمام مقارنة بمولدات فيديو الذكاء الاصطناعي الأخرى، فمن الواضح أن هناك فقط بعض المجالات التي ستجد فيها جميع نماذج فيديو الذكاء الاصطناعي تحديًا.

المواضيع
الذكاء الاصطناعي OpenAI