قابل نوفا سونيك ، نموذج صوت الذكاء الاصطناعي الجديد من أمازون

تعمل شركات الذكاء الاصطناعى على نماذج صوتية لفترة من الوقت الآن ، ولكن يبدو أن الأمور قد ارتفعت حقًا بعد أن كشفت Openai وضع صوتي chatgpt.

الآن ، Amazon لديها فقط قدَّم نموذج صوتي “الأساس” الجديد الذي يسمى نوفا سونيك. وهذا يجعل أليكسا يبدو وكأنها تعيش في الماضي.

وفقًا لـ Amazon ، تقوم Nova Sonic “بتوحيد فهم الكلام وتوليد الكلام في نموذج واحد ، لتمكين المزيد من المحادثات الصوتية التي تشبه الإنسان في تطبيقات الذكاء الاصطناعي.” من خلال العينات المقدمة ، يبدو من المؤكد أنه يشبه الإنسان أكثر من التكرارات السابقة للشركة لنماذج صوت الذكاء الاصطناعي.

انظر أيضا:

لقد قارنت السمسم مع وضع صوت chatgpt وأنا غير مشدود

على سبيل المثال ، هناك توقفًا مناسبًا ونغمة وضخراً على الكلمات اعتمادًا على مكانها وماذا تعني في الجملة. قدمت Amazon بعض العينات التي يمكنك الاستماع إليها هنا وهنا.

سرعة الضوء القابلة للضوء

مرة أخرى ، “أكثر تشبه الإنسان” هو الوصف الرئيسي هنا. لا يزال هناك الكثير من العلامات على أنه صوت منظمة العفو الدولية ، لكنه يبدو أيضًا وكأنه خطوة كبيرة على مساعدي صوت الذكاء الاصطناعي السابقين مثل Alexa.

تقول أمازون إنها حققت ذلك من خلال الجمع بين نماذج متعددة يمكن استخدامها تقليديًا ، مثل التعرف على الكلام ، ونماذج اللغة الكبيرة ، ونص على النص ، في نموذج واحد موحد. وفقًا لـ Amazon ، فإنه لا يفهم فقط الفروق الدقيقة في الكلام لإنتاجه ، ولكنها تتفهمها أيضًا عندما يقوم الإنسان بإدخال خطابهم بهذه الفروق الدقيقة أيضًا.

وفق TechCrunch، تقوم Nova Sonic بالفعل بتشغيل مساعد الصوت من الذكاء الاصطناعى من الذكاء الاصطناعي من Amazon ، Alexa+.

استنادًا إلى التطورات الحديثة ، يبدو أن شركات الذكاء الاصطناعى الكبيرة تركز حاليًا على النماذج الصوتية. لذلك ، الاستعداد للمنافسة في هذا المجال للتسخين. تشير Amazon بالفعل إلى ادعاءات أن Nova Sonic أرخص بنسبة 80 في المائة تقريبًا من طراز GPT-4O من Openai وتشجعه على أنه “الأكثر كفاءة من حيث التكلفة”.

Nova Sonic متاح حاليًا للمطورين من خلال منصة مطور Amazon من AII AI ، Bedrock.