Alexa يستمع دائمًا ولكن لا يسجل باستمرار. لا يرسل أي شيء إلى الخوادم السحابية حتى يسمعك تقول كلمة التنبيه (Alexa أو Echo أو Computer). لكن الاستماع إلى كلمات الاستيقاظ أصعب مما تعتقد.
أجهزة الصدى ليست كلها ذكية. بدون الإنترنت ، سيفشل أي طلب أو سؤال تطرحه. هذا لأنه يتم إرسال أوامرك إلى السحابة للتفسير واتخاذ القرارات. لا تريد أمازون تسجيل كل محادثة تجريها أمام مكبر صوت ذكي ، بل تريد فقط الأوامر التي تعطيها للمتحدث الذكي. لهذا السبب ، تستخدم الشركة كلمة تنبيه لجذب انتباه المتحدث الذكي. لتحقيق ذلك ، تستخدم Amazon مزيجًا من الميكروفونات الدقيقة ، ومخزن ذاكرة قصير ، وتدريب الشبكة العصبية.
الميكروفونات دقيقة الضبط حدد صوتك بدقة
عادةً ما تحتوي مكبرات الصوت المساعد الصوتي ، مثل Echo و Echo Dot ، على العديد من الميكروفونات المدمجة. Echo Dot ، على سبيل المثال ، لديه سبعة. تمنح هذه المجموعة الأجهزة قدرات عديدة ، من سماع الأوامر المنطوقة بعيدًا ، إلى فصل ضوضاء الخلفية عن الأصوات.
هذا الأخير مفيد بشكل خاص لاكتشاف كلمة التنبيه. باستخدام الميكروفونات المتعددة ، يمكن لـ Echo تحديد موقعك بالنسبة إلى مكان الجلوس والاستماع في هذا الاتجاه مع تجاهل بقية الغرفة.
ترى هذا في العمل كلما استخدمت كلمة التنبيه. قف إلى جانب Echo أو Echo Dot وقل كلمة الاستيقاظ. لاحظ أن الحلقة تضيء باللون الأزرق الداكن ، ثم باللون الأزرق الفاتح لأنها تدور و “تشير” نحوك. الآن ، تحرك عدة خطوات إلى الجانب وقل كلمة الاستيقاظ مرة أخرى. لاحظ أن الأضواء الزرقاء الفاتحة تتبعك.
تساعد معرفة مكانك الجهاز على التركيز عليك بشكل أفضل وضبط الضوضاء القادمة من أي مكان آخر .
الذاكرة القصيرة تحافظ على السماعة من الضغط الزائد
تتمتع أجهزة الصدى بمساحة تخزين كبيرة ، لكنها لا تستخدم الكثير منها. وفقًا لروهيت براساد ، نائب الرئيس في أمازون وكبير العلماء في الذكاء الاصطناعي في Alexa ، يمكن لـ Echo تخزين بضع ثوانٍ فقط من الصوت .
من خلال تقليل قدرتها ، لا تمنحك Amazon مزيدًا من الخصوصية فقط (حيث يتم تخزين صوتك في مكان أقل) فحسب ، بل تمنع أيضًا Echo من الاستماع إلى المحادثات بأكملها ، مما يحد من تركيزها على العثور على كلمة التنبيه.
تخيل أن لديك كاسيت مدته ثلاث ثوان وجهاز تسجيل. افترض أنه بعد أن وصل إلى النهاية ، عاد الشريط إلى البداية مرارًا وتكرارًا. إذا بدأت في تسجيل محادثة ، فسيتم مسح كل ما قلته قبل أربع ثوانٍ وتسجيله على الفور. هذا ما يفعله Amazon Echo.
إنه يسجل باستمرار ولكنه يمسح كل شيء سجله للتو في نفس الوقت. فترة الانتباه القصيرة هذه تعني أن كل ما تسمعه هو كلمة “Alexa” وليس أكثر من ذلك بكثير. ومع ذلك ، فإن ثلاث ثوانٍ طويلة بما يكفي لتسجيل هذه الكلمة وفحصها والتصرف بناءً عليها بشكل مناسب.
يساعد تدريب الشبكة العصبية في مطابقة الأنماط
أخيرًا ، تعتمد أمازون على تدريب الشبكة العصبية لتعليم Echo كيفية مطابقة الأنماط. تمامًا مثل الأشكال الأخرى للتعلم الآلي ، تدرب أمازون خوارزمياتها عن طريق تغذية مثيلها بعد مثيل لكلمة Alexa (أو Computer ، أو Echo ، اعتمادًا على كلمة التنبيه التي تدربها الشركة).
الفكرة هي تغطية كل انعطاف ولهجة ، ولكن أيضًا السياق. الأمازون يريد صدى لندرك الفرق عندما كنت تتحدث إلى ذلك، عندما نتحدث عن ذلك، أو، ربما، عندما كنت تتحدث إلى شخص يدعى اليكسا. تساعد الميكروفونات الاتجاهية أيضًا في تحقيق هذا الهدف.
مع كل كلمة يسمعها Echo ، فإنه يقوم بتشغيل الصوت عبر طبقات من الخوارزميات. تم تصميم كل طبقة لاستبعاد الإيجابيات الخاطئة ، والبحث عن الأصوات المتشابهة أو أدلة السياق. إذا نجح فحص طبقة واحدة ، تنتقل الكلمة إلى التالية. أخيرًا ، عندما يقرر الجهاز المحلي أنه سمع كلمة التنبيه ، يبدأ في تسجيل الصوت ونقله إلى خوادم Amazon السحابية. تستخدم أمازون أربع خوارزميات: واحدة لكل كلمة تنبيه (Alexa ، Computer ، Echo) ، وواحدة لـ Alexa Guard ، والتي تعالج أصواتًا معينة ، مثل تحطم الزجاج ، مثل كلمة تنبيه.
ولكن حتى عند حدوث مباراة ، لا تزال أمازون تدير عمليات فحص أكثر تعقيدًا. هل لاحظت أنه عندما يتكلم شخص ما بكلمة Alexa في برنامج تلفزيوني أو إعلان تجاري ، فعادة ما لا يثير ذلك استجابة من Echo الخاص بك؟ ذلك لأن Amazon تقوم أيضًا بفحص السحابة.
فحوصات السحابة تستبعد بعض الإيجابيات الكاذبة
عندما تقوم الشركات بعمل إعلانات تجارية تحتوي على Alexa ، يمكنها إرسال الصوت إلى Amazon . تقوم الشركة بتشغيل الصوت من خلال خوارزميات مطابقة الأنماط المماثلة المستخدمة لتحديد كلمة التنبيه. بمجرد فهرسة هذا المثيل الدقيق بالكامل ، يتم إضافته إلى قاعدة بيانات.
كجزء من العملية عند الوصول إلى السحابة ، يتضمن Echo معلومات حول كلمة التنبيه التي سمعها ويتحقق من قاعدة البيانات هذه. عندما تجد تطابقًا ، تقوم أمازون بإرشاد جهاز Echo الخاص بك لتجاهل كلمة التنبيه وإيقاف التشغيل وتجاهل أي صوت مسجل.
بالإضافة إلى ذلك ، يتحقق Amazon من حالات كلمة التنبيه المنطوقة في وقت واحد. لا تقدم كل شركة صوتًا إلى أمازون ، لذلك توصلت الشركة إلى حل نسخ احتياطي جديد. بعد التحقق من تطابق قاعدة البيانات ، تقارن الشركة بصمة كلمة التنبيه مع أي حالات أخرى ترد في نفس الوقت. من غير المحتمل أن يكون صوت شخصين يقولان Alexa في نفس الوقت متشابهين تمامًا ، لذلك إذا كان هناك تطابق ، فإن Amazon تعلم أنه من المحتمل أن يكون برنامجًا تجاريًا أو برنامجًا تلفزيونيًا ويتجاهل الطلب.
على الرغم من جميع الفحوصات ، لا تزال هناك نتائج إيجابية خاطئة. يمكنك الاستماع إلى ما سجله Echo الخاص بك في مركز الخصوصية في Amazon ، ومن المحتمل أن تجد على الأقل خطأ إيجابيًا واحدًا في المجموعة. ولكن يتم تحسين التكنولوجيا باستمرار ، وفي النهاية ، تود أمازون أن تعمل دون كلمة تنبيه على الإطلاق.