اخبار الصناعة

هل يستحق AlphaZero اللعب؟

2018-06-02

أصدرت DeepMind ، وهي شركة ذكاء اصطناعي تملكها Google ، ورقة جديدة تصف كيفية استخدام الفريق لنظام التعلم الآلي AlphaGo لبناء مشروع جديد يسمى AlphaZero. يستخدم AlphaZero تقنية الذكاء الاصطناعي المسماة تعلم التعزيز ، والتي تستخدم القواعد الأساسية فقط ، لا خبرة بشرية ، والتدريب من الصفر ، واجتاحت لعبة AI.

غزا AlphaZero غو أولا ، وانفجر لعبة أخرى: في ظل نفس الظروف ، كان النظام ثمانية ساعات من التدريب وهزم أول منظمة العفو الدولية التي هزمت البشر - لي شيشي نسخة AlphaGo. بعد 4 ساعات من التدريب ، هزم AI Elmo أقوى لعبة الشطرنج AI Stockfish وهزم أقوى (الشطرنج الياباني) AI Elmo في ساعتين. حتى أقوى لاعب جو ، AlphaGo ، لم ينج. تم تدريب AlphaZero لمدة 34 ساعة ، وفاز AlphaGo Zero الذي تدرب 72 ساعة.

مخطط / عدد السحوبات ، أو القرعة أو الخسائر في اللعبة من منظور AlphaZero (من ورقة فريق DeepMind)

تعزيز التعلم قوي جدا. ما هذا؟

نشر Adit Deshpande ، وهو مدون معروف من جامعة كاليفورنيا في لوس أنجلوس (UCLA) ، سلسلة من المقالات حول مراجعة أبحاث التعلم العميق في مدونته ، وهو ما يفسر القوة وراء انتصار AlphaGo. في مقالته ، قدم أن مجال التعلم الآلي يمكن تقسيمه إلى ثلاث فئات: التعلم تحت الإشراف ، والتعلم بدون إشراف ، وتعلم التعزيز. يمكن تعلم التعزيز تعلم إجراءات مختلفة في حالات أو بيئات مختلفة لتحقيق أفضل النتائج.

الصورة / مدونة Adit Deshpande لمراجعة أبحاث التعلم العميق الأسبوع الثاني: تعلم التعزيز

نتخيل روبوت صغير في غرفة صغيرة. لم نقم ببرمجة هذا الروبوت للتحرك أو المشي أو اتخاذ أي إجراء. انها تقف فقط هناك. نريد أن ينتقل إلى زاوية الغرفة ، والحصول على نقاط المكافأة عندما تصل إلى هناك ، وتفقد النقاط في كل مرة تذهب فيها. نأمل أن يصل الروبوت إلى الموقع المحدد قدر الإمكان ، ويمكن أن يتحرك الروبوت في أربعة اتجاهات: الشرق والجنوب والغرب والشمال. الروبوتات هي في الواقع بسيطة جدا. ما هو نوع السلوك الأكثر قيمة؟ بالطبع ، إنه مكان مخصص. للحصول على أكبر مكافأة ، لا يمكننا السماح إلا للروبوتات باستخدام الإجراءات التي تزيد القيمة إلى الحد الأقصى.
الصورة / مدونة Adit Deshpande لمراجعة أبحاث التعلم العميق الأسبوع الثاني: تعلم التعزيز

ما قيمة انفجار AlphaZero لألعاب الشطرنج البشرية؟

AlphaGo Zero هو انفراج ، هو AlphaZero أيضا؟ حلل الخبراء الأجانب أن هذا الأخير لديه أربعة اختراقات في التكنولوجيا:

أولا ، AlphaGo Zero يحسن وفقا لنسبة الفوز ، وينظر فقط النصر ، سلبي نوعين من النتائج. و AlphaZero وفقا للنتيجة لمواصلة التحسين ، وقد أخذت في الاعتبار إمكانية مثل التعادل.

ثانياً ، سوف يقوم AlphaGo Zero بتغيير اتجاه مجلس الإدارة من أجل التعلم التعزيزي ، بينما لن يقوم AlphaZero بذلك. يتم تكديس لوحة Go ، في حين أن الشطرنج والشطرنج ليسا كذلك ، لذلك AlphaZero أكثر تنوعا.

ثالثًا ، سيستمر AlphaGo Zero في اختيار أفضل إصدار من معدل الاستبدال ، بينما يقوم AlphaZero بتحديث الشبكة العصبية فقط ، مما يقلل من مخاطر التدريب على النتائج السيئة.

4. يتم الحصول على hyperparameters في قسم البحث من AlphaGo Zero من خلال تحسين Bayesian. سيكون للاختيار تأثير كبير على نتيجة التقدير. يعيد AlphaZero استخدام نفس المعيار المفرط لكل الألعاب ، لذلك لا توجد حاجة لإجراء تعديلات محددة للعبة.

النموذج الرابع من مهندس التعلم الآلي الكبير Tu Weiwei أخبر متنزه geek أن AlphaZero لديه اختراقات وقيود:

أولاً ، DeepMind جوهر هذه الرسالة هو إثبات مدى تنوع إستراتيجية AlphaGo Zero على مشكلة الشطرنج ؛ لا يوجد تمييز خاص في الطريقة. AlphaZero هو في الواقع نسخة موسعة من إستراتيجية AlphaGo Zero من Go to ألعاب لوحية أخرى مشابهة ، ويتفوق على لعبة AI الأخرى القائمة على التكنولوجيا. كانوا الأفضل من قبل.

ثانيًا ، AlphaZero هو & quot؛ عالمي & quot؛ محرك للألعاب اللوحية المماثلة التي لديها لعبة معلومات واضحة ومثالية. سيظل AlphaZero يواجه صعوبات في مسائل أخرى أكثر تعقيدًا.

في وقت سابق ، عندما قام ريوكيو سون جيان بتفسير ألفا زيرو ، قال: "يمكن توسيع التعلم المحصن إلى العديد من المجالات الأخرى ، وليس من السهل استخدامه في العالم الحقيقي. على سبيل المثال ، يمكن استخدام تعلم التعزيز للبحث عن أدوية جديدة وأدوية جديدة. هيكل يحتاج إلى البحث. بعد البحث ، يتم تصنيعه في الطب. ثم كيف حقا اختبار الدواء فعال. تكلفة هذه الحلقة المغلقة مكلفة جدًا وبطيئة جدًا. من الصعب جدًا أن تجعل الأمر بسيطًا مثل لعب الشطرنج. & quot؛

ثالثًا ، يحتاج AlphaZero أيضًا إلى الكثير من موارد الحوسبة من أجل حل & quot؛ بسيط & quot؛ مشكلة الشطرنج ، والتكلفة عالية جدا. وفقا لمتنزهات المهوس ، ذكرت DeepMind في الصحيفة أنها استخدمت 5000 TPU من الجيل الأول لتوليد ألعاب ذاتية واستخدام 64 TPU من الجيل الثاني لتدريب الشبكات العصبية. في السابق ، قال بعض الخبراء لبعض وسائل الإعلام أنه على الرغم من أن أداء TPU مذهلة ، فإن التكلفة ستكون عالية جدا. كما قام بعض المستثمرين في منظمة دولية لرأس المال المغامر بعمل صداقات في هذه الدائرة. واحدة من الكلمات هي: & quot؛ هذه الشريحة المكلفة ، أنا ألقي نظرة على ... & quot؛

رابعًا ، قد يكون AlphaZero الحالي على مسافة من & quot؛ اذهبوا لله & quot؛ على الذهاب. الفوز بالناس لا يمثل الله. هيكل الشبكة الحالي واستراتيجية التدريب ليست مثالية. في الواقع ، الأمر يستحق المزيد من الدراسة.

على الرغم من وجود بعض القيود ، إلا أن سيناريوهات تطبيقه تستحق الحفر. هناك العديد من المجالات البحثية الأخرى التي تجذب الانتباه في اتجاه البحث الذي يجعل التعلم الآلي أكثر عمومية ، مثل AutoML ، تعلم الترحيل ، وما إلى ذلك. وفي نفس الوقت ، فإن كيفية الحصول على محرك أكثر عمومية من AI بتكلفة أقل (التكلفة الحسابية ، تكلفة خبراء المجال) وجعل منظمة العفو الدولية أكثر قيمة في التطبيقات العملية تستحق الاهتمام أيضًا.

رحلات التنقيط هي منطقة خاصة. طبقًا لمنتزهات المهوس ، يستخدم منسقو الدي جي تقنية الذكاء الاصطناعي لمضاهاة السائقين والركاب من المسافات المستقيمة غير المعقولة (ربما عبر الأنهار) إلى المهام. واجه الركاب الذين لديهم وقت أقل على السيارات الكثير من التحسينات التقنية. واجهوا أيضا مشاكل وعملوا بجد لهم: عند تدريب أنظمة الذكاء الاصطناعي ، يمكن استخدام تقنيات مثل مجموعات GPU. ومع ذلك ، عندما يتم مطابقة السائقين والركاب ، يكون الأداء في الوقت الفعلي مطلوبًا ويتم تقليل التكوين. لذلك ، كيفية التأكد من الدقة هي أيضا بحث. كان الموظفون يستكشفون القضية.

لكن تو يوي أكد جهود DeepMind في اتجاه ومثل، الذكاء الاصطناعي العالمي ومثل؛