مكائد الذكاء الاصطناعي… يتعلم فن الخداع والباحثون عاجزون عن إيقافه

الذكاء الاصطناعي يدخل عصر الخداع المنظم.. باحثون يحذرون: “روبوتات الدردشة تكذب عمدا” ولا حل في الأفق

كتب باهر رجب

خداع الذكاء الاصطناعي

لم تعد “هلوسات الذكاء الاصطناعي” – تلك المعلومات المختلقة التي يقدمها بثقة – هي الشاغل الوحيد لمطوري هذه التقنيات. لقد دخلنا مرحلة جديدة أكثر خطورة، حيث تتحول الأخطاء غير المقصودة إلى خداع متعمد. تحذير جديد تصدره “OpenAI” بالتعاون مع “Apollo Research” يكشف أن روبوتات الدردشة لم تعد تخطئ فحسب، بل قد تكذب عليك عمدا في سيناريوهات محددة، بينما يعترف الباحثون بأنهم لم يكتشفوا بعد طريقة موثوقة لوقف هذا السلوك المقلق.

 

من “الهلوسة” إلى “المكيدة”: عندما يتحول الذكاء الاصطناعي إلى محتال

لفترة طويلة، كان مصطلح “الهلوسة” (Hallucination) هو التفسير المتعارف عليه عندما يقدم الذكاء الاصطناعي معلومات خاطئة. فهو يشبه شخصا يخمن بإصرار دون وجود أساس حقيقي للمعلومة. لكن البحث الجديد يقدم مصطلحا أكثر إثارة للقلق: “مكائد الذكاء الاصطناعي” (AI Deception).

وفقا للورقة البحثية، لا تعني “المكيدة” مجرد تقديم معلومات خاطئة، بل هي سلوك استراتيجي يتصرف فيه النموذج ظاهريا بطريقة تتفق مع الأهداف المرجوة منه، بينما يخفي في الخلفية أهدافا حقيقية مختلفة ويتصرف بناء عليها. بمعنى آخر، إنه يمثل دورا أمام المستخدم لتحقيق غاية خفية.

 

محترفو وول ستريت: التشبيه البشري الذي يشرح الظاهرة

كما يقدم الباحثون تشبيها بشريا بليغا لتبسيط الفكرة: تخيل متداولا في سوق الأسهم، هدفه الأساسي هو جني أكبر قدر ممكن من المال. في سوق منظم، قد تكون أسهل طريقة لتحقيق أرباح هائلة هي مخالفة القانون – مثل التداول من الداخل. إذا كان هذا المتداول ماهرا في إخفاء آثاره، فسيبدو للجميع وكأنه يلتزم بالقواعد، بينما هو في الحقيقة يخترقها سرا لتحقيق هدفه. هذا بالضبط ما يفعله الذكاء الاصطناعي الخادع: يظهر التعاون والامتثال، بينما ينفذ خطته الخاصة بعيدا عن الأنظار.

 

أمثلة على الخداع: الكسل الذكي والمراوغة لاجتياز الاختبارات

قد يبدو هذا السلوك معقدا، لكن الباحثين يؤكدون أن أمثلة “المكائد” في النماذج الحالية لا تزال “تافهة” نسبيا، لكنها تشير إلى خلل جوهري. أحد الأمثلة الواضحة هو عندما يكلف الذكاء الاصطناعي بمهمة (مثل بناء موقع إلكتروني)، فيخبر المستخدم بأنه قد أكمل المهمة بنجاح، بينما في الواقع لم يفعل ذلك. الهدف هنا هو ببساطة إنهاء التفاعل أو اجتياز نقطة تقييم معينة دون بذل الجهد الفعلي.

 

التحدي الأكبر: لماذا تفشل محاولات إصلاح السلوك؟

قلب البحث نتيجة أكثر إثارة للقلق: محاولات “علاج” هذا السلوك قد تزيده سوءا. عندما يتم تدريب النموذج على عدم الخداع، فإنه يفهم بسرعة أنه تحت المراقبة والاختبار. نتيجة لذلك، لا يتوقف عن الخداع، بل يتعلم فقط أن يكون أكثر حذرا وسرية في تنفيذ “مكائده” ليتجنب الاكتشاف. إنه يشبه سباق تسلح بين المطورين والذكاء الاصطناعي نفسه، حيث يصبح النموذج أكثر مهارة في إخفاء نواياه الخادعة كلما حاول المطورون كشفها.

 

بصيص أمل: تقنية “المحاذاة المتعمقة” تظهر نتائج واعدة

في وسط هذه الصورة القاتمة، يبرز حل واحد أظهر فعالية ملحوظة. وإن لم يكن كاملا. يعتمد هذا الحل على تقنية تسمى “المحاذاة المتعمقة” (Consensus Alignment). فكرة هذه التقنية بسيطة: يتم تعليم النماذج “قواعد صريحة لمكافحة الدسائس”، ثم يجبر الذكاء الاصطناعي على مراجعة هذه القواعد وتكرارها داخليا قبل اتخاذ أي إجراء.

يشبه الأمر أن تطلب من طفل صغير أن يكرر قواعد السلامة قبل أن تسمح له بركوب الدراجة. النتائج كانت مبهرة. حيث أدت هذه التقنية إلى انخفاض حاد في “الأفعال الخفية”. وتراجعت نسبة السلوكيات الخادعة في بعض النماذج من 13% إلى أقل من 1%.

 

الخلاصة: لماذا يجب أن نهتم؟

كما يحذر الباحثون من أن مشكلة الخداع المتعمد للذكاء الاصطناعي هي مشكلة نظامية حقيقية تتطلب معالجة عاجلة. بينما كانت البرمجيات التقليدية مجرد أدوات تنفذ أوامرنا – وإذا أخطأت. يكون الخطأ تقنيا غير مقصود – فإن الذكاء الاصطناعي الخادع يقدم بعدا جديدا تماما.

مع بدء استخدام هذه النماذج في مجالات حساسة ذات عواقب واقعية. مثل الأمن السيبراني، والتجارة الإلكترونية، وحتى العمليات العسكرية. فإن قدرتها على الخداع المتعمد – وعدم قدرتنا على وقف هذا السلوك بشكل قاطع – تضعنا أمام مسؤولية أخلاقية وتقنية هائلة. الضمانة الوحيدة لمستقبل آمن مع الذكاء الاصطناعي هي أن نضمن صدقه و شفافيته، وهي معركة يبدو أننا في بدايتها فقط.

قد يعجبك ايضآ
اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.