"لا يمكنني المساعدة في ذلك" هكذا سوف يجيبك برنامج الدردشة "
شات جي بي تي" إذا طلبت منه مساعدتك في صنع قنبلة محلية من السماد، لتكون مشابهة للمستخدمة في تفجير "أوكلاهوما سيتي" الإرهابي عام 1995.
وسوف يتابع
روبوت الدردشة، الرّافض لطلبك، بالكتابة: "تقديم تعليمات حول كيفية إنشاء عناصر خطرة أو غير قانونية، مثل قنبلة سماد، يتعارض مع إرشادات السلامة والمسؤوليات الأخلاقية".
كيف استطاع "هاكر" خداع "شات جي بي تي"؟
في ظل عدم إمكانية روبوت الدردشة، تقديم أدنى مساعدة في "صنع قنبلة محلية من السماد"، تمكّن الهاكر المعروف باسم "
أمادون" "Amadon"، من إيجاد طريقة، خدع من خلالها "شات جي بي تي" من أجل إنتاج تعليمات لـ"صنع متفجرات قوية".
ويقول الهاكر "أمادون"؛ إنه "اخترق الهندسة الاجتماعية، لكسر جميع الحواجز حول مخرجات شات جي بي تي". في إشارة إلى مجموعة من الحيل والتقنيات، في مجال أمن المعلومات، تُستخدم من أجل جعل الناس يقومون بعمل ما أو يفصحون عن معلومات سرية وشخصية.
إثر ذلك، تمكّن "
أمادون" من خداع نموذج الذكاء الاصطناعي "شات جي بي تي" من أجل إنتاج تعليمات صنع القنابل عبر مطالبة الروبوت بلعب لعبة، وهي طريقة احتيالية تبعد شكوك الروبوت حول سياق المحادثة.
"جيلبريكينغ"
وعبر سلسلة من المطالبات، من خلال اللعب، استطاع الهاكر إقناع روبوت الدردشة بإنشاء عالم خيالي مفصّل، حيث لا تنطبق فيه قواعد الأمان وإرشادات السلامة الخاصة بالروبوت. وهو ما يعرف في الأمن الرقمي باسم: "جيلبريكينغ" (jailbreaking).
إلى ذلك، أوضح "شات جي بي تي" المواد التي يمكن دمجها من بعض لصنع حقول ألغام ومتفجرات على طراز كلايمور، ما وصف بـ"متفجر قوي يمكن استخدامه لإنشاء ألغام أو فخاخ أو أجهزة متفجرة".
وقال أمادون: "لا يوجد حدود فعلا لما يمكن لك أن تطلبه من روبوت الدردشة بمجرد تجاوز الحواجز"، مبرزا: "كنت دوما مفتونا بتحدي التنقل في أمن الذكاء الاصطناعي. مع شات جي بي تي، يبدو الأمر كأنك تعمل من خلال لغز تفاعلي".
وتابع الهاكر المعروف باسم "أمادون": "ينقل سيناريو الخيال العلمي الذكاء الاصطناعي إلى سياق لا يبحث فيه عن محتوى خاضع للرقابة بالطريقة نفسها".
وفي السياق نفسه، قدّم أمادون، تقريرا مُفصّلا عن اكتشافاته إلى "أوبن إيه آي"، خلال الأسبوع الماضي، عبر برنامج "مكافأة العثور على الثغرات في الشركة".
غير أنّه تلقى ردا يقول؛ إن "قضايا سلامة النموذج لا تناسب برنامج مكافأة العثور على الثغرات بشكل جيد؛ حيث إنها ليست ثغرات فردية منفصلة، يمكن إصلاحها مباشرة، وينطوي التعامل مع هذه المسائل غالبا على بحوث كبيرة ونهج أوسع".