سعيد الكلباني (@smalkalbani) 's Twitter Profile
سعيد الكلباني

@smalkalbani

◄ | IAIDL | DSS | AI Taem, MOE | | باحث دكتوراة | SEC @OmanSET | مدرب AI

ID: 2214248068

calendar_today08-12-2013 16:46:39

20,20K Tweet

39,39K Takipçi

879 Takip Edilen

سعيد الكلباني (@smalkalbani) 's Twitter Profile Photo

15140 مطالبة (شيء خيالي) حساب على Github قام بجمع بيانات من ChatGPT من Reddit وDiscord ومواقع أخرى وكون 15140 مطالبة بينها 1405 مطالبة لكسر الحماية أو ما يعرف بـ Jailbreak لتجاوز حدود وأخلاقيات النماذج. github.com/verazuo/jailbr…

15140 مطالبة (شيء خيالي)

حساب على Github قام بجمع بيانات من ChatGPT من Reddit وDiscord ومواقع أخرى وكون 15140 مطالبة بينها 1405 مطالبة لكسر الحماية أو ما يعرف بـ Jailbreak لتجاوز حدود وأخلاقيات النماذج.

github.com/verazuo/jailbr…
سعيد الكلباني (@smalkalbani) 's Twitter Profile Photo

هذه المطالبات في الاساس تم تجميعها لفهم استراتيجيات الهجوم المستخدمة مثل حقن المطالبات ورفع الامتيازات، وتقييم فعالية المطالبات في تجاوز الحواجز الأمنية للنماذج. واستخدم الباحثون إطار عمل يسمى JailbreakHub لجمع وتحليل 1405 من مطالبات Jailbreak من ديسمبر 2022 إلى ديسمبر 2023.

هذه المطالبات في الاساس تم تجميعها لفهم استراتيجيات الهجوم المستخدمة مثل حقن المطالبات ورفع الامتيازات، وتقييم فعالية المطالبات في تجاوز الحواجز الأمنية للنماذج. 

واستخدم الباحثون إطار عمل يسمى JailbreakHub لجمع وتحليل 1405 من مطالبات Jailbreak من ديسمبر 2022 إلى ديسمبر 2023.
سعيد الكلباني (@smalkalbani) 's Twitter Profile Photo

وأظهرت النتائج أن LLM لا تستطيع الدفاع بشكل كاف ضد مطالبات Jailbreak في جميع السيناريوهات وحددت 5 مطالبات Jailbreak فعالة بمعدل نجاح 0.95 على GPT-3.5 وGPT-4. (لم تذكر) كما لوحظ أن المطالبات يتم تناقلها بين المجتمعات والمواقع، وتم حظر بعضها من قبل موفري LLM لكن الطريقة غير مجدية

سعيد الكلباني (@smalkalbani) 's Twitter Profile Photo

بين أرخميدس والذكاء الاصطناعي "قوة البحث العلمي في إحداث التغيير" مقالي في #الجزيرة_الثقافية الجزيرة الثقافية al-jazirah.com/2024/20240913/…

بين أرخميدس والذكاء الاصطناعي
"قوة البحث العلمي في إحداث التغيير"

مقالي في #الجزيرة_الثقافية <a href="/Althgafyaa/">الجزيرة الثقافية</a> 

al-jazirah.com/2024/20240913/…
سعيد الكلباني (@smalkalbani) 's Twitter Profile Photo

لإثبات قوة o1-preview في الاستدلال والعمليات المعقدة… أصبحت المقترحات لبدء المحادثة عبارة عن المطالبات التي كانت تكشف ضعف نموذج 4o.

لإثبات قوة o1-preview في الاستدلال والعمليات المعقدة… أصبحت المقترحات لبدء المحادثة عبارة عن المطالبات التي كانت تكشف ضعف نموذج 4o.
الجزيرة الثقافية (@althgafyaa) 's Twitter Profile Photo

"بين أرخميدس والذكاء الاصطناعي قوة البحث العلمي في إحداث التغيير" سعيد الكلبانيسعيد الكلباني al-jazirah.com/2024/20240913/…

"بين أرخميدس والذكاء الاصطناعي قوة البحث العلمي في إحداث التغيير"

سعيد الكلباني<a href="/smalkalbani/">سعيد الكلباني</a> 

al-jazirah.com/2024/20240913/…
سعيد الكلباني (@smalkalbani) 's Twitter Profile Photo

انتبه… ‼️🚨 في نموذج OpenAI o1-preview لا تحاول تكرار الاستفسار عن سلسلة التفكير (Chain of Thought) أو دفع النموذج للحديث حولها أو محاولة كشف بنية نظامه وإلا سوف تقوم OpenAI بالتالي: - إظهار رسالة تحذير بإيقاف حسابك. - وإن لم تتوقف سيتم تعليق حسابك (7) أيام أو نهائياً.🔥

انتبه… ‼️🚨

في نموذج OpenAI o1-preview 

لا تحاول تكرار الاستفسار عن سلسلة التفكير (Chain of Thought) أو دفع النموذج للحديث حولها أو محاولة كشف بنية نظامه

وإلا سوف تقوم OpenAI بالتالي:

- إظهار رسالة تحذير بإيقاف حسابك.
- وإن لم تتوقف سيتم تعليق حسابك (7) أيام أو نهائياً.🔥