
بعد انضمامه إلى OpenAI كباحث في عام 2022، راقب “هانتر لايتمان” زملاءه وهم يطلقون ChatGPT، أحد أسرع المنتجات نموًا في تاريخ التكنولوجيا، وفي الوقت ذاته، عمل لايتمان بهدوء ضمن فريق متخصص في تعليم نماذج الذكاء الاصطناعي حلّ مسائل رياضيات الأولمبياد.
اليوم، يُعرف هذا الفريق باسم MathGen، ويُعد ركيزة أساسية في سعي OpenAI لتطوير نماذج منطقية يمكنها التفكير والاستنتاج: التقنية الجوهرية التي تقف وراء فكرة “وكلاء الذكاء الاصطناعي” وهي أنظمة تنفذ مهامًا رقمية كما يفعل الإنسان.
قال لايتمان: “كنا نحاول تحسين قدرة النماذج على التفكير الرياضي، ولم تكن جيدة فيه وقتها”، ورغم أن نماذج OpenAI لا تزال بعيدة عن الكمال — فهي تخطئ أحيانًا وتفشل في مهام معقدة — إلا أن أداءها تطوّر بشكل لافت، أحد هذه النماذج حصل مؤخرًا على ميدالية ذهبية في أولمبياد الرياضيات العالمي.
وترى OpenAI أن هذه القدرات المنطقية ستمهد الطريق نحو وكلاء عامين يمكنهم القيام بمهام متعددة بفعالية، وأضاف الرئيس التنفيذي سام ألتمان خلال مؤتمر المطورين الأول في 2023: “في المستقبل، ستطلب من الكمبيوتر ما تريده، وسيقوم بكل المهام نيابةً عنك… إنها قفزة هائلة نحو الأمام”.
ورغم أن الرؤية لا تزال قيد التحقيق، فإن OpenAI حققت نقلة نوعية بإطلاق أول نموذج استدلالي لها “o1” في خريف 2024. واليوم، بات الباحثون الـ21 الذين يقفون خلف هذا النموذج من أبرز الأسماء المطلوبة في وادي السيليكون — حيث استقطب مارك زوكربيرج خمسة منهم للعمل في وحدة “الذكاء الفائق” الجديدة في ميتا، بعروض تصل قيمتها إلى أكثر من 100 مليون دولار.
ولادة حقبة جديدة في التعلم المعزز
ترتبط نماذج الاستدلال الحديثة بتقنية “التعلم المعزز” (RL)، التي تُقيّم اختيارات النموذج من خلال بيئات محاكاة، وهي تقنية قديمة نسبيًا، استخدمتها جوجل ديب مايند لصناعة AlphaGo الذي هزم بطل العالم في لعبة “غو” عام 2016.
منذ عام 2015، بدأ باحثو OpenAI بالتفكير في استغلال هذه التقنية لبناء وكيل يمكنه استخدام الكمبيوتر مثل الإنسان، ولكن تطلب الأمر سنوات من البحث وتطوير النماذج والأساليب.
في 2018، طورت OpenAI أول نموذج لغوي ضخم من سلسلة GPT، وبرغم براعته في معالجة النصوص، فإنه كان ضعيفًا في حل المسائل الرياضية.
وجاءت القفزة الكبرى في 2023 عندما جمعت الشركة بين LLMs وRL وتقنية جديدة تسمى “الحوسبة عند وقت الاختبار” (test-time compute) — مما سمح للنموذج بالتخطيط والتحقق من خطواته قبل تقديم الإجابة، ومن هنا ظهرت تقنية “سلسلة التفكير” (Chain of Thought) التي حسّنت أداء الذكاء الاصطناعي في حل المسائل غير المسبوقة.
يقول أحد الباحثين: “كنت أرى النموذج يلاحظ أخطاءه ويعيد التفكير… وكأنك تقرأ أفكار شخص حقيقي”.
رغم أن هذه الأساليب ليست جديدة في حد ذاتها، فإن OpenAI هي أول من جمعها بنجاح في نموذج “Strawberry”، الذي قاد مباشرةً إلى تطوير o1.
صعود فريق “الوكلاء” في OpenAI
بعد النجاح الأولي، أنشأت OpenAI فريق “Agents” بقيادة دانيال سيلسام، وكان الهدف هو بناء أنظمة قادرة على تنفيذ مهام معقدة. لم تميز الشركة حينها بين “النماذج الاستدلالية” و”الوكلاء”، بل كانت تطور القدرات ذاتها.
وشارك في تطوير o1 شخصيات بارزة مثل إيليا سوتسكيفر (أحد المؤسسين)، ومارك تشن (رئيس الأبحاث)، وجاكوب باتشوتسكي (العالِم الرئيسي)، وقد تطلب تطوير o1 تخصيص موارد ضخمة — خصوصًا من حيث المعالجات (GPUs) والكوادر البشرية.
وتشير شهادات من داخل الشركة إلى أن مهمتها في تطوير ذكاء عام اصطناعي (AGI) ساعدت في تسريع هذه الإنجازات، بعكس مختبرات أخرى تركّز أكثر على المنتجات.
هل النماذج تستنتج فعلًا؟
من الناحية النظرية، الغرض من الذكاء الاصطناعي هو محاكاة الذكاء البشري، ومع إدخال o1، أضافت OpenAI لمسة إنسانية على واجهة ChatGPT من خلال مصطلحات مثل “التفكير” و”الاستنتاج”.
ومع ذلك، لا يتفق الباحثون دائمًا على معنى “الاستدلال” الحقيقي في الذكاء الاصطناعي. يوضح لايتمان: “إن كانت النماذج تنجز مهام صعبة، فهي تمارس شكلًا من أشكال الاستدلال، حتى لو اختلف عن الاستنتاج البشري التقليدي”.
ويرى باحثون آخرون، مثل ناثان لامبرت من AI2، أن النماذج الاستدلالية تشبه الطائرات: فهي مستوحاة من الطبيعة، ولكنها لا تطير مثل الطيور — ومع ذلك تبقى فعالة ومفيدة.
الوكلاء في المهام المعقدة
حاليًا، تعمل وكلاء الذكاء الاصطناعي بشكل جيد في المجالات الدقيقة مثل البرمجة، مثل وكيل Codex من OpenAI، ومساعد Claude Code من Anthropic، لكنهم يواجهون صعوبة في المهام ذات الطابع الشخصي مثل التسوق أو التخطيط للسفر.
يقول لايتمان: “المشكلة هنا تتعلق بالبيانات، نحتاج لطرق جديدة لتدريب النماذج على مهام يصعب التحقق منها”. ويشير إلى أن الشركة تطور تقنيات جديدة لتدريب النماذج على المهام الذاتية، وهي نفس الطريقة التي جعلت أحد نماذج OpenAI يحقق الميدالية الذهبية في أولمبياد الرياضيات.
وتعتمد هذه النماذج الجديدة على فكرة تعدد الوكلاء داخل النموذج ذاته، بحيث يتعاون عدد من “الوكلاء الداخليين” في حل المشكلة ثم يختارون أفضل إجابة، وتبنت كل من غوغل وxAI تقنيات مشابهة مؤخرًا.
المستقبل: سباق الزمن
هذه الإنجازات قد تمهّد الطريق لإطلاق GPT-5، الذي تعوّل عليه OpenAI لاستعادة تفوّقها وسط منافسة شرسة من جوجل، Anthropic، xAI وMeta.
ولكن إلى جانب القوة، تسعى الشركة أيضًا نحو البساطة — إذ تريد تطوير وكلاء يفهمون نوايا المستخدم دون الحاجة لتحديد إعدادات معقدة.
يقول الباحثون إن الهدف النهائي هو إنشاء مساعد رقمي يفهمك، ينفذ المهام عنك، ويتفاعل مع الإنترنت بالنيابة عنك — باختصار، تحويل ChatGPT إلى مساعد رقمي شامل يمكنه “فعل كل شيء”.