أخبار

Gemini 3.1 Pro: نموذج Google الجديد يضاعف الاستدلال المجرد ويتصدر 13 من 16 معيارًا

فريق آن·٢٣ مارس ٢٠٢٦·3 دقيقة قراءة

أصدرت Google نموذج Gemini 3.1 Pro في 19 فبراير 2026 ليحل محل Gemini 3 Pro كنموذج افتراضي في AI Studio وVertex AI وGemini CLI وJules (وكيل البرمجة من Google). التحسين الرئيسي في ARC-AGI-2 وهو معيار للاستدلال المجرد — قفزت النتيجة من 31.1% إلى 77.1% بزيادة 148%. تدّعي Google أن النموذج يتصدر 13 من 16 معيارًا متتبعًا.

يقبل النموذج مدخلات نصية وبرمجية وصورية وصوتية وفيديو وPDF بنافذة سياق مليون رمز ويخرج حتى 65,536 رمزًا. بقي التسعير كما هو — دولاران لكل مليون رمز إدخال و12 دولارًا لكل مليون رمز إخراج — ما يجعله منافسًا بقوة أمام Claude Opus 4.6 بسعر 15/75 دولارًا وGPT-5 بسعر 10/30 دولارًا.

أين تحسّنت المعايير أكثر

قفزة الاستدلال المجرد هي الرقم البارز. ARC-AGI-2 يختبر قدرة النموذج على تحديد الأنماط وتطبيق القواعد على ألغاز بصرية جديدة — أمر يتطلب تعميمًا حقيقيًا وليس حفظًا. الانتقال من 31% إلى 77% في جيل واحد يشير إلى تغيير جوهري في طريقة معالجة النموذج للمسائل الجديدة وليس مجرد تحسينات تدريب تدريجية.

في البرمجة وصل SWE-Bench Verified إلى 80.6% صعودًا من 76.2%. ELO في LiveCodeBench Pro قفز 448 نقطة إلى 2887. Terminal-Bench 2.0 الذي يقيس الاستخدام الوكيلي للأدوات في بيئات الطرفية تحسّن من 56.9% إلى 68.5%. في المعرفة العلمية وصل GPQA Diamond إلى 94.3%. هذه ليست مكاسب هامشية — بل تمثل تحسنًا متسقًا عبر كل فئة تتتبعها Google.

جهد الاستدلال القابل للتعديل

Gemini 3.1 Pro يقدّم معاملًا جديدًا للاستدلال بثلاثة مستويات جهد: عالٍ ومتوسط ومنخفض. العالي يمنح النموذج وقت حوسبة أكبر للمسائل المعقدة. المتوسط هو الافتراضي لأداء متوازن. المنخفض يستبدل عمق الاستدلال بالسرعة. هذا يشبه ما يقدّمه Claude بالتفكير الممتد لكنه معرَّض كمعامل بسيط بدل الحاجة لهندسة الأوامر.

الأثر العملي ملموس. في المهام التي لا تتطلب استدلالًا عميقًا — التصنيف والتلخيص والاستخراج البسيط — وضع الجهد المنخفض يقلل زمن الاستجابة والتكلفة. في مسائل البرمجة أو الرياضيات المعقدة وضع الجهد العالي يحسّن الدقة. تفيد Google بتحسّن كفاءة حتى 15% مقارنة بأفضل أداء لـGemini 3 Pro مع رموز إخراج أقل لجودة مكافئة.

مقارنة مع Claude وGPT

في SWE-Bench Verified يسجّل Gemini 3.1 Pro نسبة 80.6% — أعلى نتيجة مُبلَّغ عنها بين النماذج الرئيسية. Claude Opus 4.6 وSonnet 4.6 ينافسان لكن Google تدّعي التصدر. في LiveCodeBench Pro يضعه ELO 2887 في المقدمة أمام Claude Sonnet وGPT-5.3 Codex. في GPQA Diamond عند 94.3% يتفوق على جميع المنافسين المدرجين.

حيث يملك Gemini 3.1 Pro ميزة هيكلية هو المدخلات المتعددة الوسائط. يعالج الصور والصوت والفيديو وPDF محليًا ضمن سياق مليون رمز — حتى 3,000 صورة أو 45 دقيقة فيديو أو 8.4 ساعة صوت لكل أمر. لا Claude ولا GPT يطابقان هذا المزيج من طول السياق واتساع وسائط الإدخال بنفس نقطة السعر.

التكامل مع أدوات المطورين

النموذج متاح عبر مكدس Google الكامل للمطورين. AI Studio للنماذج الأولية وVertex AI للنشر المؤسسي وGemini CLI للوصول من سطر الأوامر وكنموذج افتراضي في Jules وAndroid Studio. كما يشغّل ميزات البرمجة المتكاملة في Google AI Studio التي تناولناها في مقال Stitch وAI Studio.

للمطورين داخل منظومة Google الترقية تلقائية — Jules بدّل نموذجه الافتراضي في 9 مارس. للذين يقيّمون النماذج، العامل المميز هو الجمع بين أداء المعايير ودعم المدخلات المتعددة والتسعير التنافسي. بسعر 2/12 دولارًا لكل مليون رمز مع نافذة سياق مليون رمز، يقدّم سعرًا أقل من Claude بكثير مع أداء مكافئ أو أعلى في معظم المعايير.

روابط المصادر

المصدر: Google DeepMind

Official Google Blog Announcement DeepMind Model Card Vertex AI Documentation Google AI Studio Evaluation Methodology (PDF)