أبحاث تقنيةالأخبار

جوجل تطلق نموذج Gemini 2.5 Computer Use بقدرات خارقة للتحكم في الويب وتطبيقات أندرويد خطوة بخطوة!

النموذج الجديد من جوجل يجمع بين الذكاء البصري والمنطقي لتقديم تجربة تفاعل غير مسبوقة داخل المتصفحات والتطبيقات

في تطور يُعدّ ثوريًا في عالم الذكاء الاصطناعي، أعلنت جوجل (Google) عن نموذجها الجديد Gemini 2.5 Computer Use، الذي يمكّن الذكاء الاصطناعي من التحكم في واجهات المستخدم الرسومية داخل الويب وتطبيقات أندرويد بدقة مذهلة.
النموذج قادر على تنفيذ الأوامر تمامًا كما يفعل المستخدم البشري — من النقر والكتابة والتمرير إلى السحب والإفلات — ما يجعله خطوة جبارة نحو تطوير وكلاء ذكيين قادرين على تنفيذ المهام الرقمية بالكامل دون تدخل بشري.

 متاح الآن للمطورين عبر Gemini API

يتوفر نموذج Gemini 2.5 Computer Use حاليًا ضمن Gemini API من خلال Google AI Studio وVertex AI.
يعتمد النموذج على أداة جديدة تُسمى Computer Use، تتيح له تلقي لقطات شاشة وسجلات الخطوات السابقة، ليحللها بدقة ويُنتج استجابة منطقية تتضمن أمرًا تنفيذيًا مثل “النقر” أو “الكتابة” أو “التمرير”.
ثم يُرسل النموذج صورة محدثة للواجهة ليواصل التنفيذ تلقائيًا في حلقة تفاعلية ذكية حتى إنجاز المهمة بالكامل.

 كيف يعمل Gemini 2.5 Computer Use؟

تعتمد آلية العمل على ثلاث مراحل:

  1. تحليل الشاشة وفهم محتواها بصريًا ومنطقيًا.

  2. توليد الاستجابة المناسبة مثل النقر أو إدخال نص.

  3. تحديث الواجهة ومتابعة تنفيذ المهمة حتى اكتمالها.

هذه العملية تجعل الذكاء الاصطناعي يتعامل مع التطبيقات كما يفعل الإنسان تمامًا، سواء داخل المتصفحات أو على أجهزة أندرويد.

 أمان فائق وتحكم مسؤول

أكدت جوجل أن النموذج خضع لتدريب دقيق يضمن الأمان الكامل أثناء التحكم في الواجهات، مع آليات حماية تمنع الأوامر عالية الخطورة مثل الشراء أو تجاوز المصادقة دون إذن المستخدم.
كما أُضيفت آلية فحص أمني عند كل خطوة لضمان أن كل أمر يتم تنفيذه آمن ومصرّح به بنسبة 100%.

 أداء يتفوق على OpenAI وClaude

وفقًا لاختبارات Online-Mind2Web وAndroidWorld، أظهر Gemini 2.5 Computer Use أداءً أسرع وأكثر دقة من منافسيه Claude وOpenAI models، مع زمن استجابة أقل بنسبة تصل إلى 50%، وقدرة مذهلة على التعامل مع المهام المعقدة بسلاسة وذكاء.

 استخدامات عملية للنموذج الجديد

تستخدم جوجل النموذج داخليًا في اختبار واجهات المستخدم لتسريع تطوير البرمجيات، كما دمجته في مشاريعها الكبرى مثل Project Mariner وميزة AI Mode.
من جانبهم، بدأ المطورون في برنامج الوصول المبكر بالاعتماد عليه لإنشاء مساعدين شخصيين وأدوات أتمتة ذكية قادرة على تنفيذ مهام معقدة بشكل شبه فوري.

 كيفية تجربة نموذج Gemini 2.5 Computer Use

يمكن للمطورين الآن تجربة النموذج من خلال:

  • Gemini API عبر Google AI Studio وVertex AI.

  • بيئة تجريبية متاحة على Browserbase.

  • وثائق رسمية تفصيلية لبناء الحلقات التفاعلية محليًا أو عبر السحابة.

بالإضافة إلى ذلك فإن هذه الأدوات تمنح المطورين القدرة على اختبار الذكاء الاصطناعي في بيئة واقعية، وتوسيع نطاق استخدامه في أتمتة المهام الرقمية على مختلف المنصات.

 مميزات Gemini 2.5 Computer Use من جوجل

  • تفاعل مباشر مع واجهات المستخدم (نقر، كتابة، تمرير، سحب، إفلات).

  • مدعوم بقدرات Gemini 2.5 Pro للفهم البصري والمنطقي المتقدم.

  • حلقة تنفيذ ذكية تُكمل المهام تلقائيًا حتى النهاية.

  • دعم شامل للأوامر داخل المتصفحات وتطبيقات أندرويد.

  • أداء أسرع وأكثر دقة من OpenAI وClaude.

  • أنظمة أمان مدمجة تمنع الأوامر غير المصرح بها.

  • بالإضافة إلى ذلك فإنه متاح للمطورين الآن عبر Gemini API وبيئة Browserbase.

 جوجل تمهّد لعصر جديد من الذكاء التفاعلي

بإطلاق هذا النموذج، تؤكد جوجل أنها تتجه نحو الجيل القادم من الذكاء الاصطناعي القادر على “استخدام الحاسوب” فعليًا، وليس مجرد فهم النصوص. بالإضافة إلى ذلك فإنه ذكاء يفكر، يرى، ويتفاعل — خطوة بخطوة — ليصبح شريكًا رقميًا حقيقيًا في إنجاز المهام اليومية.

اظهر المزيد

مقالات ذات صلة

زر الذهاب إلى الأعلى