راهنمای آموزش ساخت تصویر با جمینای گوگل

ترندی جدید در شبکههای اجتماعی رایج شده است که در آن کاربران با کمک هوش مصنوعی گوگل Gemini تصاویری خلق میکنند که نسخه بزرگسالیشان، کودکی آنها را در آغوش میگیرد یا تصویری که در آن کودکی خودشان در کنار عکس فرزندشان است. در این مطلب به بررسی نرم افزار Gemini، راهنمای نصب و استفاده از آن و آموزش ساخت این تصاویر عجیب و احساسات برانگیز با این هوش مصنوعی پرداختهایم.
فهرست مطالب
جمینی (Gemini) که پیشتر با نام «بارد» شناخته میشد، یکی از نوآوریهای هوش مصنوعی گوگل به منظور رقابت با ابزارهایی نظیر ChatGPT است. این فناوری بیش از یک چتبات ساده بوده و به عنوان یک هوش مصنوعی چندوجهی (Multimodal) قابلیت تحلیل متن، تصویر، ویدیو و حتی کد را داراست. جمینی با امکانات منحصر به فرد خود میتواند به کاربران کمک کند تا کارهای مختلف را با سهولت بیشتری انجام دهند.
در این مطلب، قصد داریم به بررسی کامل این ابزار فوقالعاده و نحوه استفاده از آن در ایران بپردازیم.
تاریخچه هوش مصنوعی گوگل Gemini
گوگل جمینی، یکی از پیشرفتهترین مدلهای زبانی بزرگ (LLM) است که توسط غول فناوری گوگل توسعه یافته. این مدل که حاصل سالها تحقیق و توسعه در آزمایشگاههای گوگل است، به عنوان یک جهش بزرگ در حوزه هوش مصنوعی شناخته میشه.
ریشههای جمینی: توسعه جمینی ریشه در تحقیقات گسترده گوگل در زمینه پردازش زبان طبیعی (NLP) داره. مدلهای اولیهای مانند BERT و Transformer که توسط محققان گوگل معرفی شدند، پایه و اساس ساختاری را برای جمینی فراهم کردند. این مدلها توانایی بینظیری در درک و تولید زبان طبیعی از خود نشان دادند و مسیر را برای توسعه مدلهای پیچیدهتر هموار کردند.
تولد جمینی: اگرچه تاریخ دقیق تولد جمینی به صورت رسمی اعلام نشده، اما میتوان گفت که این مدل در طی چندین سال و با همکاری تیمی از دانشمندان و مهندسان برتر گوگل توسعه یافته. یکی از دلایل عدم اعلام تاریخ دقیق، ماهیت پیچیده و چند مرحلهای توسعه چنین مدلهای بزرگی هست.
تغییرات نام و آپدیتها: در طول فرآیند توسعه، ممکن است جمینی با نامهای مختلفی شناخته شده باشد. برای مثال، در مراحل اولیه توسعه، این مدل با نام Bard شناخته میشد. این معمولاً به دلیل تغییرات در معماری مدل، تمرکز بر ویژگیهای خاص یا به روز رسانیهای عمده هست.
مدلهای مختلف گوگل جمینی (جمنای)
هوش مصنوعی گوگل جمینی که بهعنوان نسل بعدی مدلهای هوش مصنوعی مولد شناخته میشود، از سه مدل مختلف با اندازه و پیچیدگی متفاوت تشکیل شده است. این مدلها به شرح زیر هستند:
-
جمنای اولترا (Gemini Ultra) یا Gemini Advanced
این مدل بزرگترین و قدرتمندترین مدل هوش مصنوعی جمینای است که آن را برای انجام پیچیدهترین وظایف طراحی کردهاند. جمنای اولترا با ترکیب دانش از ۵۷ حوزه مختلف مانند ریاضیات، فیزیک، تاریخ، حقوق، پزشکی و اخلاق، قادر به انجام آزمونهای دانش جهانی و حل مسائل پیچیده است. این مدل در درک و استدلال موضوعات پیچیده مهارت زیادی دارد و حتی میتواند از متخصصان انسانی نیز فراتر رود.
-
جمنای پرو (Gemini Pro)
این مدل برای انجام وظایف گسترده و مختلفی طراحی شده است. جمنای پرو در نسخه رایگان جمینی گوگل قابل دسترس است و میتواند برای نوشتن گزارشها، ترجمه متون با حجم متوسط و تولید محتوای خلاقانه استفاده شود. این مدل میانرده تعادل خوبی بین قدرت و کارایی برقرار میکند و برای کاربرانی که به دنبال انجام کارهای پیچیدهتر هستند، مناسب است.
-
جمنای نانو (Gemini Nano)
جمنای نانو کوچکترین مدل جمینی است که به طور خاص برای دستگاههای تلفن همراه طراحی شده است. جمنای نانو برای انجام کارهای ساده و روزمره مانند نوشتن ایمیل، خلاصهسازی متون کوتاه و پاسخ به سؤالهای ابتدایی گزینه مناسبی است. با توجه به کاربرد جمینی نانو، این مدل به منابع کمتری نیاز دارد و میتواند بهراحتی روی گوشیهای همراه و تبلتها اجرا شود.
این مدلها با توجه به نیازهای مختلف کاربران و محدودیتهای سختافزاری طراحی شدهاند تا بتوانند به بهترین شکل ممکن پاسخگوی نیازهای متنوع باشند. هر کدام از این مدلها با توجه به ویژگیها و محدودیتهای خود، میتوانند در شرایط خاصی مفید و کارآمد باشند. انتخاب مدل مناسب به نیازهای کاربر و منابع در دسترس او، بستگی دارد.
به طور کلی، مدلهای گوگل جمنای بهعنوان نمونههایی از «مدلهای هوش مصنوعی چندوجهی» هستند که میتوانند طیف وسیعی از انواع محتوا مانند متن، ویدئو، صدا و کد برنامهنویسی را دریافت کنند و پس از تجزیه و تحلیل دقیق، پاسخی ارائه دهند که با درخواست کاربر مطابقت دارد.
این قابلیتها هوش مصنوعی گوگل جمینی را به یک ابزار قدرتمند برای کاربرانی تبدیل میکند که به دنبال دستیاری هوشمند برای انجام کارهای مختلف هستند. از نوشتن اسناد و ایمیلهای حرفهای گرفته تا تولید کدهای برنامهنویسی پیچیده و یادگیری زبانهای جدید، جمینای میتواند به کاربران کمک کند تا کارهای خود را با سرعت و دقت بیشتری انجام دهند.
چگونه از گوگل جمینی استفاده کنیم؟
برای دسترسی به توانمندیهای جمینی، تنها کافی است یک حساب کاربری گوگل داشته باشید. توجه داشته باشید که برای استفاده از ویژگیهای جمینی، کاربر باید حداقل ۱۳ سال داشته باشد و حساب کاربریاش تحت مدیریت Family Link نباشد.
نسخه وب جمینی
رابط کاربری جمینی بسیار کاربرپسند طراحی شده است. با ورود به صفحه اصلی نسخه وب جمینی، کادر دستورات برای تعامل با ابزار وجود دارد. همچنین امکاناتی مانند آپلود فایلها از طریق گزینه «+» و ابزارهایی نظیر Deep Research، Canvas و Images در دسترس است. کاربران میتوانند با استفاده از آیکون میکروفون دستورات خود را به صورت صوتی ثبت کنند.
همچنین بالا سمت چپ صفحه، گزینهای برای انتخاب مدل هوش مصنوعی قرار دارد که امکان شخصیسازی قابلیتها را فراهم میکند.
اپلیکیشن موبایل جمینی
گوگل علاوه بر نسخه وب، اپلیکیشن جمینی را برای دستگاههای اندروید و iOS عرضه کرده است. کاربران با استفاده از این برنامه میتوانند امکانات جمینی را به راحتی روی گوشیهای هوشمند خود هم مورد استفاده قرار دهند.
ممکن است هنگام مراجعه به گوگل پلی با پیغام «این اپلیکیشن در منطقه شما موجود نیست» مواجه شوید. برای برطرفکردن این موضوع باید از IP کشورهای پشتیبانیشده، استفاده کنید.
نکته: برای استفاده از جمینای گوگل در اندروید، به گوشی با حداقل ۴ گیگابایت رم نیاز دارید که روی آن اندروید ۱۰ یا نسخههای جدیدتر نصب شده باشد. همچنین اپلیکیشن Google شما باید بهروز باشد.
پس از نصب و اجرای نسخه اندروید هوش مصنوعی گوگل، برای استفاده از امکانات برنامه، باید روی Continue در اولین صفحه ضربه بزنید و پس از پایین کشیدن صفحه بعد، روی Use Gemini ضربه بزنید.
ویژگیها و توانمندیهای کلیدی جمینی
جمینی از قابلیتهایی پیشرفته نظیر درک و پردازش اطلاعات بصری، متنی، صوتی و کدی برخوردار است. این ویژگیها، آن را به ابزاری قدرتمند برای تسهیل وظایف مختلف تبدیل کردهاند.
مقایسه نسخه رایگان و پولی جمینی
جمینی در دو نسخه رایگان و پولی عرضه شده است. گزینههای اشتراک پولی برای کاربران حرفهای طراحی شده و شامل سه سطح مختلف است که هر کدام از آنها امکانات متفاوتی دارند:
قیمت |
رایگان |
۱۹٫۹۹ دلار در ماه |
۲۴۹٫۹۹ دلار در ماه |
مدل اصلی |
Gemini ۲.۵ Flash |
Gemini ۲.۵ Pro |
Gemini ۲.۵ Pro with Deep Think |
حافظه گوگل وان |
۱۵ گیگابایت |
۲ ترابایت |
۳۰ ترابایت |
جمینی در Gmail و Docs |
خیر |
بله |
بله (با بالاترین محدودیت) |
تحلیل ویدیوی طولانی |
تا ۵ دقیقه |
تا ۱ ساعت |
تا ۱ ساعت |
دسترسی به قابلیت Deep Think |
خیر |
خیر |
بله |
اشتراکهای جانبی |
ندارد |
ندارد |
YouTube Premium |
هوش مصنوعی گوگل توانسته با ارائه امکانات جذاب و متنوع، انجام امور روزمره را به میزان چشمگیری سادهتر و سریعتر کند. اگرچه نسخه رایگان جمینی برای آشنایی اولیه کاملاً کافی است، اشتراکهای پولی مانند AI Premium میتوانند تجربهای حرفهایتر را برای کاربران به ارمغان بیاورند.
آموزش ساخت تصویر با هوش مصنوعی جمینای
ابزار نانو بنانای گوگل که بخشی از هوش مصنوعی جمینای است، بهدلیل توانایی درک همزمان عکس و متن، برای این کار ایدهآل است. پیشتر در زومیت، آموزش کامل ساخت و ویرایش عکس با هوش مصنوعی نانو بنانای گوگل را منتشر کردهایم که تمام جزئیات کار با این ابزار را پوشش میدهد؛ اما در ادامه، روند کلی ساخت این ترند خاص را مرور میکنیم.
- از طریق اپلیکیشن موبایل جمنای (iOS یا اندروید) یا وبسایت gemini.google.com وارد حساب کاربری گوگل خود شوید.
- روی آیکون + و سپس گیرهی کاغذ کلیک کرده و دو تصویر مجزا آپلود کنید: یک عکس واضح و باکیفیت از چهرهی فعلیتان و یک عکس مناسب از دوران کودکی. هرچه چهره در هر دو تصویر واضحتر باشد، هوش مصنوعی نتیجهی بهتری تولید میکند.
- در کادر متن، دستوری را که میخواهید هوش مصنوعی اجرا کند، تایپ کنید. برای مثال میتوانید از پرامپت زیر استفاده کنید. این دستور به جمینای میگوید که یک عکس به سبک پولاروید (برای حس نوستالژی) با پسزمینهی ساده بسازد، چهرهها را تغییر ندهد و از نورپردازی شبیه به فلاش برای ایجاد حس قدیمی بودن استفاده کند.
Take a photo taken with a Polaroid camera. The photo should look like an ordinary photograph, Without an explicit subject or property. The photo should have a slight blur and a consistence light source, like a flash from a dark room, scattered throughout the photo. Don't change the face. Change the background behind people With White curtains. Make a cute pose.
- پس از ارسال دستور، جمینای تصویر را برای شما تولید میکند. اگر از نتیجه راضی نبودید، میتوانید با ویرایش دستور اولیه یا نوشتن دستورات جدید، تصویر را اصلاح کنید.
چگونه پرامپت اصلی را شخصیسازی کنیم؟
کیفیت، سبک و حسوحال تصویر نهایی، بستگی زیادی به دقت و خلاقیت شما در نوشتن پرامپت دارد. برای آنکه تصویر نهایی دقیقاً همان چیزی شود که در ذهن دارید، میتوانید با افزودن یا تغییر عبارات زیر در پرامپت اصلی، آن را ویرایش کنید:
برای تعیین ژست و احساسات: بهجای یک آغوش ساده، ژستهای خاصی را مشخص کنید. مثلاً از
giving my younger self a cute, protective hug
برای انتقال حس حمایت استفاده کنید یا با کلماتی مانند
The mood should express self-love and warmth
لحن احساسی تصویر را تعیین کنید.
برای تغییر پسزمینه، اگر پسزمینهی فعلی را دوست ندارید، پسزمینهی دلخواهتان را توصیف کنید. برای مثال
Change the background to white curtains یا Put them in a sun-filled room.
برای کنترل سبک بصری، اگر نمیخواهید عکس شما شبیه پولاروید باشد، میتوانید سبکهای دیگری را امتحان کنید. برای مثال، عبارت
Polaroid-style را با in the style of a vintage ۳۵mm film photo
به سبک عکسهای فیلم ۳۵ میلیمتری قدیمی جایگزین کنید.