۲۵۱۷۳۶ ۱۴۰۴/۰۷/۱۶ ۱۷:۴۵:۵۳

راهنمای آموزش ساخت تصویر با جمینای گوگل

ترندی جدید در شبکه‌های اجتماعی رایج شده است که در آن کاربران با کمک هوش مصنوعی گوگل Gemini تصاویری خلق می‌کنند که نسخه بزرگسالی‌شان، کودکی آنها را در آغوش می‌گیرد یا تصویری که در آن کودکی خودشان در کنار عکس فرزندشان است. در این مطلب به بررسی نرم افزار Gemini، راهنمای نصب و استفاده از آن و آموزش ساخت این تصاویر عجیب و احساسات برانگیز با این هوش مصنوعی پرداخته‌ایم.

جمینی (Gemini) که پیش‌تر با نام «بارد» شناخته می‌شد، یکی از نوآوری‌های هوش مصنوعی گوگل به منظور رقابت با ابزارهایی نظیر ChatGPT است. این فناوری بیش از یک چت‌بات ساده بوده و به عنوان یک هوش مصنوعی چندوجهی (Multimodal) قابلیت تحلیل متن، تصویر، ویدیو و حتی کد را داراست. جمینی با امکانات منحصر به فرد خود می‌تواند به کاربران کمک کند تا کارهای مختلف را با سهولت بیشتری انجام دهند.

در این مطلب، قصد داریم به بررسی کامل این ابزار فوق‌العاده و نحوه استفاده از آن در ایران بپردازیم.

تاریخچه هوش مصنوعی گوگل Gemini

گوگل جمینی، یکی از پیشرفته‌ترین مدل‌های زبانی بزرگ (LLM) است که توسط غول فناوری گوگل توسعه یافته. این مدل که حاصل سال‌ها تحقیق و توسعه در آزمایشگاه‌های گوگل است، به عنوان یک جهش بزرگ در حوزه هوش مصنوعی شناخته می‌شه.

ریشه‌های جمینی: توسعه جمینی ریشه در تحقیقات گسترده گوگل در زمینه پردازش زبان طبیعی (NLP) داره. مدل‌های اولیه‌ای مانند BERT و Transformer که توسط محققان گوگل معرفی شدند، پایه و اساس ساختاری را برای جمینی فراهم کردند. این مدل‌ها توانایی بی‌نظیری در درک و تولید زبان طبیعی از خود نشان دادند و مسیر را برای توسعه مدل‌های پیچیده‌تر هموار کردند.

تولد جمینی: اگرچه تاریخ دقیق تولد جمینی به صورت رسمی اعلام نشده، اما می‌توان گفت که این مدل در طی چندین سال و با همکاری تیمی از دانشمندان و مهندسان برتر گوگل توسعه یافته. یکی از دلایل عدم اعلام تاریخ دقیق، ماهیت پیچیده و چند مرحله‌ای توسعه چنین مدل‌های بزرگی هست.

تغییرات نام و آپدیت‌ها: در طول فرآیند توسعه، ممکن است جمینی با نام‌های مختلفی شناخته شده باشد. برای مثال، در مراحل اولیه توسعه، این مدل با نام Bard شناخته می‌شد. این معمولاً به دلیل تغییرات در معماری مدل، تمرکز بر ویژگی‌های خاص یا به روز رسانی‌های عمده هست.

با-این-دستور-هوش-مصنوعی،-کودکی-خودتان-را-در-آغوش

مدل‌های مختلف گوگل جمینی (جمنای)

هوش مصنوعی گوگل جمینی که به‌عنوان نسل بعدی مدل‌های هوش مصنوعی مولد شناخته می‌شود، از سه مدل مختلف با اندازه و پیچیدگی متفاوت تشکیل شده است. این مدل‌ها به شرح زیر هستند:

جمنای اولترا (Gemini Ultra) یا Gemini Advanced

این مدل بزرگ‌ترین و قدرتمندترین مدل هوش مصنوعی جمینای است که آن را برای انجام پیچیده‌ترین وظایف طراحی کرده‌اند. جمنای اولترا با ترکیب دانش از ۵۷ حوزه مختلف مانند ریاضیات، فیزیک، تاریخ، حقوق، پزشکی و اخلاق، قادر به انجام آزمون‌های دانش جهانی و حل مسائل پیچیده است. این مدل در درک و استدلال موضوعات پیچیده مهارت زیادی دارد و حتی می‌تواند از متخصصان انسانی نیز فراتر رود.

جمنای پرو (Gemini Pro)

این مدل برای انجام وظایف گسترده و مختلفی طراحی شده است. جمنای پرو در نسخه رایگان جمینی گوگل قابل دسترس است و می‌تواند برای نوشتن گزارش‌ها، ترجمه متون با حجم متوسط و تولید محتوای خلاقانه استفاده شود. این مدل میان‌رده تعادل خوبی بین قدرت و کارایی برقرار می‌کند و برای کاربرانی که به دنبال انجام کارهای پیچیده‌تر هستند، مناسب است.

جمنای نانو (Gemini Nano)

جمنای نانو کوچک‌ترین مدل جمینی است که به طور خاص برای دستگاه‌های تلفن همراه طراحی شده است. جمنای نانو برای انجام کارهای ساده و روزمره مانند نوشتن ایمیل، خلاصه‌سازی متون کوتاه و پاسخ به سؤال‌های ابتدایی گزینه مناسبی است. با توجه به کاربرد جمینی نانو، این مدل به منابع کمتری نیاز دارد و می‌تواند به‌راحتی روی گوشی‌های همراه و تبلت‌ها اجرا شود.

این مدل‌ها با توجه به نیازهای مختلف کاربران و محدودیت‌های سخت‌افزاری طراحی شده‌اند تا بتوانند به بهترین شکل ممکن پاسخگوی نیازهای متنوع باشند. هر کدام از این مدل‌ها با توجه به ویژگی‌ها و محدودیت‌های خود، می‌توانند در شرایط خاصی مفید و کارآمد باشند. انتخاب مدل مناسب به نیازهای کاربر و منابع در دسترس او، بستگی دارد.

به طور کلی، مدل‌های گوگل جمنای به‌عنوان نمونه‌هایی از «مدل‌های هوش مصنوعی چندوجهی» هستند که می‌توانند طیف وسیعی از انواع محتوا مانند متن، ویدئو، صدا و کد برنامه‌نویسی را دریافت کنند و پس از تجزیه و تحلیل دقیق، پاسخی ارائه دهند که با درخواست کاربر مطابقت دارد.

این قابلیت‌ها هوش مصنوعی گوگل جمینی را به یک ابزار قدرتمند برای کاربرانی تبدیل می‌کند که به دنبال دستیاری هوشمند برای انجام کارهای مختلف هستند. از نوشتن اسناد و ایمیل‌های حرفه‌ای گرفته تا تولید کدهای برنامه‌نویسی پیچیده و یادگیری زبان‌های جدید، جمینای می‌تواند به کاربران کمک کند تا کارهای خود را با سرعت و دقت بیشتری انجام دهند.

چگونه از گوگل جمینی استفاده کنیم؟

برای دسترسی به توانمندی‌های جمینی، تنها کافی است یک حساب کاربری گوگل داشته باشید. توجه داشته باشید که برای استفاده از ویژگی‌های جمینی، کاربر باید حداقل ۱۳ سال داشته باشد و حساب کاربری‌اش تحت مدیریت Family Link نباشد.

نسخه وب جمینی

رابط کاربری جمینی بسیار کاربرپسند طراحی شده است. با ورود به صفحه اصلی نسخه وب جمینی، کادر دستورات برای تعامل با ابزار وجود دارد. همچنین امکاناتی مانند آپلود فایل‌ها از طریق گزینه «+» و ابزارهایی نظیر Deep Research، Canvas و Images در دسترس است. کاربران می‌توانند با استفاده از آیکون میکروفون دستورات خود را به صورت صوتی ثبت کنند.

همچنین بالا سمت چپ صفحه، گزینه‌ای برای انتخاب مدل هوش مصنوعی قرار دارد که امکان شخصی‌سازی قابلیت‌ها را فراهم می‌کند.

اپلیکیشن موبایل جمینی

گوگل علاوه بر نسخه وب، اپلیکیشن جمینی را برای دستگاه‌های اندروید و iOS عرضه کرده است. کاربران با استفاده از این برنامه می‌توانند امکانات جمینی را به راحتی روی گوشی‌های هوشمند خود هم مورد استفاده قرار دهند.

ممکن است هنگام مراجعه به گوگل پلی با پیغام «این اپلیکیشن در منطقه شما موجود نیست» مواجه شوید. برای برطرف‌کردن این موضوع باید از IP کشورهای پشتیبانی‌شده، استفاده کنید.

نکته: برای استفاده از جمینای گوگل در اندروید، به گوشی با حداقل ۴ گیگابایت رم نیاز دارید که روی آن اندروید ۱۰ یا نسخه‌های جدیدتر نصب شده باشد. همچنین اپلیکیشن Google شما باید به‌روز باشد.

پس از نصب و اجرای نسخه اندروید هوش مصنوعی گوگل، برای استفاده از امکانات برنامه، باید روی Continue در اولین صفحه ضربه بزنید و پس از پایین کشیدن صفحه بعد، روی Use Gemini ضربه بزنید.

ویژگی‌ها و توانمندی‌های کلیدی جمینی

جمینی از قابلیت‌هایی پیشرفته نظیر درک و پردازش اطلاعات بصری، متنی، صوتی و کدی برخوردار است. این ویژگی‌ها، آن را به ابزاری قدرتمند برای تسهیل وظایف مختلف تبدیل کرده‌اند.

مقایسه نسخه رایگان و پولی جمینی

جمینی در دو نسخه رایگان و پولی عرضه شده است. گزینه‌های اشتراک پولی برای کاربران حرفه‌ای طراحی شده و شامل سه سطح مختلف است که هر کدام از آن‌ها امکانات متفاوتی دارند:

قیمت	رایگان	۱۹٫۹۹ دلار در ماه	۲۴۹٫۹۹ دلار در ماه
مدل اصلی	Gemini ۲.۵ Flash	Gemini ۲.۵ Pro	Gemini ۲.۵ Pro with Deep Think
حافظه گوگل وان	۱۵ گیگابایت	۲ ترابایت	۳۰ ترابایت
جمینی در Gmail و Docs	خیر	بله	بله (با بالاترین محدودیت)
تحلیل ویدیوی طولانی	تا ۵ دقیقه	تا ۱ ساعت	تا ۱ ساعت
دسترسی به قابلیت Deep Think	خیر	خیر	بله
اشتراک‌های جانبی	ندارد	ندارد	YouTube Premium

هوش مصنوعی گوگل توانسته با ارائه امکانات جذاب و متنوع، انجام امور روزمره را به میزان چشمگیری ساده‌تر و سریع‌تر کند. اگرچه نسخه رایگان جمینی برای آشنایی اولیه کاملاً کافی است، اشتراک‌های پولی مانند AI Premium می‌توانند تجربه‌ای حرفه‌ای‌تر را برای کاربران به ارمغان بیاورند.

gemini-generated-image-q3thihq3thihq3th

آموزش ساخت تصویر با هوش مصنوعی جمینای

ابزار نانو بنانای گوگل که بخشی از هوش مصنوعی جمینای است، به‌دلیل توانایی درک هم‌زمان عکس و متن، برای این کار ایده‌آل است. پیش‌تر در زومیت، آموزش کامل ساخت و ویرایش عکس با هوش مصنوعی نانو بنانای گوگل را منتشر کرده‌ایم که تمام جزئیات کار با این ابزار را پوشش می‌دهد؛ اما در ادامه، روند کلی ساخت این ترند خاص را مرور می‌کنیم.

از طریق اپلیکیشن موبایل جمنای (iOS یا اندروید) یا وب‌سایت gemini.google.com وارد حساب کاربری گوگل خود شوید.
روی آیکون + و سپس گیره‌ی کاغذ کلیک کرده و دو تصویر مجزا آپلود کنید: یک عکس واضح و باکیفیت از چهره‌ی فعلی‌تان و یک عکس مناسب از دوران کودکی. هرچه چهره در هر دو تصویر واضح‌تر باشد، هوش مصنوعی نتیجه‌ی بهتری تولید می‌کند.

در کادر متن، دستوری را که می‌خواهید هوش مصنوعی اجرا کند، تایپ کنید. برای مثال می‌توانید از پرامپت زیر استفاده کنید. این دستور به جمینای می‌گوید که یک عکس به سبک پولاروید (برای حس نوستالژی) با پس‌زمینه‌ی ساده بسازد، چهره‌ها را تغییر ندهد و از نورپردازی شبیه به فلاش برای ایجاد حس قدیمی بودن استفاده کند.

Take a photo taken with a Polaroid camera. The photo should look like an ordinary photograph, Without an explicit subject or property. The photo should have a slight blur and a consistence light source, like a flash from a dark room, scattered throughout the photo. Don't change the face. Change the background behind people With White curtains. Make a cute pose.

پس از ارسال دستور، جمینای تصویر را برای شما تولید می‌کند. اگر از نتیجه راضی نبودید، می‌توانید با ویرایش دستور اولیه یا نوشتن دستورات جدید، تصویر را اصلاح کنید.

چگونه پرامپت اصلی را شخصی‌سازی کنیم؟

کیفیت، سبک و حس‌وحال تصویر نهایی، بستگی زیادی به دقت و خلاقیت شما در نوشتن پرامپت دارد. برای آنکه تصویر نهایی دقیقاً همان چیزی شود که در ذهن دارید، می‌توانید با افزودن یا تغییر عبارات زیر در پرامپت اصلی، آن را ویرایش کنید:

برای تعیین ژست و احساسات: به‌جای یک آغوش ساده، ژست‌های خاصی را مشخص کنید. مثلاً از

giving my younger self a cute, protective hug

برای انتقال حس حمایت استفاده کنید یا با کلماتی مانند

The mood should express self-love and warmth

لحن احساسی تصویر را تعیین کنید.

برای تغییر پس‌زمینه، اگر پس‌زمینه‌ی فعلی را دوست ندارید، پس‌زمینه‌ی دلخواهتان را توصیف کنید. برای مثال

Change the background to white curtains یا Put them in a sun-filled room.

برای کنترل سبک بصری، اگر نمی‌خواهید عکس شما شبیه پولاروید باشد، می‌توانید سبک‌های دیگری را امتحان کنید. برای مثال، عبارت

Polaroid-style را با in the style of a vintage ۳۵mm film photo

به سبک عکس‌های فیلم ۳۵ میلی‌متری قدیمی جایگزین کنید.