Ахой всем, кто на палубе, полных парусов и крепких аккаунтов! С недавнего времени в каждой таверне все чаще слышно, как народ судачит про искусственный интеллект и его применение в повседневной жизни. В основном речь идет о ChatGPT, но наряду с ним в открытом доступе есть, как минимум еще несколько мощных ИИ чат-ботов от разных IT гигантов. И один из таких ботов — Gemini от корпорации Google, к возможностям которого корпорация открыла полный доступ для всех пользователей. А в марте 2024 года в открытом доступе была анонсирована обновленная версия чат-бота Gemini 1.5 Pro. И, судя по отзывам в Интернете, Gemini во многом превосходит такой хайповый ChatGPT. Сегодня разберемся, на что способен ИИ от Google и так ли он хорош на самом деле.

Что такое Gemini от Google
Gemini — языковая модель искусственного интеллекта, ориентированная на решение широкого спектра задач, разработанная специалистами Google DeepMind. За недолгий период существования модели, ее создатели реализовали несколько итераций ИИ:
- Gemini Nano. Используется для улучшения пользовательского опыта в смартфонах Google Pixel 8 Pro;
- Gemini Pro. На основе этой модели функционирует чат-бот Gemini (ранее — Google Bard). Gemini Pro способна генерировать текстовый контент, давать ответы на заданные вопросы, создавать изображения и искать информацию согласно заданному запросу пользователя. На начальных этапах ИИ, размер ее контекстного окна составлял 32 000 токенов, то есть юзеры могли отправлять запросы объемом в 32 000 единиц информации (буквы, символы, слова, слоги и т.д.);
- Gemini Ultra. В этой модели команда разработчиков реализовала еще более объемный набор функций и назвала ее главным конкурентом GPT-4.
- Gemini 1.5 Pro. На момент написания статьи это последняя и самая развитая версия ИИ от Google DeepMind, возможности которой, по заявлениям разработчиков, значительно превосходят GPT-4.
На что способна Gemini 1.5 Pro
Знаковым является тот факт, что именно Gemini 1.5 Pro — первая ИИ-модель, получившая возможность обрабатывать запросы, объем которых может составлять до миллиона токенов (~ 700 000 слов).


Кроме того, создатели Gemini 1.5 Pro уверяют, что нейронка уже сегодня может обрабатывать в рамках каждого отдельного запроса до 11 часов аудио и до 1 часа видео. При этом ИИ-модель считывает большую часть событий, происходящих в тексте, аудиодорожке или в видео.
Также модель на данном этапе своего развития легко анализирует до 30 000 строк программного кода, а также понимает контекст событий и определяет объекты, изображенные на фото.
Стоит отметить, что этим функционал не ограничивается, так как модель ИИ также способна:
- распознавать рукописный текст на изображении;
- проверять тексты на ошибки (не только печатные символы, но и рукописные), а также объяснять, как и почему их нужно исправить;
- создавать гайды с иллюстрациями (т.е. создать отдельный интерфейс под каждый этап задачи);
- создавать таблицы, писать стихи, а также вести с пользователем «осознанную» беседу.
В Google уверяют, что Gemini 1.5 Pro не только превосходит GPT-4 в 8,2 раза по размеру контекстного окна, но и способна понимать весь объем информации, приведенной в этом окне.
Как получить доступ к Gemini 1.5 Pro
Доступ к Gemini 1.5 Pro на момент выхода статьи предоставляется только для пользователей в отдельных гео и с ограниченным количеством языков. Ознакомиться с требованиями, актуальным списком стран и языков Gemini 1.5 Pro можно в официальной справке от Google.

Доступ к Gemini 1.5 Pro для пользователей большинства стран СНГ ограничен. Чтобы оценить все его возможности, некоторые юзеры используют VPN или профиль в антидетект-браузере с прокси одной из доступных стран. Но даже так не всегда Google подпускает к ИИ.
Приведем пошаговую инструкцию, воспользовавшись которой нам удалось получить доступ к Gemini 1.5 Pro:
- Если язык Google-аккаунта не английский, меняем его в настройках на английский;
- Устанавливаем VPN-сервис на ПК (в нашем случае, это бесплатная версия TunnelBear);
- Выбираем, например, Бразилию или США;
- Переходим по ссылке на страницу ИИ-модели;
- Принимаем Правила пользования и пользуемся.


Тестируем возможности Gemini 1.5 Pro
Пройдемся по большей части заявленных способностей новой версии ИИ-модели от Google.
На простой промт с просьбой написать стих из 12 сток, посвященный арбитражу трафика, ИИ написала полноценный текст с соблюдением рифмы, при этом используя не только общепринятые слова, но и сленг, присущий медиабайерам. Генерация стихотворения заняла у Gemini 1.5 Pro 1,5-2 секунды.

На переделывание этого стиха в стиле хокку у ИИ ушло 4 секунды (время генерации может зависеть от загруженности системы).

А вот так выглядит общение с чат-ботом в живой манере:


На промт с просьбой написать максимально краткий код инженерного калькулятора на Python модель выдала не только блок кода, но и добавила простую инструкцию по использованию конечного продукта после компиляции:


Сам код оказался рабочим, а компилятор не выдал ни одной ошибки.

Также мы попросили ИИ решить задачу с помощью описания функции Кобба-Дугласа, которую принято относить к разделу методов оптимизации в высшей математике.

Модель не только рассчитала правильный ответ, но и подробно описала свои действия на каждом этапе решения задачи.


Промт по распознаванию рукописного текста с картинки ИИ также выполнил, но с некоторыми неточностями и не в полном объеме. Возможно это связано с особенностями почерка.


А вот с распознаванием личностей на фото и описанием происходящего на картинке Gemini 1.5 Pro отлично справляется на все 100%.
Пример одного из наших запросов и ответы на него — на скриншоте ниже:

Возможности ChatGPT и Gemini 1.5 Pro
Мы решили проверить, на что способны чат-боты ChatGPT и Gemini, поручив им разные задачки: от создания резюме деловых встреч и перефразирования писем до оформления приглашений на вечеринку и даже игры в древнего космического мага. Вот что из этого вышло:
- Резюме совещаний: Оба бота справились на ура, выловив из текста все самое важное.
- Перефразирование писем: Gemini показал себя молодцом, предложив профессиональные и толковые формулировки. ChatGPT Plus тоже не ошибся в грамматике, но его текст получился каким-то корявым.
- Приглашения на свадьбу: ChatGPT Plus создал красивое приглашение, но с непонятными символами. Gemini же написал текст и разработал структуру с подробным описанием каждого элемента.

- Ролевая игра: Оба бота удивили своими ответами – они были интересными и захватывающими, у каждого со своими фишками.
При этом главным преимуществом Gemini 1.5 Pro остается бесплатный доступ и интеграция с большинством сервисов Google.
Вывод
Если вам нужно написать письмо или сочинить что-то творческое, например, тексты для креативов РК, бесплатные чат-боты легко справятся с подобными задачами. Но если запросы отличаются спецификой и нишевостью, в этом Gemini 1.5 Pro действительно будет на шаг впереди ChatGPT Plus. Тем более, чтобы попробовать продвинутые функции второго, придется заплатить.
Имейте в виду, что чат-боты не идеальны. Не полагайтесь на них безоговорочно, особенно если дело касается конфиденциальной информации.