Google переводит в реальном времени, а DiffusionGemma ускоряет генерацию текста в четыре раза

Редакция BurgasMedia Софи Терзиева
11.06.2026 • 14:26
422 прегледа
10 коментара
Google переводит в реальном времени, а DiffusionGemma ускоряет генерацию текста в четыре раза
Снимка от Jon Russell, Wikimedia Commons (CC BY 2.0)

Google представила "Gemini 3.5 Live Translate" для живого перевода на более чем 70 языков и экспериментальную модель "DiffusionGemma", которая генерирует текст до четырех раз быстрее стандартных моделей.

"Google" представила два значимых проекта в области искусственного интеллекта, направленных на преодоление языковых барьеров и ускорение генерации текста. Новая аудиосистема "Gemini 3.5 Live Translate" позволяет осуществлять перевод речи практически в реальном времени на более чем "70 языков", а "Google DeepMind" анонсировала экспериментальную "DiffusionGemma" – модель, которая генерирует текст до "четырех раз быстрее" стандартных авторегрессионных моделей благодаря диффузионным методам в архитектуре "Gemma 4".

"Gemini 3.5 Live Translate": перевод, который следует за говорящим

В отличие от традиционных систем, ожидающих завершения фразы говорящим перед выводом перевода, "Gemini 3.5 Live Translate" работает как "потоковый переводчик". Модель обрабатывает и переводит речь непрерывно, с минимальной задержкой в несколько секунд, стремясь сохранить "интонацию", "темп" и "тональность" оригинальной речи.

Система запускается одновременно на трех основных платформах. На глобальном уровне она доступна в приложении "Google Переводчик" для "Android" и "iOS". В режиме публичного предварительного тестирования ("public preview") она предлагается разработчикам через "Gemini Live API" и "Google AI Studio". Параллельно с этим в закрытом предварительном тестировании ("private preview") функция активирована для избранных корпоративных клиентов "Google Workspace" в "Google Meet", где перевод речи расширяется с "5" поддерживаемых языков до более чем "70" и свыше "2 000" возможных языковых комбинаций в рамках одной встречи.

Новый "режим прослушивания" и защита аудиоконтента

Одной из практичных новинок является т.н. "режим прослушивания" для "Android". Он позволяет пользователям слышать перевод непосредственно через динамик телефона, без необходимости использовать наушники – достаточно поднести устройство к уху, как при обычном телефонном разговоре. Это делает услугу более удобной для использования на ходу и в ситуациях, когда важно дискретное прослушивание.

Все аудиовыходы, сгенерированные "Gemini 3.5 Live Translate", маркируются водяным знаком "SynthID". Цель состоит в том, чтобы четко отличать "материалы, созданные искусственным интеллектом" от человеческой речи, а также обеспечить прослеживаемость и проверку происхождения. Это часть более широких усилий "Google" по внедрению стандартов прозрачности при использовании генеративных моделей в аудио- и видеоконтенте.

"DiffusionGemma": текст, сгенерированный по логике диффузии

Параллельно с аудиопереводом "Google DeepMind" представила "DiffusionGemma" – модель, которая переносит диффузионный подход, используемый при генерации изображений, в область текста. Вместо того чтобы предсказывать слова по одному, как это делают классические авторегрессионные модели, "DiffusionGemma" начинает с "шума" и постепенно уточняет целые блоки до "256 токенов" параллельно, подобно тому, как диффузионные модели "очищают" изображение шаг за шагом.

Модель основана на архитектуре "Gemma 4" и использует "смесь экспертов" с общим количеством "26 миллиардов параметров", но во время инференса активирует лишь около "3,8 миллиарда". Это обеспечивает значительное ускорение: "DiffusionGemma" достигает более "1000 токенов в секунду" на одном GPU "Nvidia H100" и около "700 токенов в секунду" на потребительской видеокарте "GeForce RTX 5090". Веса модели опубликованы на платформе "Hugging Face" под лицензией "Apache 2.0" – открытой лицензией, которая дает свободу для экспериментов и интеграций.

В четыре раза быстрее – но с ценой в качестве

Главный исполнительный директор "Google" "Сундар Пичай" уделил особое внимание "DiffusionGemma" в социальных сетях, назвав ее "рабочей лошадкой, способной ускорить инференс в 4 раза". По его словам, модель переносит многолетние исследования компании в области "текстовой диффузии" в семейство "Gemma 4" и открывает дверь к новому типу быстродействующих текстовых систем.

Сама "Google", однако, подчеркивает, что "DiffusionGemma" является "экспериментальной моделью" и по качеству вывода "уступает" стандартной "Gemma 4". Компания рекомендует использовать её прежде всего в сценариях, где "скорость критична": встроенное редактирование текста, быстрые итерации при разработке и короткие "агентные циклы". Для производственных систем, требующих максимального качества и надежности, в "Google" советуют полагаться на проверенные авторегрессионные модели.

Инфраструктура и экосистема: оптимизации и интеграции

"Nvidia" оптимизировала "DiffusionGemma" для всей своей продуктовой линейки – от потребительских "GPU" до систем "DGX Spark". Это означает, что модель может быть использована как в лабораторных условиях, так и в более крупных инфраструктурах без дополнительных усилий по интеграции. Поддержка доступна с первого дня в рамках "vLLM", "Hugging Face Transformers" и "Unsloth", что позволяет разработчикам быстро встраивать ее в существующие проекты.

Таким образом, "Gemini 3.5 Live Translate" и "DiffusionGemma" становятся двумя гранями одной и той же тенденции: объединение "прагматичных продуктов", таких как переводчик в реальном времени, с "экспериментальными моделями" для ускоренной генерации текста. Для пользователей это означает более легкое общение через языковые барьеры, а для разработчиков – новые инструменты для создания более быстрых и гибких систем, основанных на искусственном интеллекте.

Автор Софи Терзиева
Софи Терзиева

Автор на тази статия

Софи Терзиева е журналистка, специализирана в сферата на технологиите, иновациите и научните открития. Има публикации в престижни издания.

Обича да обяснява сложни теми на разбираем език. Следи отблизо развитието на изкуствения интелект и научните конференции.

Тагове:
искусственный интеллект Google Gemini 3.5 DiffusionGemma перевод в реальном времени Gemma 4 генеративная модель
Сподели:

Коментари (10)

Avatar
Commenter

real_hero

11.06.2026, 14:30

евала на гугъл! сериозна работа правят, не са седим да гледаме. това с превода на живо е голям кеф - представи си колко ще улесни хората, които пътуват или работят с чужденци. и четирикратно по-бърз текст? браво, значи ще можем да четем новини и статии без да чакаме вечно за зареждане.

Commenter

dark_wolf794

11.06.2026, 14:32

Абе, real_hero, ти верно си герой! 😂 Евалата е важна, ама да не се заблуждаваме - Google винаги правят нещо яко, за да ни изсмучат още малко пари в крайна сметка

Commenter

A5384D

11.06.2026, 14:32

Абе, добре де... ама нещо все още ми е малко съмнително колко "на живо" ще го превежда тоя Google-а. Сигурен ли съм аз, че няма да се забавя в най-важния момент? И че няма да изплюе някоя смешка? Видял съм си аз чудеса на технологиите, ама докато стане наистина полезно... Четири пъти по-бързо заре

Commenter

dark_king802

11.06.2026, 14:53

Абе, яко е това с превода на живо, наистина. Но майтап да видим дали ще работи добре с нашия славен език... Че нещо си ги пазя тези машините като 😁

Commenter

Истински_Софиянец

11.06.2026, 14:56

ахах, dark_king802, прав си напълно! и аз съм малко скептичен за нашия език... честно казано, знам че google имат много модели, но българският винаги е бил малко "проблемен" за тях. надявам се този път да са го доработили добре, защото наистина ще е супер удобно, ако работи гладко. представям си как ще можем да говорим с баба ми в испания без

Commenter

Yordan80

11.06.2026, 14:57

Уау! 🤩 Това е бомбено! Четири пъти по-бърз текст?! Сега ще можем да следим всичко на живо, без нерви! Браво на Google

Commenter

Vasil29

11.06.2026, 15:02

Абе, хора, да се абстрахираме от "вау" и евалата! Разбирам ентусиазма, наистина. Но да помислим малко логично, а? Четири пъти по-бързо – чудесно, но на каква цена? Да не окаже ли, че като ускоряват процеса, жертват качество

Commenter

idhgq280

11.06.2026, 15:32

Ей, хора! 😮 Наистина ли са го измислили това с превода на живо? Аз постоянно се боря с езикови бариери, ама наистина ли ще е толкова гладко?! И тази скорост на генериране на текст… четири пъти по-бързо, казвате? 🤯 Сега само да не стане като другите

Commenter

pesho724@mail

11.06.2026, 15:40

Абе хора, сериозно ли? Google отново го правят! 🚀 Това с превода на живо вече звучи наистина яко - представям си как ще е лесно да говориш с хора от други страни, без да се мъчиш с Google Translate дето понякога изплюва пълни глупости. 😂

Commenter

Прав_Българин

11.06.2026, 15:47

Ама сериозно ли, пак американците ни правят услуги? 🤨 И добре, ама кой плаща сметката за тоя прогрес? Да не е отново някой българин, дето работи там за жълъзи... Пак ли ще