Google переводит в реальном времени, а DiffusionGemma ускоряет генерацию текста в четыре раза

Google представила "Gemini 3.5 Live Translate" для живого перевода на более чем 70 языков и экспериментальную модель "DiffusionGemma", которая генерирует текст до четырех раз быстрее стандартных моделей.

"Google" представила два значимых проекта в области искусственного интеллекта, направленных на преодоление языковых барьеров и ускорение генерации текста. Новая аудиосистема "Gemini 3.5 Live Translate" позволяет осуществлять перевод речи практически в реальном времени на более чем "70 языков", а "Google DeepMind" анонсировала экспериментальную "DiffusionGemma" – модель, которая генерирует текст до "четырех раз быстрее" стандартных авторегрессионных моделей благодаря диффузионным методам в архитектуре "Gemma 4".

"Gemini 3.5 Live Translate": перевод, который следует за говорящим

В отличие от традиционных систем, ожидающих завершения фразы говорящим перед выводом перевода, "Gemini 3.5 Live Translate" работает как "потоковый переводчик". Модель обрабатывает и переводит речь непрерывно, с минимальной задержкой в несколько секунд, стремясь сохранить "интонацию", "темп" и "тональность" оригинальной речи.

Система запускается одновременно на трех основных платформах. На глобальном уровне она доступна в приложении "Google Переводчик" для "Android" и "iOS". В режиме публичного предварительного тестирования ("public preview") она предлагается разработчикам через "Gemini Live API" и "Google AI Studio". Параллельно с этим в закрытом предварительном тестировании ("private preview") функция активирована для избранных корпоративных клиентов "Google Workspace" в "Google Meet", где перевод речи расширяется с "5" поддерживаемых языков до более чем "70" и свыше "2 000" возможных языковых комбинаций в рамках одной встречи.

Новый "режим прослушивания" и защита аудиоконтента

Одной из практичных новинок является т.н. "режим прослушивания" для "Android". Он позволяет пользователям слышать перевод непосредственно через динамик телефона, без необходимости использовать наушники – достаточно поднести устройство к уху, как при обычном телефонном разговоре. Это делает услугу более удобной для использования на ходу и в ситуациях, когда важно дискретное прослушивание.

Все аудиовыходы, сгенерированные "Gemini 3.5 Live Translate", маркируются водяным знаком "SynthID". Цель состоит в том, чтобы четко отличать "материалы, созданные искусственным интеллектом" от человеческой речи, а также обеспечить прослеживаемость и проверку происхождения. Это часть более широких усилий "Google" по внедрению стандартов прозрачности при использовании генеративных моделей в аудио- и видеоконтенте.

"DiffusionGemma": текст, сгенерированный по логике диффузии

Параллельно с аудиопереводом "Google DeepMind" представила "DiffusionGemma" – модель, которая переносит диффузионный подход, используемый при генерации изображений, в область текста. Вместо того чтобы предсказывать слова по одному, как это делают классические авторегрессионные модели, "DiffusionGemma" начинает с "шума" и постепенно уточняет целые блоки до "256 токенов" параллельно, подобно тому, как диффузионные модели "очищают" изображение шаг за шагом.

Модель основана на архитектуре "Gemma 4" и использует "смесь экспертов" с общим количеством "26 миллиардов параметров", но во время инференса активирует лишь около "3,8 миллиарда". Это обеспечивает значительное ускорение: "DiffusionGemma" достигает более "1000 токенов в секунду" на одном GPU "Nvidia H100" и около "700 токенов в секунду" на потребительской видеокарте "GeForce RTX 5090". Веса модели опубликованы на платформе "Hugging Face" под лицензией "Apache 2.0" – открытой лицензией, которая дает свободу для экспериментов и интеграций.

В четыре раза быстрее – но с ценой в качестве

Главный исполнительный директор "Google" "Сундар Пичай" уделил особое внимание "DiffusionGemma" в социальных сетях, назвав ее "рабочей лошадкой, способной ускорить инференс в 4 раза". По его словам, модель переносит многолетние исследования компании в области "текстовой диффузии" в семейство "Gemma 4" и открывает дверь к новому типу быстродействующих текстовых систем.

Сама "Google", однако, подчеркивает, что "DiffusionGemma" является "экспериментальной моделью" и по качеству вывода "уступает" стандартной "Gemma 4". Компания рекомендует использовать её прежде всего в сценариях, где "скорость критична": встроенное редактирование текста, быстрые итерации при разработке и короткие "агентные циклы". Для производственных систем, требующих максимального качества и надежности, в "Google" советуют полагаться на проверенные авторегрессионные модели.

Инфраструктура и экосистема: оптимизации и интеграции

"Nvidia" оптимизировала "DiffusionGemma" для всей своей продуктовой линейки – от потребительских "GPU" до систем "DGX Spark". Это означает, что модель может быть использована как в лабораторных условиях, так и в более крупных инфраструктурах без дополнительных усилий по интеграции. Поддержка доступна с первого дня в рамках "vLLM", "Hugging Face Transformers" и "Unsloth", что позволяет разработчикам быстро встраивать ее в существующие проекты.

Таким образом, "Gemini 3.5 Live Translate" и "DiffusionGemma" становятся двумя гранями одной и той же тенденции: объединение "прагматичных продуктов", таких как переводчик в реальном времени, с "экспериментальными моделями" для ускоренной генерации текста. Для пользователей это означает более легкое общение через языковые барьеры, а для разработчиков – новые инструменты для создания более быстрых и гибких систем, основанных на искусственном интеллекте.