"Google" представила два значимых проекта в области искусственного интеллекта, направленных на преодоление языковых барьеров и ускорение генерации текста. Новая аудиосистема "Gemini 3.5 Live Translate" позволяет осуществлять перевод речи практически в реальном времени на более чем "70 языков", а "Google DeepMind" анонсировала экспериментальную "DiffusionGemma" – модель, которая генерирует текст до "четырех раз быстрее" стандартных авторегрессионных моделей благодаря диффузионным методам в архитектуре "Gemma 4".
"Gemini 3.5 Live Translate": перевод, который следует за говорящим
В отличие от традиционных систем, ожидающих завершения фразы говорящим перед выводом перевода, "Gemini 3.5 Live Translate" работает как "потоковый переводчик". Модель обрабатывает и переводит речь непрерывно, с минимальной задержкой в несколько секунд, стремясь сохранить "интонацию", "темп" и "тональность" оригинальной речи.
Система запускается одновременно на трех основных платформах. На глобальном уровне она доступна в приложении "Google Переводчик" для "Android" и "iOS". В режиме публичного предварительного тестирования ("public preview") она предлагается разработчикам через "Gemini Live API" и "Google AI Studio". Параллельно с этим в закрытом предварительном тестировании ("private preview") функция активирована для избранных корпоративных клиентов "Google Workspace" в "Google Meet", где перевод речи расширяется с "5" поддерживаемых языков до более чем "70" и свыше "2 000" возможных языковых комбинаций в рамках одной встречи.
Новый "режим прослушивания" и защита аудиоконтента
Одной из практичных новинок является т.н. "режим прослушивания" для "Android". Он позволяет пользователям слышать перевод непосредственно через динамик телефона, без необходимости использовать наушники – достаточно поднести устройство к уху, как при обычном телефонном разговоре. Это делает услугу более удобной для использования на ходу и в ситуациях, когда важно дискретное прослушивание.
Все аудиовыходы, сгенерированные "Gemini 3.5 Live Translate", маркируются водяным знаком "SynthID". Цель состоит в том, чтобы четко отличать "материалы, созданные искусственным интеллектом" от человеческой речи, а также обеспечить прослеживаемость и проверку происхождения. Это часть более широких усилий "Google" по внедрению стандартов прозрачности при использовании генеративных моделей в аудио- и видеоконтенте.
"DiffusionGemma": текст, сгенерированный по логике диффузии
Параллельно с аудиопереводом "Google DeepMind" представила "DiffusionGemma" – модель, которая переносит диффузионный подход, используемый при генерации изображений, в область текста. Вместо того чтобы предсказывать слова по одному, как это делают классические авторегрессионные модели, "DiffusionGemma" начинает с "шума" и постепенно уточняет целые блоки до "256 токенов" параллельно, подобно тому, как диффузионные модели "очищают" изображение шаг за шагом.
Модель основана на архитектуре "Gemma 4" и использует "смесь экспертов" с общим количеством "26 миллиардов параметров", но во время инференса активирует лишь около "3,8 миллиарда". Это обеспечивает значительное ускорение: "DiffusionGemma" достигает более "1000 токенов в секунду" на одном GPU "Nvidia H100" и около "700 токенов в секунду" на потребительской видеокарте "GeForce RTX 5090". Веса модели опубликованы на платформе "Hugging Face" под лицензией "Apache 2.0" – открытой лицензией, которая дает свободу для экспериментов и интеграций.
В четыре раза быстрее – но с ценой в качестве
Главный исполнительный директор "Google" "Сундар Пичай" уделил особое внимание "DiffusionGemma" в социальных сетях, назвав ее "рабочей лошадкой, способной ускорить инференс в 4 раза". По его словам, модель переносит многолетние исследования компании в области "текстовой диффузии" в семейство "Gemma 4" и открывает дверь к новому типу быстродействующих текстовых систем.
Сама "Google", однако, подчеркивает, что "DiffusionGemma" является "экспериментальной моделью" и по качеству вывода "уступает" стандартной "Gemma 4". Компания рекомендует использовать её прежде всего в сценариях, где "скорость критична": встроенное редактирование текста, быстрые итерации при разработке и короткие "агентные циклы". Для производственных систем, требующих максимального качества и надежности, в "Google" советуют полагаться на проверенные авторегрессионные модели.
Инфраструктура и экосистема: оптимизации и интеграции
"Nvidia" оптимизировала "DiffusionGemma" для всей своей продуктовой линейки – от потребительских "GPU" до систем "DGX Spark". Это означает, что модель может быть использована как в лабораторных условиях, так и в более крупных инфраструктурах без дополнительных усилий по интеграции. Поддержка доступна с первого дня в рамках "vLLM", "Hugging Face Transformers" и "Unsloth", что позволяет разработчикам быстро встраивать ее в существующие проекты.
Похожие публикации
YouTube вводит автоматическую маркировку видео, созданных с помощью ИИ
Разработчики отказываются писать код без ИИ, несмотря на признаки снижения продуктивности
Meta под давлением: скрытый "NameTag" и тени над конфиденциальностью умных очков
FARA 2026 в Бургасе: Будущее креативности в эпоху искусственного интеллекта
Таким образом, "Gemini 3.5 Live Translate" и "DiffusionGemma" становятся двумя гранями одной и той же тенденции: объединение "прагматичных продуктов", таких как переводчик в реальном времени, с "экспериментальными моделями" для ускоренной генерации текста. Для пользователей это означает более легкое общение через языковые барьеры, а для разработчиков – новые инструменты для создания более быстрых и гибких систем, основанных на искусственном интеллекте.
Коментари (10)
real_hero
11.06.2026, 14:30евала на гугъл! сериозна работа правят, не са седим да гледаме. това с превода на живо е голям кеф - представи си колко ще улесни хората, които пътуват или работят с чужденци. и четирикратно по-бърз текст? браво, значи ще можем да четем новини и статии без да чакаме вечно за зареждане.
dark_wolf794
11.06.2026, 14:32Абе, real_hero, ти верно си герой! 😂 Евалата е важна, ама да не се заблуждаваме - Google винаги правят нещо яко, за да ни изсмучат още малко пари в крайна сметка
A5384D
11.06.2026, 14:32Абе, добре де... ама нещо все още ми е малко съмнително колко "на живо" ще го превежда тоя Google-а. Сигурен ли съм аз, че няма да се забавя в най-важния момент? И че няма да изплюе някоя смешка? Видял съм си аз чудеса на технологиите, ама докато стане наистина полезно... Четири пъти по-бързо заре
dark_king802
11.06.2026, 14:53Абе, яко е това с превода на живо, наистина. Но майтап да видим дали ще работи добре с нашия славен език... Че нещо си ги пазя тези машините като 😁
Истински_Софиянец
11.06.2026, 14:56ахах, dark_king802, прав си напълно! и аз съм малко скептичен за нашия език... честно казано, знам че google имат много модели, но българският винаги е бил малко "проблемен" за тях. надявам се този път да са го доработили добре, защото наистина ще е супер удобно, ако работи гладко. представям си как ще можем да говорим с баба ми в испания без
Yordan80
11.06.2026, 14:57Уау! 🤩 Това е бомбено! Четири пъти по-бърз текст?! Сега ще можем да следим всичко на живо, без нерви! Браво на Google
Vasil29
11.06.2026, 15:02Абе, хора, да се абстрахираме от "вау" и евалата! Разбирам ентусиазма, наистина. Но да помислим малко логично, а? Четири пъти по-бързо – чудесно, но на каква цена? Да не окаже ли, че като ускоряват процеса, жертват качество
idhgq280
11.06.2026, 15:32Ей, хора! 😮 Наистина ли са го измислили това с превода на живо? Аз постоянно се боря с езикови бариери, ама наистина ли ще е толкова гладко?! И тази скорост на генериране на текст… четири пъти по-бързо, казвате? 🤯 Сега само да не стане като другите
pesho724@mail
11.06.2026, 15:40Абе хора, сериозно ли? Google отново го правят! 🚀 Това с превода на живо вече звучи наистина яко - представям си как ще е лесно да говориш с хора от други страни, без да се мъчиш с Google Translate дето понякога изплюва пълни глупости. 😂
Прав_Българин
11.06.2026, 15:47Ама сериозно ли, пак американците ни правят услуги? 🤨 И добре, ама кой плаща сметката за тоя прогрес? Да не е отново някой българин, дето работи там за жълъзи... Пак ли ще