Google перекладає в режимі реального часу, а DiffusionGemma прискорює текст у чотири рази

Google представила «Gemini 3.5 Live Translate» для живого перекладу понад 70 мовами та експериментальну «DiffusionGemma», яка генерує текст до чотирьох разів швидше за стандартні моделі.

"Google" представила два значущі проекти у сфері штучного інтелекту, спрямовані на подолання мовних бар'єрів та прискорення генерації тексту. Нова аудіо-модельна система "Gemini 3.5 Live Translate" дозволяє перекладати мову майже в режимі реального часу понад "70 мовами", а "Google DeepMind" анонсувала експериментальну "DiffusionGemma" – модель, яка генерує текст до "чотирьох разів швидше" за стандартні авторегресивні моделі завдяки дифузійним технікам в архітектурі "Gemma 4".

"Gemini 3.5 Live Translate": переклад, що слідує за мовцем

На відміну від традиційних систем, які очікують, поки мовець закінчить фразу, перш ніж вивести переклад, "Gemini 3.5 Live Translate" працює як "потоковий перекладач". Модель обробляє та перекладає мову безперервно, з мінімальною затримкою у кілька секунд, прагнучи зберегти "інтонацію", "темп" та "тональність" оригінальної мови.

Система запускається одночасно на трьох основних платформах. На глобальному рівні вона доступна в додатку "Google Перекладач" для "Android" та "iOS". У режимі публічного попереднього тестування ("public preview") вона пропонується розробникам через "Gemini Live API" та "Google AI Studio". Паралельно з цим у закритому попередньому тестуванні ("private preview") вона активована для обраних корпоративних клієнтів "Google Workspace" у "Google Meet", де переклад мови розширюється з "5" підтримуваних мов до понад "70" та понад "2 000" можливих мовних комбінацій у межах однієї зустрічі.

Новий "режим прослуховування" та захист аудіоконтенту

Однією з практичних новинок є т.зв. "режим прослуховування" для "Android". Він дозволяє користувачам чути переклад безпосередньо через динамік телефону, без необхідності використовувати навушники – достатньо прикласти пристрій до вуха, як під час звичайного телефонного дзвінка. Це робить послугу зручнішою для використання в дорозі та в ситуаціях, де важливе дискретне прослуховування.

Усі згенеровані аудіовиходи "Gemini 3.5 Live Translate" маркуються водяним знаком "SynthID". Мета полягає в тому, щоб чітко відрізняти "матеріали, створені штучним інтелектом", від людської мови та надати можливість відстеження і перевірки походження. Це частина ширших зусиль "Google" із впровадження стандартів прозорості під час використання генеративних моделей в аудіо- та відеоконтенті.

"DiffusionGemma": текст, згенерований за логікою дифузії

Паралельно з аудіоперекладом "Google DeepMind" представила "DiffusionGemma" – модель, яка переносить дифузійний підхід, використаний під час генерації зображень, у сферу тексту. Замість того, щоб передбачати слова одне за одним, як це роблять класичні авторегресивні моделі, "DiffusionGemma" починає з "шуму" і поступово уточнює цілі блоки до "256 токенів" паралельно, подібно до того, як дифузійні моделі "очищують" зображення крок за кроком.

Модель базується на архітектурі "Gemma 4" і використовує "суміш експертів" із загальною кількістю "26 мільярдів параметрів", але під час інференсу активує лише близько "3,8 мільярда". Це дозволяє досягти значного прискорення: "DiffusionGemma" видає понад "1000 токенів на секунду" на одному графічному процесорі "Nvidia H100" та близько "700 токенів на секунду" на споживчій відеокарті "GeForce RTX 5090". Ваги моделі опубліковані на "Hugging Face" під ліцензією "Apache 2.0" – відкритою ліцензією, яка надає свободу для експериментів та інтеграцій.

Чотири рази швидший текст – але ціною якості

Головний виконавчий директор "Google" "Сундар Пічаї" звернув особливу увагу на "DiffusionGemma" у соціальних мережах, назвавши її "швидким конем, здатним прискорити інференс у 4 рази". За його словами, модель переносить багаторічні дослідження компанії у сфері "текстової дифузії" до сімейства "Gemma 4" і відкриває двері до нового типу швидкодіючих текстових систем.

Сама ж "Google" підкреслює, що "DiffusionGemma" є "експериментальною моделлю" і за якістю виходу "поступається" стандартній "Gemma 4". Компанія рекомендує використовувати її переважно в сценаріях, де "швидкість є критичною": вбудоване редагування тексту, швидкі ітерації під час розробки та короткі "агентні цикли". Для продукційних систем, що вимагають максимальної якості та надійності, "Google" радить покладатися на перевірені авторегресивні моделі.

Інфраструктура та екосистема: оптимізації та інтеграції

"Nvidia" оптимізувала "DiffusionGemma" для всієї своєї лінійки продуктів – від споживчих "GPU" до систем "DGX Spark". Це означає, що модель можна використовувати як у лабораторних умовах, так і у великих інфраструктурах без додаткових зусиль із інтеграції. Підтримка доступна з першого дня в межах "vLLM", "Hugging Face Transformers" та "Unsloth", що дозволяє розробникам швидко вбудовувати її в існуючі проекти.

Таким чином, "Gemini 3.5 Live Translate" та "DiffusionGemma" стають двома обличчями однієї тенденції: поєднання "прагматичних продуктів", таких як перекладач у режимі реального часу, з "експериментальними моделями" для прискореної генерації тексту. Для користувачів це означає легше спілкування крізь мовні бар'єри, а для розробників – нові інструменти для створення швидших і гнучкіших систем на основі штучного інтелекту.