"Google" представила два значущі проекти у сфері штучного інтелекту, спрямовані на подолання мовних бар'єрів та прискорення генерації тексту. Нова аудіо-модельна система "Gemini 3.5 Live Translate" дозволяє перекладати мову майже в режимі реального часу понад "70 мовами", а "Google DeepMind" анонсувала експериментальну "DiffusionGemma" – модель, яка генерує текст до "чотирьох разів швидше" за стандартні авторегресивні моделі завдяки дифузійним технікам в архітектурі "Gemma 4".
"Gemini 3.5 Live Translate": переклад, що слідує за мовцем
На відміну від традиційних систем, які очікують, поки мовець закінчить фразу, перш ніж вивести переклад, "Gemini 3.5 Live Translate" працює як "потоковий перекладач". Модель обробляє та перекладає мову безперервно, з мінімальною затримкою у кілька секунд, прагнучи зберегти "інтонацію", "темп" та "тональність" оригінальної мови.
Система запускається одночасно на трьох основних платформах. На глобальному рівні вона доступна в додатку "Google Перекладач" для "Android" та "iOS". У режимі публічного попереднього тестування ("public preview") вона пропонується розробникам через "Gemini Live API" та "Google AI Studio". Паралельно з цим у закритому попередньому тестуванні ("private preview") вона активована для обраних корпоративних клієнтів "Google Workspace" у "Google Meet", де переклад мови розширюється з "5" підтримуваних мов до понад "70" та понад "2 000" можливих мовних комбінацій у межах однієї зустрічі.
Новий "режим прослуховування" та захист аудіоконтенту
Однією з практичних новинок є т.зв. "режим прослуховування" для "Android". Він дозволяє користувачам чути переклад безпосередньо через динамік телефону, без необхідності використовувати навушники – достатньо прикласти пристрій до вуха, як під час звичайного телефонного дзвінка. Це робить послугу зручнішою для використання в дорозі та в ситуаціях, де важливе дискретне прослуховування.
Усі згенеровані аудіовиходи "Gemini 3.5 Live Translate" маркуються водяним знаком "SynthID". Мета полягає в тому, щоб чітко відрізняти "матеріали, створені штучним інтелектом", від людської мови та надати можливість відстеження і перевірки походження. Це частина ширших зусиль "Google" із впровадження стандартів прозорості під час використання генеративних моделей в аудіо- та відеоконтенті.
"DiffusionGemma": текст, згенерований за логікою дифузії
Паралельно з аудіоперекладом "Google DeepMind" представила "DiffusionGemma" – модель, яка переносить дифузійний підхід, використаний під час генерації зображень, у сферу тексту. Замість того, щоб передбачати слова одне за одним, як це роблять класичні авторегресивні моделі, "DiffusionGemma" починає з "шуму" і поступово уточнює цілі блоки до "256 токенів" паралельно, подібно до того, як дифузійні моделі "очищують" зображення крок за кроком.
Модель базується на архітектурі "Gemma 4" і використовує "суміш експертів" із загальною кількістю "26 мільярдів параметрів", але під час інференсу активує лише близько "3,8 мільярда". Це дозволяє досягти значного прискорення: "DiffusionGemma" видає понад "1000 токенів на секунду" на одному графічному процесорі "Nvidia H100" та близько "700 токенів на секунду" на споживчій відеокарті "GeForce RTX 5090". Ваги моделі опубліковані на "Hugging Face" під ліцензією "Apache 2.0" – відкритою ліцензією, яка надає свободу для експериментів та інтеграцій.
Чотири рази швидший текст – але ціною якості
Головний виконавчий директор "Google" "Сундар Пічаї" звернув особливу увагу на "DiffusionGemma" у соціальних мережах, назвавши її "швидким конем, здатним прискорити інференс у 4 рази". За його словами, модель переносить багаторічні дослідження компанії у сфері "текстової дифузії" до сімейства "Gemma 4" і відкриває двері до нового типу швидкодіючих текстових систем.
Сама ж "Google" підкреслює, що "DiffusionGemma" є "експериментальною моделлю" і за якістю виходу "поступається" стандартній "Gemma 4". Компанія рекомендує використовувати її переважно в сценаріях, де "швидкість є критичною": вбудоване редагування тексту, швидкі ітерації під час розробки та короткі "агентні цикли". Для продукційних систем, що вимагають максимальної якості та надійності, "Google" радить покладатися на перевірені авторегресивні моделі.
Інфраструктура та екосистема: оптимізації та інтеграції
"Nvidia" оптимізувала "DiffusionGemma" для всієї своєї лінійки продуктів – від споживчих "GPU" до систем "DGX Spark". Це означає, що модель можна використовувати як у лабораторних умовах, так і у великих інфраструктурах без додаткових зусиль із інтеграції. Підтримка доступна з першого дня в межах "vLLM", "Hugging Face Transformers" та "Unsloth", що дозволяє розробникам швидко вбудовувати її в існуючі проекти.
Дивіться також схожі статті
YouTube запроваджує автоматичне маркування відео, створених за допомогою ШІ
Розробники відмовляються писати код без ШІ, попри ознаки падіння продуктивності
Meta під тиском: прихований "NameTag" і тіні над конфіденційністю в розумних окулярах
FARA 2026 у Бургасі: Майбутнє креативності в епоху штучного інтелекту
Таким чином, "Gemini 3.5 Live Translate" та "DiffusionGemma" стають двома обличчями однієї тенденції: поєднання "прагматичних продуктів", таких як перекладач у режимі реального часу, з "експериментальними моделями" для прискореної генерації тексту. Для користувачів це означає легше спілкування крізь мовні бар'єри, а для розробників – нові інструменти для створення швидших і гнучкіших систем на основі штучного інтелекту.
Коментари (10)
real_hero
11.06.2026, 14:30евала на гугъл! сериозна работа правят, не са седим да гледаме. това с превода на живо е голям кеф - представи си колко ще улесни хората, които пътуват или работят с чужденци. и четирикратно по-бърз текст? браво, значи ще можем да четем новини и статии без да чакаме вечно за зареждане.
dark_wolf794
11.06.2026, 14:32Абе, real_hero, ти верно си герой! 😂 Евалата е важна, ама да не се заблуждаваме - Google винаги правят нещо яко, за да ни изсмучат още малко пари в крайна сметка
A5384D
11.06.2026, 14:32Абе, добре де... ама нещо все още ми е малко съмнително колко "на живо" ще го превежда тоя Google-а. Сигурен ли съм аз, че няма да се забавя в най-важния момент? И че няма да изплюе някоя смешка? Видял съм си аз чудеса на технологиите, ама докато стане наистина полезно... Четири пъти по-бързо заре
dark_king802
11.06.2026, 14:53Абе, яко е това с превода на живо, наистина. Но майтап да видим дали ще работи добре с нашия славен език... Че нещо си ги пазя тези машините като 😁
Истински_Софиянец
11.06.2026, 14:56ахах, dark_king802, прав си напълно! и аз съм малко скептичен за нашия език... честно казано, знам че google имат много модели, но българският винаги е бил малко "проблемен" за тях. надявам се този път да са го доработили добре, защото наистина ще е супер удобно, ако работи гладко. представям си как ще можем да говорим с баба ми в испания без
Yordan80
11.06.2026, 14:57Уау! 🤩 Това е бомбено! Четири пъти по-бърз текст?! Сега ще можем да следим всичко на живо, без нерви! Браво на Google
Vasil29
11.06.2026, 15:02Абе, хора, да се абстрахираме от "вау" и евалата! Разбирам ентусиазма, наистина. Но да помислим малко логично, а? Четири пъти по-бързо – чудесно, но на каква цена? Да не окаже ли, че като ускоряват процеса, жертват качество
idhgq280
11.06.2026, 15:32Ей, хора! 😮 Наистина ли са го измислили това с превода на живо? Аз постоянно се боря с езикови бариери, ама наистина ли ще е толкова гладко?! И тази скорост на генериране на текст… четири пъти по-бързо, казвате? 🤯 Сега само да не стане като другите
pesho724@mail
11.06.2026, 15:40Абе хора, сериозно ли? Google отново го правят! 🚀 Това с превода на живо вече звучи наистина яко - представям си как ще е лесно да говориш с хора от други страни, без да се мъчиш с Google Translate дето понякога изплюва пълни глупости. 😂
Прав_Българин
11.06.2026, 15:47Ама сериозно ли, пак американците ни правят услуги? 🤨 И добре, ама кой плаща сметката за тоя прогрес? Да не е отново някой българин, дето работи там за жълъзи... Пак ли ще