Google перекладає в режимі реального часу, а DiffusionGemma прискорює текст у чотири рази

Редакция BurgasMedia Софи Терзиева
11.06.2026 • 14:26
409 прегледа
10 коментара
Google перекладає в режимі реального часу, а DiffusionGemma прискорює текст у чотири рази
Снимка от Jon Russell, Wikimedia Commons (CC BY 2.0)

Google представила «Gemini 3.5 Live Translate» для живого перекладу понад 70 мовами та експериментальну «DiffusionGemma», яка генерує текст до чотирьох разів швидше за стандартні моделі.

"Google" представила два значущі проекти у сфері штучного інтелекту, спрямовані на подолання мовних бар'єрів та прискорення генерації тексту. Нова аудіо-модельна система "Gemini 3.5 Live Translate" дозволяє перекладати мову майже в режимі реального часу понад "70 мовами", а "Google DeepMind" анонсувала експериментальну "DiffusionGemma" – модель, яка генерує текст до "чотирьох разів швидше" за стандартні авторегресивні моделі завдяки дифузійним технікам в архітектурі "Gemma 4".

"Gemini 3.5 Live Translate": переклад, що слідує за мовцем

На відміну від традиційних систем, які очікують, поки мовець закінчить фразу, перш ніж вивести переклад, "Gemini 3.5 Live Translate" працює як "потоковий перекладач". Модель обробляє та перекладає мову безперервно, з мінімальною затримкою у кілька секунд, прагнучи зберегти "інтонацію", "темп" та "тональність" оригінальної мови.

Система запускається одночасно на трьох основних платформах. На глобальному рівні вона доступна в додатку "Google Перекладач" для "Android" та "iOS". У режимі публічного попереднього тестування ("public preview") вона пропонується розробникам через "Gemini Live API" та "Google AI Studio". Паралельно з цим у закритому попередньому тестуванні ("private preview") вона активована для обраних корпоративних клієнтів "Google Workspace" у "Google Meet", де переклад мови розширюється з "5" підтримуваних мов до понад "70" та понад "2 000" можливих мовних комбінацій у межах однієї зустрічі.

Новий "режим прослуховування" та захист аудіоконтенту

Однією з практичних новинок є т.зв. "режим прослуховування" для "Android". Він дозволяє користувачам чути переклад безпосередньо через динамік телефону, без необхідності використовувати навушники – достатньо прикласти пристрій до вуха, як під час звичайного телефонного дзвінка. Це робить послугу зручнішою для використання в дорозі та в ситуаціях, де важливе дискретне прослуховування.

Усі згенеровані аудіовиходи "Gemini 3.5 Live Translate" маркуються водяним знаком "SynthID". Мета полягає в тому, щоб чітко відрізняти "матеріали, створені штучним інтелектом", від людської мови та надати можливість відстеження і перевірки походження. Це частина ширших зусиль "Google" із впровадження стандартів прозорості під час використання генеративних моделей в аудіо- та відеоконтенті.

"DiffusionGemma": текст, згенерований за логікою дифузії

Паралельно з аудіоперекладом "Google DeepMind" представила "DiffusionGemma" – модель, яка переносить дифузійний підхід, використаний під час генерації зображень, у сферу тексту. Замість того, щоб передбачати слова одне за одним, як це роблять класичні авторегресивні моделі, "DiffusionGemma" починає з "шуму" і поступово уточнює цілі блоки до "256 токенів" паралельно, подібно до того, як дифузійні моделі "очищують" зображення крок за кроком.

Модель базується на архітектурі "Gemma 4" і використовує "суміш експертів" із загальною кількістю "26 мільярдів параметрів", але під час інференсу активує лише близько "3,8 мільярда". Це дозволяє досягти значного прискорення: "DiffusionGemma" видає понад "1000 токенів на секунду" на одному графічному процесорі "Nvidia H100" та близько "700 токенів на секунду" на споживчій відеокарті "GeForce RTX 5090". Ваги моделі опубліковані на "Hugging Face" під ліцензією "Apache 2.0" – відкритою ліцензією, яка надає свободу для експериментів та інтеграцій.

Чотири рази швидший текст – але ціною якості

Головний виконавчий директор "Google" "Сундар Пічаї" звернув особливу увагу на "DiffusionGemma" у соціальних мережах, назвавши її "швидким конем, здатним прискорити інференс у 4 рази". За його словами, модель переносить багаторічні дослідження компанії у сфері "текстової дифузії" до сімейства "Gemma 4" і відкриває двері до нового типу швидкодіючих текстових систем.

Сама ж "Google" підкреслює, що "DiffusionGemma" є "експериментальною моделлю" і за якістю виходу "поступається" стандартній "Gemma 4". Компанія рекомендує використовувати її переважно в сценаріях, де "швидкість є критичною": вбудоване редагування тексту, швидкі ітерації під час розробки та короткі "агентні цикли". Для продукційних систем, що вимагають максимальної якості та надійності, "Google" радить покладатися на перевірені авторегресивні моделі.

Інфраструктура та екосистема: оптимізації та інтеграції

"Nvidia" оптимізувала "DiffusionGemma" для всієї своєї лінійки продуктів – від споживчих "GPU" до систем "DGX Spark". Це означає, що модель можна використовувати як у лабораторних умовах, так і у великих інфраструктурах без додаткових зусиль із інтеграції. Підтримка доступна з першого дня в межах "vLLM", "Hugging Face Transformers" та "Unsloth", що дозволяє розробникам швидко вбудовувати її в існуючі проекти.

Таким чином, "Gemini 3.5 Live Translate" та "DiffusionGemma" стають двома обличчями однієї тенденції: поєднання "прагматичних продуктів", таких як перекладач у режимі реального часу, з "експериментальними моделями" для прискореної генерації тексту. Для користувачів це означає легше спілкування крізь мовні бар'єри, а для розробників – нові інструменти для створення швидших і гнучкіших систем на основі штучного інтелекту.

Автор Софи Терзиева
Софи Терзиева

Автор на тази статия

Софи Терзиева е журналистка, специализирана в сферата на технологиите, иновациите и научните открития. Има публикации в престижни издания.

Обича да обяснява сложни теми на разбираем език. Следи отблизо развитието на изкуствения интелект и научните конференции.

Тагове:
штучний інтелект Google Gemini 3.5 DiffusionGemma переклад у реальному часі Gemma 4 генеративна модель
Сподели:

Коментари (10)

Avatar
Commenter

real_hero

11.06.2026, 14:30

евала на гугъл! сериозна работа правят, не са седим да гледаме. това с превода на живо е голям кеф - представи си колко ще улесни хората, които пътуват или работят с чужденци. и четирикратно по-бърз текст? браво, значи ще можем да четем новини и статии без да чакаме вечно за зареждане.

Commenter

dark_wolf794

11.06.2026, 14:32

Абе, real_hero, ти верно си герой! 😂 Евалата е важна, ама да не се заблуждаваме - Google винаги правят нещо яко, за да ни изсмучат още малко пари в крайна сметка

Commenter

A5384D

11.06.2026, 14:32

Абе, добре де... ама нещо все още ми е малко съмнително колко "на живо" ще го превежда тоя Google-а. Сигурен ли съм аз, че няма да се забавя в най-важния момент? И че няма да изплюе някоя смешка? Видял съм си аз чудеса на технологиите, ама докато стане наистина полезно... Четири пъти по-бързо заре

Commenter

dark_king802

11.06.2026, 14:53

Абе, яко е това с превода на живо, наистина. Но майтап да видим дали ще работи добре с нашия славен език... Че нещо си ги пазя тези машините като 😁

Commenter

Истински_Софиянец

11.06.2026, 14:56

ахах, dark_king802, прав си напълно! и аз съм малко скептичен за нашия език... честно казано, знам че google имат много модели, но българският винаги е бил малко "проблемен" за тях. надявам се този път да са го доработили добре, защото наистина ще е супер удобно, ако работи гладко. представям си как ще можем да говорим с баба ми в испания без

Commenter

Yordan80

11.06.2026, 14:57

Уау! 🤩 Това е бомбено! Четири пъти по-бърз текст?! Сега ще можем да следим всичко на живо, без нерви! Браво на Google

Commenter

Vasil29

11.06.2026, 15:02

Абе, хора, да се абстрахираме от "вау" и евалата! Разбирам ентусиазма, наистина. Но да помислим малко логично, а? Четири пъти по-бързо – чудесно, но на каква цена? Да не окаже ли, че като ускоряват процеса, жертват качество

Commenter

idhgq280

11.06.2026, 15:32

Ей, хора! 😮 Наистина ли са го измислили това с превода на живо? Аз постоянно се боря с езикови бариери, ама наистина ли ще е толкова гладко?! И тази скорост на генериране на текст… четири пъти по-бързо, казвате? 🤯 Сега само да не стане като другите

Commenter

pesho724@mail

11.06.2026, 15:40

Абе хора, сериозно ли? Google отново го правят! 🚀 Това с превода на живо вече звучи наистина яко - представям си как ще е лесно да говориш с хора от други страни, без да се мъчиш с Google Translate дето понякога изплюва пълни глупости. 😂

Commenter

Прав_Българин

11.06.2026, 15:47

Ама сериозно ли, пак американците ни правят услуги? 🤨 И добре, ама кой плаща сметката за тоя прогрес? Да не е отново някой българин, дето работи там за жълъзи... Пак ли ще