Google превежда в реално време, а DiffusionGemma ускорява текста четирикратно

Редакция BurgasMedia Софи Терзиева
11.06.2026 • 14:26
358 прегледа
10 коментара
Google превежда в реално време, а DiffusionGemma ускорява текста четирикратно
Снимка от Jon Russell, Wikimedia Commons (CC BY 2.0)

Google представи "Gemini 3.5 Live Translate" за превод на живо на над 70 езика и експерименталната "DiffusionGemma", която генерира текст до четири пъти по-бързо от стандартните модели.

"Google" представи два значими проекта в областта на изкуствения интелект, насочени към разбиване на езиковите бариери и ускоряване на текстовото генериране. Новата аудио-моделна система "Gemini 3.5 Live Translate" позволява превод на реч почти в реално време на повече от "70 езика", а "Google DeepMind" обяви експерименталната "DiffusionGemma" – модел, който генерира текст до "четири пъти по-бързо" от стандартните авторегресивни модели благодарение на дифузионни техники в архитектурата "Gemma 4".

"Gemini 3.5 Live Translate": превод, който следва говорещия

За разлика от традиционните системи, които чакат говорещият да завърши фразата, преди да изведат превод, "Gemini 3.5 Live Translate" работи като "поточен преводач". Моделът обработва и превежда речта непрекъснато, с минимално закъснение от няколко секунди, като се стреми да запази "интонацията", "темпото" и "тоналността" на оригиналния говор.

Системата стартира едновременно на три основни платформи. На глобално ниво тя е достъпна в приложението "Google Переводчик" за "Android" и "iOS". В режим на публично предварително тестване ("public preview") се предлага за разработчици чрез "Gemini Live API" и "Google AI Studio". Паралелно с това в затворено предварително тестване ("private preview") е активирана за избрани корпоративни клиенти на "Google Workspace" в "Google Meet", като именно там преводът на реч се разширява от "5" поддържани езика до над "70" и над "2 000" възможни езикови комбинации в рамките на една среща.

Нов "режим прослушване" и защита на аудио съдържанието

Една от практичните новости е т.нар. "режим прослушване" за "Android". Той позволява на потребителите да чуват превода директно през говорителя на телефона, без да е необходимо да използват слушалки – достатъчно е да поставят устройството до ухото, подобно на стандартно телефонно обаждане. Това прави услугата по-удобна за използване в движение и в ситуации, в които е важно дискретно слушане.

Всички генерирани аудио-изходи от "Gemini 3.5 Live Translate" се маркират с воден знак "SynthID". Целта е ясно да се отличават "материали, създадени от изкуствен интелект", от човешка реч и да се даде възможност за проследимост и проверка на произхода. Това е част от по-широките усилия на "Google" да въведе стандарти за прозрачност при използването на генеративни модели в аудио и видео съдържание.

"DiffusionGemma": текст, генериран по логиката на дифузията

Паралелно с аудио-превода "Google DeepMind" представи "DiffusionGemma" – модел, който пренася дифузионния подход, използван при генерацията на изображения, в полето на текста. Вместо да предсказва думите една по една, както правят класическите авторегресивни модели, "DiffusionGemma" започва от "шум" и постепенно уточнява цели блокове до "256 токена" паралелно, подобно на това как дифузионните модели "изчиства" изображение стъпка по стъпка.

Моделът е базиран на архитектурата "Gemma 4" и използва "смес от експерти" с общо "26 милиарда параметъра", но по време на инференс активира само около "3,8 милиарда". Това позволява значително ускорение: "DiffusionGemma" достига над "1000 токена в секунда" на един "Nvidia H100" GPU и около "700 токена в секунда" на потребителска видеокарта "GeForce RTX 5090". Висовете на модела са публикувани в "Hugging Face" под "Apache 2.0" – отворен лиценз, който дава свобода за експерименти и интеграции.

Четири пъти по-бърз текст – но с цена в качеството

Главният изпълнителен директор на "Google" "Сундар Пичай" обърна специално внимание на "DiffusionGemma" в социалните мрежи, наричайки я "скакова лошадь, способна ускорить инференс в 4 раза". По думите му моделът пренася дългогодишните изследвания на компанията в областта на "текстовата дифузия" в семейството "Gemma 4" и отваря врата към нов тип бързодействащи текстови системи.

Самата "Google" обаче подчертава, че "DiffusionGemma" е "експериментален модел" и по отношение на качество на изхода "устъпва" на стандартната "Gemma 4". Компанията препоръчва да се използва най-вече в сценарии, където "скоростта е критична": вградени редакции на текст, бързи итерации при разработка и кратки "агентни цикли". За продукционни системи, изискващи максимално качество и надеждност, от "Google" съветват да се разчита на утвърдените авторегресивни модели.

Инфраструктура и екосистема: оптимизации и интеграции

"Nvidia" е оптимизирала "DiffusionGemma" за цялата си продуктова линия – от потребителските "GPU" до системите "DGX Spark". Това означава, че моделът може да бъде използван както в лабораторни условия, така и в по-големи инфраструктури, без допълнителни усилия по интеграция. Поддръжката е налична от първия ден в рамките на "vLLM", "Hugging Face Transformers" и "Unsloth", което позволява на разработчиците да го вграждат бързо в съществуващи проекти.

Така "Gemini 3.5 Live Translate" и "DiffusionGemma" се превръщат в две лица на една и съща тенденция: комбиниране на "прагматични продукти" като преводач в реално време с "експериментални модели" за ускорено генериране на текст. За потребителите това означава по-лесно общуване през езикови граници, а за разработчиците – нови инструменти за изграждане на по-бързи и по-гъвкави системи, базирани на изкуствен интелект.

Автор Софи Терзиева
Софи Терзиева

Автор на тази статия

Софи Терзиева е журналистка, специализирана в сферата на технологиите, иновациите и научните открития. Има публикации в престижни издания.

Обича да обяснява сложни теми на разбираем език. Следи отблизо развитието на изкуствения интелект и научните конференции.

Тагове:
изкуствен интелект Google Gemini 3.5 DiffusionGemma превод в реално време Gemma 4 генеративен модел
Сподели:

Коментари (10)

Avatar
Commenter

real_hero

11.06.2026, 14:30

евала на гугъл! сериозна работа правят, не са седим да гледаме. това с превода на живо е голям кеф - представи си колко ще улесни хората, които пътуват или работят с чужденци. и четирикратно по-бърз текст? браво, значи ще можем да четем новини и статии без да чакаме вечно за зареждане.

Commenter

dark_wolf794

11.06.2026, 14:32

Абе, real_hero, ти верно си герой! 😂 Евалата е важна, ама да не се заблуждаваме - Google винаги правят нещо яко, за да ни изсмучат още малко пари в крайна сметка

Commenter

A5384D

11.06.2026, 14:32

Абе, добре де... ама нещо все още ми е малко съмнително колко "на живо" ще го превежда тоя Google-а. Сигурен ли съм аз, че няма да се забавя в най-важния момент? И че няма да изплюе някоя смешка? Видял съм си аз чудеса на технологиите, ама докато стане наистина полезно... Четири пъти по-бързо заре

Commenter

dark_king802

11.06.2026, 14:53

Абе, яко е това с превода на живо, наистина. Но майтап да видим дали ще работи добре с нашия славен език... Че нещо си ги пазя тези машините като 😁

Commenter

Истински_Софиянец

11.06.2026, 14:56

ахах, dark_king802, прав си напълно! и аз съм малко скептичен за нашия език... честно казано, знам че google имат много модели, но българският винаги е бил малко "проблемен" за тях. надявам се този път да са го доработили добре, защото наистина ще е супер удобно, ако работи гладко. представям си как ще можем да говорим с баба ми в испания без

Commenter

Yordan80

11.06.2026, 14:57

Уау! 🤩 Това е бомбено! Четири пъти по-бърз текст?! Сега ще можем да следим всичко на живо, без нерви! Браво на Google

Commenter

Vasil29

11.06.2026, 15:02

Абе, хора, да се абстрахираме от "вау" и евалата! Разбирам ентусиазма, наистина. Но да помислим малко логично, а? Четири пъти по-бързо – чудесно, но на каква цена? Да не окаже ли, че като ускоряват процеса, жертват качество

Commenter

idhgq280

11.06.2026, 15:32

Ей, хора! 😮 Наистина ли са го измислили това с превода на живо? Аз постоянно се боря с езикови бариери, ама наистина ли ще е толкова гладко?! И тази скорост на генериране на текст… четири пъти по-бързо, казвате? 🤯 Сега само да не стане като другите

Commenter

pesho724@mail

11.06.2026, 15:40

Абе хора, сериозно ли? Google отново го правят! 🚀 Това с превода на живо вече звучи наистина яко - представям си как ще е лесно да говориш с хора от други страни, без да се мъчиш с Google Translate дето понякога изплюва пълни глупости. 😂

Commenter

Прав_Българин

11.06.2026, 15:47

Ама сериозно ли, пак американците ни правят услуги? 🤨 И добре, ама кой плаща сметката за тоя прогрес? Да не е отново някой българин, дето работи там за жълъзи... Пак ли ще