"Google" представи два значими проекта в областта на изкуствения интелект, насочени към разбиване на езиковите бариери и ускоряване на текстовото генериране. Новата аудио-моделна система "Gemini 3.5 Live Translate" позволява превод на реч почти в реално време на повече от "70 езика", а "Google DeepMind" обяви експерименталната "DiffusionGemma" – модел, който генерира текст до "четири пъти по-бързо" от стандартните авторегресивни модели благодарение на дифузионни техники в архитектурата "Gemma 4".
"Gemini 3.5 Live Translate": превод, който следва говорещия
За разлика от традиционните системи, които чакат говорещият да завърши фразата, преди да изведат превод, "Gemini 3.5 Live Translate" работи като "поточен преводач". Моделът обработва и превежда речта непрекъснато, с минимално закъснение от няколко секунди, като се стреми да запази "интонацията", "темпото" и "тоналността" на оригиналния говор.
Системата стартира едновременно на три основни платформи. На глобално ниво тя е достъпна в приложението "Google Переводчик" за "Android" и "iOS". В режим на публично предварително тестване ("public preview") се предлага за разработчици чрез "Gemini Live API" и "Google AI Studio". Паралелно с това в затворено предварително тестване ("private preview") е активирана за избрани корпоративни клиенти на "Google Workspace" в "Google Meet", като именно там преводът на реч се разширява от "5" поддържани езика до над "70" и над "2 000" възможни езикови комбинации в рамките на една среща.
Нов "режим прослушване" и защита на аудио съдържанието
Една от практичните новости е т.нар. "режим прослушване" за "Android". Той позволява на потребителите да чуват превода директно през говорителя на телефона, без да е необходимо да използват слушалки – достатъчно е да поставят устройството до ухото, подобно на стандартно телефонно обаждане. Това прави услугата по-удобна за използване в движение и в ситуации, в които е важно дискретно слушане.
Всички генерирани аудио-изходи от "Gemini 3.5 Live Translate" се маркират с воден знак "SynthID". Целта е ясно да се отличават "материали, създадени от изкуствен интелект", от човешка реч и да се даде възможност за проследимост и проверка на произхода. Това е част от по-широките усилия на "Google" да въведе стандарти за прозрачност при използването на генеративни модели в аудио и видео съдържание.
"DiffusionGemma": текст, генериран по логиката на дифузията
Паралелно с аудио-превода "Google DeepMind" представи "DiffusionGemma" – модел, който пренася дифузионния подход, използван при генерацията на изображения, в полето на текста. Вместо да предсказва думите една по една, както правят класическите авторегресивни модели, "DiffusionGemma" започва от "шум" и постепенно уточнява цели блокове до "256 токена" паралелно, подобно на това как дифузионните модели "изчиства" изображение стъпка по стъпка.
Моделът е базиран на архитектурата "Gemma 4" и използва "смес от експерти" с общо "26 милиарда параметъра", но по време на инференс активира само около "3,8 милиарда". Това позволява значително ускорение: "DiffusionGemma" достига над "1000 токена в секунда" на един "Nvidia H100" GPU и около "700 токена в секунда" на потребителска видеокарта "GeForce RTX 5090". Висовете на модела са публикувани в "Hugging Face" под "Apache 2.0" – отворен лиценз, който дава свобода за експерименти и интеграции.
Четири пъти по-бърз текст – но с цена в качеството
Главният изпълнителен директор на "Google" "Сундар Пичай" обърна специално внимание на "DiffusionGemma" в социалните мрежи, наричайки я "скакова лошадь, способна ускорить инференс в 4 раза". По думите му моделът пренася дългогодишните изследвания на компанията в областта на "текстовата дифузия" в семейството "Gemma 4" и отваря врата към нов тип бързодействащи текстови системи.
Самата "Google" обаче подчертава, че "DiffusionGemma" е "експериментален модел" и по отношение на качество на изхода "устъпва" на стандартната "Gemma 4". Компанията препоръчва да се използва най-вече в сценарии, където "скоростта е критична": вградени редакции на текст, бързи итерации при разработка и кратки "агентни цикли". За продукционни системи, изискващи максимално качество и надеждност, от "Google" съветват да се разчита на утвърдените авторегресивни модели.
Инфраструктура и екосистема: оптимизации и интеграции
"Nvidia" е оптимизирала "DiffusionGemma" за цялата си продуктова линия – от потребителските "GPU" до системите "DGX Spark". Това означава, че моделът може да бъде използван както в лабораторни условия, така и в по-големи инфраструктури, без допълнителни усилия по интеграция. Поддръжката е налична от първия ден в рамките на "vLLM", "Hugging Face Transformers" и "Unsloth", което позволява на разработчиците да го вграждат бързо в съществуващи проекти.
Така "Gemini 3.5 Live Translate" и "DiffusionGemma" се превръщат в две лица на една и съща тенденция: комбиниране на "прагматични продукти" като преводач в реално време с "експериментални модели" за ускорено генериране на текст. За потребителите това означава по-лесно общуване през езикови граници, а за разработчиците – нови инструменти за изграждане на по-бързи и по-гъвкави системи, базирани на изкуствен интелект.