"Google" представи два значими проекта в областта на изкуствения интелект, насочени към разбиване на езиковите бариери и ускоряване на текстовото генериране. Новата аудио-моделна система "Gemini 3.5 Live Translate" позволява превод на реч почти в реално време на повече от "70 езика", а "Google DeepMind" обяви експерименталната "DiffusionGemma" – модел, който генерира текст до "четири пъти по-бързо" от стандартните авторегресивни модели благодарение на дифузионни техники в архитектурата "Gemma 4".
"Gemini 3.5 Live Translate": превод, който следва говорещия
За разлика от традиционните системи, които чакат говорещият да завърши фразата, преди да изведат превод, "Gemini 3.5 Live Translate" работи като "поточен преводач". Моделът обработва и превежда речта непрекъснато, с минимално закъснение от няколко секунди, като се стреми да запази "интонацията", "темпото" и "тоналността" на оригиналния говор.
Системата стартира едновременно на три основни платформи. На глобално ниво тя е достъпна в приложението "Google Переводчик" за "Android" и "iOS". В режим на публично предварително тестване ("public preview") се предлага за разработчици чрез "Gemini Live API" и "Google AI Studio". Паралелно с това в затворено предварително тестване ("private preview") е активирана за избрани корпоративни клиенти на "Google Workspace" в "Google Meet", като именно там преводът на реч се разширява от "5" поддържани езика до над "70" и над "2 000" възможни езикови комбинации в рамките на една среща.
Нов "режим прослушване" и защита на аудио съдържанието
Една от практичните новости е т.нар. "режим прослушване" за "Android". Той позволява на потребителите да чуват превода директно през говорителя на телефона, без да е необходимо да използват слушалки – достатъчно е да поставят устройството до ухото, подобно на стандартно телефонно обаждане. Това прави услугата по-удобна за използване в движение и в ситуации, в които е важно дискретно слушане.
Всички генерирани аудио-изходи от "Gemini 3.5 Live Translate" се маркират с воден знак "SynthID". Целта е ясно да се отличават "материали, създадени от изкуствен интелект", от човешка реч и да се даде възможност за проследимост и проверка на произхода. Това е част от по-широките усилия на "Google" да въведе стандарти за прозрачност при използването на генеративни модели в аудио и видео съдържание.
"DiffusionGemma": текст, генериран по логиката на дифузията
Паралелно с аудио-превода "Google DeepMind" представи "DiffusionGemma" – модел, който пренася дифузионния подход, използван при генерацията на изображения, в полето на текста. Вместо да предсказва думите една по една, както правят класическите авторегресивни модели, "DiffusionGemma" започва от "шум" и постепенно уточнява цели блокове до "256 токена" паралелно, подобно на това как дифузионните модели "изчиства" изображение стъпка по стъпка.
Моделът е базиран на архитектурата "Gemma 4" и използва "смес от експерти" с общо "26 милиарда параметъра", но по време на инференс активира само около "3,8 милиарда". Това позволява значително ускорение: "DiffusionGemma" достига над "1000 токена в секунда" на един "Nvidia H100" GPU и около "700 токена в секунда" на потребителска видеокарта "GeForce RTX 5090". Висовете на модела са публикувани в "Hugging Face" под "Apache 2.0" – отворен лиценз, който дава свобода за експерименти и интеграции.
Четири пъти по-бърз текст – но с цена в качеството
Главният изпълнителен директор на "Google" "Сундар Пичай" обърна специално внимание на "DiffusionGemma" в социалните мрежи, наричайки я "скакова лошадь, способна ускорить инференс в 4 раза". По думите му моделът пренася дългогодишните изследвания на компанията в областта на "текстовата дифузия" в семейството "Gemma 4" и отваря врата към нов тип бързодействащи текстови системи.
Самата "Google" обаче подчертава, че "DiffusionGemma" е "експериментален модел" и по отношение на качество на изхода "устъпва" на стандартната "Gemma 4". Компанията препоръчва да се използва най-вече в сценарии, където "скоростта е критична": вградени редакции на текст, бързи итерации при разработка и кратки "агентни цикли". За продукционни системи, изискващи максимално качество и надеждност, от "Google" съветват да се разчита на утвърдените авторегресивни модели.
Инфраструктура и екосистема: оптимизации и интеграции
"Nvidia" е оптимизирала "DiffusionGemma" за цялата си продуктова линия – от потребителските "GPU" до системите "DGX Spark". Това означава, че моделът може да бъде използван както в лабораторни условия, така и в по-големи инфраструктури, без допълнителни усилия по интеграция. Поддръжката е налична от първия ден в рамките на "vLLM", "Hugging Face Transformers" и "Unsloth", което позволява на разработчиците да го вграждат бързо в съществуващи проекти.
Вижте още подобни статии
YouTube въвежда автоматично маркиране на видеа, създадени с помощта на ИИ
Разработчиците отказват да пишат код без ИИ, въпреки признаци за спад в продуктивността
Meta под натиск: скритият "NameTag" и сенките над поверителността при умните очила
ФАРА 2026 в Бургас: Бъдещето на креативността в ерата на изкуствения интелект
Така "Gemini 3.5 Live Translate" и "DiffusionGemma" се превръщат в две лица на една и съща тенденция: комбиниране на "прагматични продукти" като преводач в реално време с "експериментални модели" за ускорено генериране на текст. За потребителите това означава по-лесно общуване през езикови граници, а за разработчиците – нови инструменти за изграждане на по-бързи и по-гъвкави системи, базирани на изкуствен интелект.
Коментари (10)
real_hero
11.06.2026, 14:30евала на гугъл! сериозна работа правят, не са седим да гледаме. това с превода на живо е голям кеф - представи си колко ще улесни хората, които пътуват или работят с чужденци. и четирикратно по-бърз текст? браво, значи ще можем да четем новини и статии без да чакаме вечно за зареждане.
dark_wolf794
11.06.2026, 14:32Абе, real_hero, ти верно си герой! 😂 Евалата е важна, ама да не се заблуждаваме - Google винаги правят нещо яко, за да ни изсмучат още малко пари в крайна сметка
A5384D
11.06.2026, 14:32Абе, добре де... ама нещо все още ми е малко съмнително колко "на живо" ще го превежда тоя Google-а. Сигурен ли съм аз, че няма да се забавя в най-важния момент? И че няма да изплюе някоя смешка? Видял съм си аз чудеса на технологиите, ама докато стане наистина полезно... Четири пъти по-бързо заре
dark_king802
11.06.2026, 14:53Абе, яко е това с превода на живо, наистина. Но майтап да видим дали ще работи добре с нашия славен език... Че нещо си ги пазя тези машините като 😁
Истински_Софиянец
11.06.2026, 14:56ахах, dark_king802, прав си напълно! и аз съм малко скептичен за нашия език... честно казано, знам че google имат много модели, но българският винаги е бил малко "проблемен" за тях. надявам се този път да са го доработили добре, защото наистина ще е супер удобно, ако работи гладко. представям си как ще можем да говорим с баба ми в испания без
Yordan80
11.06.2026, 14:57Уау! 🤩 Това е бомбено! Четири пъти по-бърз текст?! Сега ще можем да следим всичко на живо, без нерви! Браво на Google
Vasil29
11.06.2026, 15:02Абе, хора, да се абстрахираме от "вау" и евалата! Разбирам ентусиазма, наистина. Но да помислим малко логично, а? Четири пъти по-бързо – чудесно, но на каква цена? Да не окаже ли, че като ускоряват процеса, жертват качество
idhgq280
11.06.2026, 15:32Ей, хора! 😮 Наистина ли са го измислили това с превода на живо? Аз постоянно се боря с езикови бариери, ама наистина ли ще е толкова гладко?! И тази скорост на генериране на текст… четири пъти по-бързо, казвате? 🤯 Сега само да не стане като другите
pesho724@mail
11.06.2026, 15:40Абе хора, сериозно ли? Google отново го правят! 🚀 Това с превода на живо вече звучи наистина яко - представям си как ще е лесно да говориш с хора от други страни, без да се мъчиш с Google Translate дето понякога изплюва пълни глупости. 😂
Прав_Българин
11.06.2026, 15:47Ама сериозно ли, пак американците ни правят услуги? 🤨 И добре, ама кой плаща сметката за тоя прогрес? Да не е отново някой българин, дето работи там за жълъзи... Пак ли ще