Gemini ottiene un potente aggiornamento con editing delle immagini generativo

Di: Anry Sergeev | oggi, 10:54

Google ha annunciato un aggiornamento importante dei suoi strumenti di editing delle immagini nell'app Gemini. Sviluppato dal team di DeepMind, il nuovo modello ha già ricevuto i punteggi più alti nei test iniziali ed è disponibile per tutti gli utenti di Gemini. Il modello consente di creare e modificare foto in modo che le persone o gli animali rappresentati rimangano riconoscibili e naturali.

LuogoModelloPunteggio95% CI (±)VotiOrganizzazioneLicenza
1gemini-2.5-flash-image-preview (nano-banana)1362±22 521 035Google.Proprietario
2flux-1-kontext-max1191±3357 196Black Forest LabsProprietario
3flux-1-kontext-pro1174±22 015 530Black Forest LabsProprietario
3gpt-image-11170±31 026 399OpenAIProprietario
5flux-1-kontext-dev1152±31 584 400Black Forest LabsProprietario
6qwen-image-edit1145±21 585 904AlibabaApache 2.0
6seededit-3.01142±41 285 080BytedanceProprietario
8gemini-2.0-flash-preview-image-generation1093±31 700 785GoogleProprietario
9bagel1044±512 774BytedanceApache 2.0
10step1x-edit1017±4138 399StepFunApache 2.0

Fonte: lmarena.ai

Cosa è cambiato

La nuova versione di Gemini lavora con un focus sull'autenticità. In precedenza, l'intelligenza artificiale poteva "rimodellare" i tratti del viso o cambiare l'aspetto durante l'editing, ma ora il sistema minimizza tali deviazioni. Questo significa che gli amici nelle foto sembreranno amici, e gli animali sembreranno animali, anche dopo aver cambiato acconciatura, abbigliamento o ambiente.

Gemini ha imparato a

  • trasferire persone o oggetti in un ambiente diverso senza perdere riconoscimento;
  • aggiungere o sostituire cose e mobili in una foto lasciando invariati gli altri elementi;
  • applicare lo stile di una parte dell'immagine a un'altra (ad esempio, il colore dei fiori sui vestiti);
  • combinare foto per creare scene completamente nuove.

Un esempio di cambiamento dei ruoli di un personaggio. Illustrazione: Google

Esempi di utilizzo

  • Foto di famiglia: se qualcuno sbatte le palpebre, l'algoritmo regolerà solo l'espressione facciale.
  • Animali domestici: un cane con un nuovo collare rimarrà lo stesso animale domestico, non una "nuova razza".
  • Sperimentazioni di moda: puoi provare diversi vestiti o scarpe direttamente nella foto.
  • Ristrutturazione e design: è facile immaginare come apparirà una stanza con nuovi mobili o colori delle pareti.
  • Scene fantasy: amici dal cortile possono trovarsi a Parigi o su Marte - e rimanere comunque riconoscibili.

Un esempio di miscelazione di due immagini. Illustrazione: Google

Perché è importante

Google presenta il Gemini aggiornato come uno strumento per un nuovo livello di personalizzazione e narrazione visiva. Il modello apre opportunità per la creatività, la comunicazione online e il lavoro professionale con contenuti visivi - dalla creazione di album di famiglia a campagne pubblicitarie.


Un esempio di combinazione di design. Illustrazione: Google

Secondo gli sviluppatori, tutti i calcoli vengono eseguiti mantenendo la privacy degli utenti, e l'aggiornamento è solo il primo passo verso funzioni di editing ancora più flessibili.

Fonte: Google