Aumente o envolvimento do usuário com geração de imagens de IA

Adicionar imagens personalizadas ao seu aplicativo pode melhorar e personalizar significativamente a experiência do usuário e aumentar o envolvimento do usuário. Esta postagem explora dois novos recursos para geração de imagens com Firebase AI Logic: os recursos especializados de edição de imagens, atualmente em versão prévia, e a disponibilidade geral do Gemini 2.5 Flash Image (também conhecido como “Nano Banana”), projetado para geração de imagens contextuais ou conversacionais.

Aumente o envolvimento do usuário com imagens geradas via Firebase AI Logic

Os modelos de geração de imagens podem ser usados ​​para criar avatares de perfil de usuário personalizados ou para integrar recursos visuais personalizados diretamente nos principais fluxos da tela.

Por exemplo, Imagen oferece novos recursos de edição (na visualização do desenvolvedor). Agora você pode desenhar uma máscara e utilizar pintura interna para gerar pixels dentro da área mascarada. Além disso, outpainting está disponível para gerar pixels fora da máscara.


Imagen suporta inpainting, permitindo gerar apenas uma parte de uma imagem.

Como alternativa, o Gemini 2.5 Flash Image (também conhecido como Nano Banana) pode usar o conhecimento mundial estendido e os recursos de raciocínio dos modelos Gemini para gerar imagens contextualmente relevantes, o que é ideal para criar ilustrações dinâmicas que se alinham com a experiência atual do usuário no aplicativo.

Use a imagem Flash Gemini 2.5 para criar ilustrações dinâmicas contextualmente relevantes para seu aplicativo.

Finalmente, a capacidade de editar imagens de forma conversacional e iterativa permite aos usuários editar uma foto usando linguagem natural.

Use Gemini 2.5 Flash Image para editar uma imagem usando linguagem natural.

Ao começar a integrar IA à sua aplicação, é importante aprender sobre Segurança de IA. É particularmente importante avaliar os riscos de segurança da sua aplicação, considerar ajustes para mitigar os riscos de segurança, realizar testes de segurança apropriados ao seu caso de uso e solicitar feedback do usuário e monitorar o conteúdo.

Imagen ou Gêmeos: a escolha é sua

A diferença entre Imagem Flash Gêmeos 2.5 (“Nano Banana”) e Imagem reside em seu foco principal e recursos avançados. Gemini 2.5 Flash Image, como modelo de imagem dentro da família Gemini maior, se destaca na edição de imagens conversacionais, mantendo o contexto e a consistência do assunto em múltiplas iterações e aproveitando o “conhecimento e raciocínio mundial” para criar recursos visuais contextualmente relevantes ou incorporar recursos visuais precisos em longas sequências de texto.

Imagen é o modelo especializado de geração de imagens do Google, projetado para maior controle criativo, especializado em resultados altamente fotorrealistas, detalhes artísticos, estilos específicos e fornecendo controles explícitos para especificar a proporção ou formato da imagem gerada.

Imagens Flash Gêmeos 2.5

(Nano Banana 🍌)

Imagem

🌎 conhecimento mundial e raciocínio para imagens mais contextualmente relevantes

💬 edite imagens de forma coloquial, mantendo o contexto

📖 incorporar recursos visuais precisos em longas sequências de texto

📐 especifique a proporção ou formato das imagens geradas

🖌️Suporte de edição baseada em máscara para pintura interna e externa.

🎚️ maior controle sobre os detalhes da imagem gerada (qualidade, detalhes artísticos e estilos específicos)

Vamos ver como usá-los em seu aplicativo.

Pintura com Imagen

Há alguns meses, lançamos novos recursos de edição para Imagen. Embora o Imagen agora esteja pronto para produção para geração de imagens, os recursos de edição ainda estão em visualização do desenvolvedor.

Os recursos de edição de imagens incluem pintura interna e pintura externarecursos de edição de imagens baseados em máscara. Este novo recurso permite aos usuários modificar áreas específicas de uma imagem sem regenerar a imagem inteira. Isso significa que você pode preservar as melhores partes da sua imagem e alterar apenas o que deseja alterar.

Use recursos de edição de imagens para fazer alterações precisas e direcionadas em uma imagem e garantir a integridade do restante da imagem

Essas alterações são feitas mantendo os elementos principais e a integridade geral da imagem original e modificando apenas a área da máscara.

Para implementar a pintura interna com Imagen, primeiro inicialize imagem-3.0-capability-001 um modelo Imagen específico com suporte a recursos de edição:

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val editingModel =
        Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel(
            "imagen-3.0-capability-001",
            generationConfig = ImagenGenerationConfig(
                numberOfImages = 1,
                aspectRatio = ImagenAspectRatio.SQUARE_1x1,
                imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75),
            ),
        )

A partir daí, defina a função de pintura interna:

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

val prompt = "remove the pancakes and make it an omelet instead"

suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap {
        val imageResponse = editingModel.editImage(
            referenceImages = listOf(
                ImagenRawImage(sourceImage.toImagenInlineImage()),
                ImagenRawMask(maskImage.toImagenInlineImage()),
            ),
            prompt = prompt,
            config = ImagenEditingConfig(
                editMode = ImagenEditMode.INPAINT_INSERTION,
                editSteps = editSteps,
            ),
        )
        return imageResponse.images.first().asBitmap()
    }

Você fornece tanto um fonteImagemum máscaraImagem e um incitar para a edição e o número de etapas de edição a serem executadas.

Você pode vê-lo em ação no Amostra de edição de imagem no catálogo de exemplos de IA do Android!

E Imagen também suporta pintura externa que permite deixar o modelo gerar os pixels fora de uma máscara. Você também pode usar os recursos de personalização de imagem do Imagen para alterar o estilo de uma imagem ou atualizar um assunto em uma imagem. Leia mais sobre isso no Documentação do desenvolvedor Android.

Geração de imagens conversacionais com Gemini 2.5 Flash Image

Uma maneira de editar imagens com Gemini 2.5 Flash Image é usar os recursos de bate-papo multivoltas do modelo.

Primeiro, inicialize o modelo:

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
    modelName = "gemini-2.5-flash-image",
    // Configure the model to respond with text and images (required)
    generationConfig = generationConfig {
        responseModalities = listOf(ResponseModality.TEXT,
        ResponseModality.IMAGE)
    }
)

Para obter um resultado semelhante ao método Imagen baseado em máscara descrito acima, podemos utilizar o bater papo API para iniciar uma conversa com Gemini 2.5 Flash Image.

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

// Initialize the chat
val chat = model.startChat()


// Load a bitmap
val source = ImageDecoder.createSource(context.contentResolver, uri)
val bitmap = ImageDecoder.decodeBitmap(source)


// Create the initial prompt instructing the model to edit the image
val prompt = content {
    image(bitmap)
    text("remove the pancakes and add an omelet")
}

// To generate an initial response, send a user message with the image and text prompt
var response = chat.sendMessage(prompt)

// Inspect the returned image
var generatedImageAsBitmap = response
    .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image

// Follow up requests do not need to specify the image again
response = chat.sendMessage("Now, center the omelet in the pan")
generatedImageAsBitmap = response
    .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image

Você pode vê-lo em ação no Amostra de bate-papo de imagem Gemini no catálogo Android AI Sample e leia mais sobre isso no Documentação Android.

Conclusão

Tanto o Imagen quanto o Gemini 2.5 Flash Image oferecem recursos poderosos, permitindo que você selecione o modelo de geração de imagem ideal para personalizar seu aplicativo e aumentar o envolvimento do usuário, dependendo do seu caso de uso específico.

Deixe um comentário