Pular para o conteúdo
análise

Ferramentas e Técnicas para a Análise de Dados

O universo de dados está se expandindo em todas as direções, e as previsões para os anos seguintes são promissoras. No meio do caminho entre o hoje e o amanhã, uma miríade de novas ferramentas e técnicas nasce para ajudar analistas de dados a resolverem os mais complexos problemas. O que fazem estas ferramentas e técnicas, e como utilizá-las dentro do contexto organizacional para responder problemas de negócios?

Tempo estimado para a leitura: 19 minutos

Este post está dividido em dois blocos:

  • A seção introdutória vai analisar o momento atual das tecnologias para análise de dados e os desafios enfrentados pelas organizações.
  • A seção prática vai apresentar o ciclo analítico e como utilizá-lo em conjunto com ferramentas de análise de dados para resolver problemas de negócios.

Caso queira ir direto para a mão na massa, pule para a seção “Uma volta no ciclo analítico”.

Análise de dados no século XXI

Que o arsenal à disposição de pessoas analistas de dados é bem robusto, não há dúvidas. Se há 3.000 anos antes de Cristo, escribas recebiam instruções sobre técnicas avançadas de catalogação e análise de dados, hoje máquinas recebem tais instruções. Enquanto tecnicalidades ficam a cargo de máquinas, pessoas concentram esforços para encontrarem as respostas para as dúvidas que possuem. Não que analistas de dados da era comum não aprendam técnicas para catalogação e análise de dados, mas temos recursos para lidar com certas tarefas mais facilmente do que nossos antepassados. A pergunta que precisamos responder é: Como combinar o potencial das ferramentas e bases de dados para encontrar respostas para as perguntas que temos?. O objetivo final é o mesmo desde que as sociedades agrícolas se desenvolveram, agora usando ferramentas digitais para analisar planilhas, APIs, scrappers, notebooks, bancos de dados, data warehouses, data lakes e outras fontes em detrimento do olhômetro, ábacos e calculadoras mentais como ferramentas para decifrar papiros e tabuletas de argila.

Tabuleta de argila de 2041 antes da era comum. O documento é um registro de pessoas que trabalhavam em uma região agrícola onde hoje fica o Iraque.

Tabuleta de argila de 2041 antes da era comum. O documento é um registro de pessoas que trabalhavam em uma região agrícola onde hoje fica o Iraque. Fonte: Spurlock Museum of World Cultures.

Desafios do momento: novas dinâmicas sociais e novos formatos de conteúdo

Não é de hoje que podemos registrar tudo a todo momento. A medida que armazenar informações e processá-las se torna mais e mais barato, todo tipo de dado é armazenado com (ou sem) a expectativa de que possa se tornar útil em algum momento. E que momento é este? É o agora. Como capacidade de processamento acompanhou a de armazenamento, ferramentas conseguem manusear grandes volumes de dados e entregar informações precisas para embasar a menor das decisões em uma empresa. Este poder computacional trouxe pelo menos duas novidades para a cena de dados:

  • A possibilidade de enriquecer bases de dados existentes para obter conhecimentos mais específicos;
  • A Interpretação de novos formatos de dados como vídeo, áudio e espacial.

Sendo este segundo ponto importante para entender as características e comportamentos de uma sociedade global, dinâmica e instantânea que se comunica de outras formas que não somente pela linguagem escrita. O texto foi o formato predominante para armazenamento de dados primeiro pelas limitações tecnológicas de outros tempos, depois porque pode ser facilmente manuseado e organizado para posterior leitura. A internet está repleta de dados em outros formatos que não o texto, e estes formatos não são nada organizados para análise.

O vídeo é o formato predominante para consumo de conteúdo, e está presente nas mais diversas formas de comunicação online, incluindo aplicativos de mensagem.

O vídeo é o formato predominante para consumo de conteúdo, e está presente nas mais diversas formas de comunicação online, incluindo aplicativos de mensagem. Mesmo o formato de texto, vale notar, sofre alterações com a linguagem característica do ambiente digital: abreviada e com palavras e significados próprios deste contexto. Fonte: Reddit.

Planilhas e bancos de dados, me arrisco a dizer, são universais em organizações de todos os tipos e tamanhos. São fáceis de entender e manusear, e cumprem com a missão de organizar o conhecimento interno produzido pelas organizações. Estas ferramentas são, porém, repositórios para o armazenamento de textos. O máximo que podem fazer é armazenar formatos de multimídia em objetos BLOB, e mesmo assim não dá pra fazer muito além de resgatar o objeto em uma aplicação ou consultar metadados (se houver). Esta solução não é desenhada para armazenar ou produzir conhecimento a partir de dados gerados na internet. O problema foi resolvido com o surgimento de uma nova arquitetura de dados, composta por diversas ferramentas, algumas das quais nasceram para lidar especificamente com dados não estruturados na internet.

Uma destas ferramentas é o data lake, usada para armazenamento de dados. Estas soluções armazenam quaisquer tipos de dados e os disponibilizam para serem processados por outras ferramentas à medida que forem necessários. Ferramentas de data analytics e aprendizado de máquina então ajudam pessoas a encontrar sentido em massas de dados não estruturados armazenados em data lakes. O data lake não substitui soluções já conhecidas, como data warehouses ou mesmo bancos de dados legados, mas sim trabalha em conjunto com elas.

Estruturas de armazenamento e processamento de dados chamadas de pipelines são construídas para trafegar dados dos mais variados tipos entre duas pontas, de forma que possam ser transformados em conhecimento por analistas e cientistas de dados. O pipeline de dados fornece a infraestrutura necessária para garantir dados limpos, padronizados e seguros em uma fonte única da verdade. Desta fonte nascem dashboards e relatórios que embasam a tomada de decisões nas organizações, sejam por pessoas ou por algoritmos. Um pipeline de dados que ajude a responder problemas de negócios, e escale sem problemas à medida que mais dados e novas fontes são adicionadas, é imprescindível para interpretar os tantos sinais que as sociedades conectadas à internet deixam em sites, aplicativos e sensores. Há mais um conceito importante para o sucesso de empreitadas de dados, no entanto, sem o qual todo o esforço de armazenamento e processamento de dados perde o sentido.

Estágios de um pipeline de dados. Durante a coleta, quaisquer tipos de dados podem ser capturados da forma como são e posteriormente processados em formatos mais adequados para estudo.

Estágios de um pipeline de dados. Durante a coleta, quaisquer tipos de dados podem ser capturados da forma como são e posteriormente processados em formatos mais adequados para estudo. Fonte: Towards Data Science.

O contexto de negócios

Assim como petróleo, os dados não possuem valor por si só. Dificilmente um dado serve para alguma coisa, assim como não é possível derramar petróleo no reservatório de gasolina de um carro esperando que ele entre em combustão. Acontece que petróleo devidamente processado e utilizado como insumo para a produção de bens de consumo ainda pode não ter valor. O petróleo é usado na produção de gasolina, mas também de plástico. Se você pretende abastecer seu carro, uma vasilha de plástico não é o que você vai utilizar, embora seja feita da mesma matéria prima da gasolina. Se você precisa de uma vasilha de plástico, é provável que você tenha outras necessidades (a não ser que você precise carregar gasolina até o seu carro, que parou antes de chegar até o posto mais próximo). O que define se você precisa de gasolina ou de uma vasilha de plástico é o problema a ser resolvido, ou o contexto.

Algumas das previsões para o universo de dados em 2022 e futuro próximo são a popularização de data meshes, a inclusão de uma camada de métricas em pipelines de dados e uma linha cada vez mais tênue entre profissionais de dados e de produtos. Essas mudanças apontam para a necessidade de dar cada vez mais poder às equipes para que todas as pessoas consigam extrair conhecimento a partir de dados e utilizar este conhecimento para tornar a organização cada vez mais eficiente. Em outras palavras, as previsões apontam para a necessidade de enriquecer cada vez mais os dados com o contexto certo para a geração de negócios. Um mesmo dado pode ter sentidos diferentes e embasar decisões diferentes para pessoas diferentes. Uma equipe de sucesso do cliente, diante de um alto churn, vai tentar entender as razões para o número e tomará decisões para evitar que o churn cresça ainda mais entre a base atual de consumidores. Uma equipe de marketing munida com o mesmo número pode montar uma nova estratégia de comunicação com novos potenciais consumidores utilizando outros argumentos de venda ou com foco em outras fatias do público consumidor.

Sem o contexto de negócios, dados processados continuam não tendo valor. Sabendo disso, analistas de dados buscam conhecer ao máximo o ambiente de negócios onde estão inseridos, e o utilizam na composição do produto de suas análises, seja para testar hipóteses ou interpretar achados. O conhecimento mais importante para uma pessoa analista de dados, então, não é uma ferramenta ou técnica. É o conhecimento do negócio.

Com uma sólida infraestrutura de dados, contextualizada pelas necessidades do negócio, analistas de dados têm o desafio de encontrar respostas para as mais diversas situações organizacionais. Como estas pessoas fazem isso?

Ciclo analítico e ferramentas para a análise de dados

As etapas do ciclo analítico.

As etapas do ciclo analítico. Fonte: Autor.

Pipelines de dados e ferramentas, embora possam diferir de organização para organização, possuem etapas e funções similares. O que realmente muda é o contexto de negócios. Diversas organizações possuem equipes de marketing, vendas, sucesso do cliente e financeiro, mas cada equipe funciona de forma distinta em cada empresa, mesmo que duas ou mais empresas operem no mesmo segmento. Entender estas nuances e como o negócio funciona tem seus benefícios:

  • Entender por que os dados estão organizados da forma como estão;
  • Entender o que significam os dados;
  • Entender como cada unidade de negócios faz uso de dados em seus processos de tomada de decisão.

Por isso entender do negócio é mais importante do que conhecer ferramentas ou técnicas. Os dados ganham uma camada de contexto necessária para que a pessoa analista entregue um produto de dados relevante a quem precisa dele, coisa que ferramentas e técnicas sozinhas não podem dar.

Uma forma de trabalhar problemas de dados é usar o ciclo analítico, um processo para construção de produtos de dados desenhados para atender as necessidades de uma pessoa ou grupo específicos. O ciclo analítico é um processo que não parte da exploração imediata de bases de dados, mas sim do entendimento do contexto para a elaboração de hipóteses. O processo assume algumas premissas:

  • Existe conhecimento prévio a análise, o conhecimento do negócio;
  • O objetivo é aprender algo por meio da validação ou rejeição de hipóteses;
  • Um mesmo problema pode ser explorado diversas vezes. A análise não acaba ao final da primeira volta.

Seguindo preceitos do desenvolvimento de software, equipes de dados entregam interações do produto que respondem a perguntas de negócio, e formulam novas hipóteses que levam a novas descobertas a cada passagem pelo ciclo.

As etapas do ciclo analítico são:

  • Definição do problema;
  • Geração de hipóteses;
  • Coleta de dados;
  • Tratamento dos dados;
  • Análise exploratória;
  • Elaboração das descobertas;
  • Apresentação das descobertas.

Definição do problema

Desafios de dados vão partir de alguma necessidade do negócio, problematizada. Durante a primeira etapa do ciclo analítico, analistas de dados se debruçam sobre este problema para que conheçam o máximo possível de antemão: o que é, como acontece, desde quando é um problema, quem é impactado e por que o problema deve ser resolvido.

Geração de hipóteses

Por conhecerem suas realidades, as áreas de negócio já possuem noções pré estabelecidas dos processos atuais, e também dos problemas com os quais lidam. Conhecer estas impressões é importante para estabelecer o ponto de partida para a análise. Os insumos das áreas de negócio são então transformados em hipóteses sobre o problema. As hipóteses vão definir os termos da análise, o que esperar de resultado e como confrontar os achados com as noções pré estabelecidas.

Coleta de dados

O passo seguinte é mapear as fontes de dados que são importantes para a resolução do problema, onde estão, como acessá-las e entender como são alimentadas.

Tratamento dos dados

A qualidade dos dados vai variar significativamente não só entre organizações que possuem e que não possuem um pipeline de dados, mas também para o problema em questão. Mesmo organizações com processos maduros de gestão de dados podem não ter informações para resolver determinadas demandas de negócios. Analistas de dados precisam conhecer técnicas de tratamento de dados por pelo menos duas razões:

  • Para serem capazes de acrescentar novas fontes de dados a análise;
  • Para ressignificar dados existentes em novos contextos de negócios.

Análise exploratória

Agora sim, analistas de dados colocam as mãos nos dados! Bases de dados agregadas podem ser grandes o suficiente para permitir a mais granular das análises, mesmo que a necessidade por tal análise não exista. As etapas anteriores condicionam analistas de dados a concentrarem esforços no que é importante para o negócio. Neste momento, a base é analisada e os achados são confrontados com as hipóteses previamente estabelecidas. Durante a análise exploratória, novas hipóteses podem surgir e demandar novas bases de dados. Diversas voltas menores no ciclo podem passar apenas pelas etapas de coleta, tratamento e análise exploratória de dados.

Elaboração das descobertas

Com o conhecimento da análise em mãos, analistas de dados elaboram quadros de métricas e apresentações para comunicar suas descobertas.

Apresentação das descobertas

Ao final da volta, o negócio recebe os aprendizados obtidos com as possíveis maneiras de resolver o problema levantado no início do processo. Novas dúvidas de negócio podem surgir, dando início a uma nova volta no ciclo.

Uma volta no ciclo analítico

Para demonstrar o ciclo analítico, vou utilizar um banco de dados de um aplicativo de delivery. A análise do banco de dados será feita utilizando Python com as bibliotecas Pandas, Numpy e Matplotlib.

A empresa que desenvolve o aplicativo possui o seguinte problema: o NPS das avaliações dos restaurantes tem ficado abaixo das expectativas. A equipe de sucesso do cliente quer entender o que está fazendo o NPS cair e saber o que fazer para reverter o cenário.

Começando pelo problema

O NPS é uma métrica de satisfação. Ela mensura a percepção de um produto e serviço sob a perspectiva de seus consumidores. A equipe de sucesso do cliente usa esta métrica para avaliar a efetividade dos esforços empregados em retenção da base de consumidores. Retenção para o aplicativo possui contextos diferentes, a depender do consumidor:

  • Para consumidores, retenção é voltar na plataforma para fazer um novo pedido;
  • Para entregadores, retenção é voltar na plataforma para fazer uma nova entrega;
  • Para restaurantes, retenção é voltar a utilizar a plataforma para fazer novas vendas.

A equipe de sucesso do cliente percebeu que a avaliação que os restaurantes dão para a plataforma tem caído mês a mês. O NPS dos restaurantes começou a cair em um período que coincide com o início da pandemia de COVID-19 no Brasil. O aplicativo recebeu um volume imenso de novos cadastros de restaurantes, entregadores e consumidores, à medida que diversas empresas de alimentação se adaptaram para funcionar no ambiente digital.

Elaborando as hipóteses

São diversas as razões que levam a uma nota baixa no NPS, relacionadas ou não com a plataforma em si. Com base em avaliações anteriores, as seguintes hipóteses foram elaboradas:

  • A insatisfação dos clientes dos restaurantes aumentou, gerando também insatisfação dos restaurantes com a plataforma;
  • Clientes dos restaurantes estão comprando menos pela plataforma;
  • O volume de atrasos nas entregas está muito alto.

Estas hipóteses precisam agora ser testadas.

A base de dados

A equipe de sucesso do cliente possui um banco de dados com avaliações de restaurantes ao longo de 7 meses, de Abril a Outubro de 2020. A base está em formato CSV, um formato que armazena dados separados por um delimitador. Esta base será a única fonte de informação para estudar o problema e testar as hipóteses.

Tratamento dos dados

A base entregue para análise foi compilada a partir de dados presentes em diferentes ferramentas usadas na empresa, e possui os dados necessários para testar as hipóteses levantadas.

Conhecendo os dados

Neste momento, vamos criar familiaridade com a base de dados, fazer as transformações necessárias para contextualizá-los e testar as hipóteses estabelecidas. Trechos da análise original serão adicionados a este post, e o documento completo pode ser acessado em meu Github.

Com o ambiente configurado e bibliotecas instaladas, vamos carregá-las no projeto e ver os dados pela primeira vez.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

pd.set_option('max_columns', None)

%matplotlib inline

df = pd.read_csv('_data/dados_dashboard.csv', parse_dates=['date', 'created_at']);
df = df.set_index(['date'])
df.head()
Vendo o dataset pela primeira vez.

Vendo o dataset pela primeira vez. Fonte: Autor.

O índice usado no dataframe é a data de avaliação. As agregações que vamos utilizar se baseiam nesta data.

O dataset tem 121 colunas, sem contar o índice. Todas as colunas estão sendo exibidas, pois uma configuração foi adicionada à biblioteca para remover o limite padrão de colunas a serem exibidas.

1
2
3
df.dtypes.value_counts()
df.info(verbose=True, null_counts=True)
df.describe()
Sumário das variáveis numéricas, dado por df.describe().

Sumário das variáveis numéricas, dado por df.describe(). Fonte: Autor.

Um olhar atento ao resultado de df.info() mostra que há apenas 2 dados nulos, ambos na coluna months_at_ifood.

88 variáveis são do tipo inteiro e 23 são pontos flutuantes. 91% do dataset é formado por números.

Como o tempo é um fator importante para esta análise (pois a queda se dá ao longo do tempo), vamos direcionar os esforços a trabalhar as métricas que vão nos dar uma visão melhor dos dados por esta perspectiva. Neste momento, vamos saber como o NPS se move em função das variáveis de tempo. Estas variáveis são mês de cadastro e tempo de plataforma.

Começando pelo tempo de plataforma:

1
2
3
4
5
6
7
8
# As observações com a quantidade de meses em branco serão assumidas como a diferença entre a data da avaliação e a data de hoje
df.loc[df['months_at_ifood'].isnull(), ['months_at_ifood']] = (pd.Timestamp.now() - df[df['months_at_ifood'].isnull()].index) / np.timedelta64(1, 'M')
df['months_at_ifood'].isnull().sum()

# Tratar a quantidade de meses como uma variável categórica para facilitar a agregação
df['months_at_ifood_int'] = df['months_at_ifood'].apply(lambda x: round(x))

df.groupby('nps_grade').mean()['months_at_ifood_int']
Nota do NPS por tempo de cadastro na plataforma. Parece que quanto maior a quantidade média de meses, mais notas baixas o restaurante possui.

Nota do NPS por tempo de cadastro na plataforma. Parece que quanto maior a quantidade média de meses, mais notas baixas o restaurante possui. Fonte: Autor.

Olhando para o NPS ao longo dos meses de avaliação:

1
df.groupby(df.index.month).mean()['nps_grade']
Agregado pelo mês de avaliação, a nota do NPS caiu nos primeiros três meses, estabilizou no começo do segundo semestre e voltou a cair a partir de Setembro.

Agregado pelo mês de avaliação, a nota do NPS caiu nos primeiros três meses, estabilizou no começo do segundo semestre e voltou a cair a partir de Setembro. Fonte: Autor.

A queda parece sutil quando analisado o conjunto de dados inteiro. Precisamos desmembrar o conjunto para estudar suas partes menores. Vamos fazer isso diferenciando restaurantes novos de antigos na plataforma.

1
2
df['months_at_ifood_int'].mean()
df['months_at_ifood_int'].isin([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]).sum() / df['months_at_ifood'].count()

O tempo médio de cadastro de um restaurante na plataforma é de 9,6 meses. 67,9% dos restaurantes na plataforma estão cadastrados há 9 meses ou menos. Para definir o que é um restaurante novo, vamos adotar o seguinte conceito: restaurante novo na plataforma é aquele cadastrado há 9 meses ou menos (ou aquele que está abaixo ou igual a média de tempo de cadastro de restaurantes).

1
2
df['new_restaurant'] = [True if x < 9 else False for x in df['months_at_ifood_int']]
df['new_restaurant'].value_counts()
A maior parte das avaliações foram de restaurantes novos.

A maior parte das avaliações foram de restaurantes novos. Fonte: Autor.

1
2
df.groupby('new_restaurant')['nps_grade'].mean()
df['nps_grade'].mean()

A média geral do NPS é 7,54. Ao separar por restaurantes novos e antigos, as avaliações são:

  • Novos: 7,66
  • Antigos: 7,31

Ao separar restaurantes por tempo de cadastro, parece haver uma tendência de novos restaurantes terem notas maiores.

A primeira hipótese levantada foi “a insatisfação dos clientes dos restaurantes aumentou, gerando também insatisfação dos restaurantes com a plataforma". Saber que restaurantes mais antigos estão com uma nota geral menor, acrescido ao contexto da pandemia de COVID-19, pode sugerir que restaurantes tradicionais da plataforma não estão conseguindo se adaptar tão bem a chegada de novos competidores, alguns que possivelmente nasceram já em um contexto de pandemia e montaram operações dedicadas ao delivery.

Vamos agora saber como o NPS se move em função da quantidade de pedidos feitos no aplicativo.

1
2
# As janelas de tempo são 7, 14 e 28 dias
df.groupby('nps_grade')[['qtd_concluded_orders_28', 'qtd_concluded_orders_promotions_28', 'qtd_concluded_orders_lunch_28', 'qtd_concluded_orders_dinner_28']].mean()
O NPS é maior nos extremos (0 e 10) e cai nas avaliações seguintes (1 e 9) para pedidos concluídos com e sem promoção e também nas horas de almoço e janta. O comportamento se repete para as janelas de 7 e 14 dias. A oscilação da nota por horário é maior do que com ou sem o uso de cupons.

O NPS é maior nos extremos (0 e 10) e cai nas avaliações seguintes (1 e 9) para pedidos concluídos com e sem promoção e também nas horas de almoço e janta. O comportamento se repete para as janelas de 7 e 14 dias. A oscilação da nota por horário é maior do que com ou sem o uso de cupons. Fonte: Autor.

1
2
# As janelas de tempo são 7, 14 e 28 dias
df.groupby('nps_grade')['qtd_batch_orders_28'].mean()
Para pedidos acumulados nos últimos 14 e 28 dias, há mais notas entre 0, 1 e 2 no NPS do que as demais.

Para pedidos acumulados nos últimos 14 e 28 dias, há mais notas entre 0, 1 e 2 no NPS do que as demais. Fonte: Autor.

Fazendo o mesmo exercício, mas agrupado ao longo dos meses:

1
df.groupby(df.index.month).mean()[['qtd_concluded_orders_28', 'qtd_concluded_orders_promotions_28', 'qtd_concluded_orders_lunch_28', 'qtd_concluded_orders_dinner_28']]
O volume de pedidos cai de forma geral e nos horários de refeição, e aumenta quando há promoções.

O volume de pedidos cai de forma geral e nos horários de refeição, e aumenta quando há promoções. Fonte: Autor.

1
df.groupby(df.index.month).mean()['qtd_batch_orders_28']
E a quantidade de pedidos acumulados aumenta a cada mês.

E a quantidade de pedidos acumulados aumenta a cada mês. Fonte: Autor.

A maneira como o NPS se distribui pela quantidade de pedidos concluídos e totais não sugere a falta de clientes, como a hipótese “clientes dos restaurantes estão comprando menos pela plataforma" assume, mas sim que o comportamento de consumo se alterou, possivelmente em função da pandemia de COVID-19. Mais pedidos estão sendo fechados com o uso de cupons.

Para finalizar esta primeira análise exploratória, vamos estudar a avaliação NPS em função dos atrasos nas retiradas e nas entregas. O dataset possui diversas variáveis de atraso, que incluem apenas o atraso na retirada do pedido ou o atraso na retirada do pedido e na entrega ao cliente. Vamos estudar os efeitos dos atrasos na retirada e atrasos na entrega na pontuação do NPS.

1
df.groupby('nps_grade').mean()[['delay_in_delivery_qtd_punctuality_7', 'delay_in_delivery_qtd_punctuality_14', 'delay_in_delivery_qtd_punctuality_28']]
Avaliações com notas mais altas parecem ter também uma proporção maior de atrasos, apesar de parecer contra intuitivo.

Avaliações com notas mais altas parecem ter também uma proporção maior de atrasos, apesar de parecer contra intuitivo. Fonte: Autor.

1
df.groupby('nps_grade').mean()[['delay_in_collection_qtd_punctuality_7', 'delay_in_collection_qtd_punctuality_14', 'delay_in_collection_qtd_punctuality_28']]
Já quando a análise é feita pelo tempo para retirada, quanto menor o número de atrasos, maior é a nota.

Já quando a análise é feita pelo tempo para retirada, quanto menor o número de atrasos, maior é a nota. Fonte: Autor.

A última hipótese estabelecida é: o volume de atrasos nas entregas está muito alto. Os dados dos últimos meses mostram que a nota no NPS ainda pode ser alta mesmo com atrasos no cliente. A nota é menor, no entanto, quando a retirada no restaurante atrasa. A métrica de sucesso para o restaurante parece ser conseguir despachar o pedido a tempo para o cliente.

Muitas outras perguntas e análises podem ser feitas. Usamos apenas uma fração das 122 variáveis presentes no banco de dados, mas foram o suficiente para apresentar as primeiras descobertas e testar as primeiras hipóteses. Com tudo o que aprendemos, é possível então elaborar descobertas para apresentar ao time de sucesso do cliente.

Preparando a comunicação dos achados

Descobrimos que restaurantes mais antigos estão tendo mais dificuldade em manter boas avaliações no NPS, consumidores estão prezando por promoções e que restaurantes condenam entregadores que atrasam. Como agora usar essas informações para melhorar avaliações futuras do NPS? Não há uma resposta única, e é provável que várias respostas diferentes sejam testadas pela equipe até que as alavancas do NPS sejam descobertas. Para guiar os esforços da equipe, no entanto, podemos usar os achados para sugerir pelo menos duas ações:

  • Utilizar mais cupons promocionais em parceria com os restaurantes;
  • Criar ações promocionais específicas para restaurantes antigos.

Neste momento, analistas de dados elaboram o material de apresentação para a equipe de sucesso do cliente.

Apresentação das descobertas

Um produto de análise pode ser estático, como o que fizemos, ou dinâmico, usando uma ferramenta que permita com que o negócio possa responder outras perguntas utilizando estes dados sob demanda. O tipo de ferramenta a ser usada vai depender do problema em questão, do tempo que as pessoas analistas de dados dispõem para atender o negócio e do letramento em dados do público alvo.

E agora?

Certa vez escrevi neste blog que análise de dados pode ser infinita. Podemos levantar muitas outras perguntas e fazer muitas outras análises na base de dados, mas para que analistas de dados possam entregar valor ao negócio, é necessário que consigam respostas para os problemas do momento. O ciclo analítico ajuda equipes de dados a realizarem entregas incrementais e valor constante para o negócio.

Cada organização está em um estágio diferente de maturação em dados. Enquanto algumas possuem complexos pipelines de dados, outras possuem informações espalhadas em silos, sem controle e tratamento devido para que consigam analisar seus dados sob uma perspectiva unificada. Entender o fluxo de dados por completo – da ingestão a entrega para ferramentas de visualização – é importante também para pessoas analistas de dados, pois este conhecimento irá ajudar a navegar por diferentes estruturas organizacionais.

Leitura adicional

Você pode consultar o notebook usado para esta análise em meu Github, bem como diversos outros notebooks com diferentes projetos de análise exploratória de dados.

Bora percorrer o ciclo analítico!