Qualidade de Dados em Tempos de BigData
Banco(do) de Dados
A imagem acima ilustra um piada antiga no setor de informática, que passou por uma atualização automática em tempos de Bigdata e NoSQL. Palavras da moda que pregam a coleta e armazenamento de dados não estruturados e em grande quantidade, como a salvação da lavoura, mas que deixam a desejar na qualidade de dados nos endereços cadastrais.
São tecnologias uteis quando bem aplicadas, mas sem uma definição clara do que coletar e como usar esses dados o resultado final será o da ilustração acima, além da perda de tempo e dinheiro no desenvolvimento de um projeto.
A verdade é que a maioria das organizações não consegue garantir a qualidade e bom uso sequer do SmallData, aquela informação básica do dia a dia disponível no ERP/CRM em uso, e sem qualidade esses dados geram aumento de custos de forma recorrente e que muitas vezes passam desapercebidos.
A correta definição dos dados que devem ser armazenados, a forma de coleta e seus os possíveis usos fazem toda a diferença na montagem de um Sistema de Informações relevante.
Como exemplo vamos analisar as informações básicas do ativo mais valioso de qualquer organização: O Cliente.
Independente do porte e área de atuação de cada empresa, o cadastro de clientes/usuários/assinantes deve ter no minimo as informações de nome, documento (CPF ou CNPJ) e endereço.
Simples e básico e ai mora o perigo, a infinidade de processos para captura das informações que irão compor esse registro faz com que a qualidade dos dados inseridos nos sistemas seja mediana.
Nome e documento são facilmente verificáveis, mas no endereço a coisa complica.
Se o sistema permitir alguém vai digitar telefone no complemento do endereço, ou ‘juntar’ cidade e estado no bairro, digitar um CEP de forma incorreta e no fim do processo teremos um ‘bando de dados’ em mãos.
Sendo o endereço componente importante na comunicação com o cliente, a baixa qualidade dessa informação gera perdas em todos os departamentos e processos que dele fazem uso:
- Marketing: Mala direta promocional;
- Financeiro: Envio de boletos de cobrança;
- Logística: Envio de produtos adquiridos;
- Planejamento: Estudos de geográficos.
Cuidados na fase de definição e algumas regras de consistência e manutenção podem fazer toda a diferença
Na impossibilidade de melhorar a qualidade do endereço na digitação, já que isso cria problemas de produtividade, ações simples envolvendo o CEP do endereço podem gerar ganhos consideráveis em termos de processo e mesmo financeiros.
Mas o que é CEP e qual sua Finalidade?
O Código de Endereçamento Postal é um conjunto numérico de oito algarismos, cujo objetivo principal é orientar e acelerar o encaminhamento, o tratamento e a distribuição de objetos de correspondência.
Um CEP pode ser atribuído a cidades, ruas, unidades dos Correios, serviços, orgãos públicos, empresas e edifícios.
A finalidade do CEP é racionalizar os métodos de separação da correspondência por meio da simplificação dos processos de triagem, encaminhamento e distribuição, permitindo o tratamento mecanizado com a utilização de equipamentos eletrônicos de leitura ótica.
Por definição o CEP é um código numérico, mas por boa prática deve ser definido dentro do sistema como texto pois, o zero a esquerda nos CEPs da Região Metropolitana de São Paulo é relevante.
Se a coluna for definida no banco de dados como número, ao ser transferido para um sistema externo e “perder” zero inicial, o processamento do endereço passa a depender da interferência humana, o que no pior dos casos vai ocorrer apenas no final do processo gerando um retrabalho com todas as consequências conhecidas em termos de prazos e custos.
Existem algumas verificações rápidas que podem ser feitas na informação do CEP e que permitem excluir o registro do cliente de um processamento, ou mesmo identificar e separar endereços que devem passar por um processo de qualidade.
Verifique o tamanho do campo, se for inferior a 8 dígitos o endereço deve ser marcado para tratamento e/ou excluído de processos que dependam do endereço físico do cliente.
Verificar se o CEP existe, esta verificação pode ser através de um acesso direto ao site dos correios, através de um webservice ou fazendo uma carga dos CEPs válidos em um arquivo local.
No caso de optar pela carga dos dados é necessário prever rotinas de atualização dos mesmos, pois a base de referência é alterada no mínimo a cada três meses com a inclusão, exclusão e alteração de número razoável de CEPs em cada operação.
Além disso, é necessário certificar-se de fazer a carga todos os CEPs, pois eles estão espalhados por diferentes tabelas do DNE ( Diretório Nacional de Endereços ).
Com ou sem a verificação da existência do CEP é adequado efetuar outras checagens, já que o CEP existir não garante que ele esteja correto para o endereço em processo.
Uma verificação completa é difícil de ser executada em função dos diversos processamentos que devem ser executados para validação do CEP no endereço, além de ser normalmente demorada, mas alguns testes adicionais eliminam os problemas mais grosseiros:
- O CEP informado está dentro da faixa válida para o estado? O CEP 01220000 existe, mas se o endereço for no Rio de Janeiro temos um problema, pois o correio define que os CEPs válidos para o estado do Rio devem estar no intervalo de 20000000 a 28999999.
Veja mais informações neste artigo: Identificando endereços Problemáticos pelo CEP – Parte II - O CEP informado está dentro da faixa de CEPs da cidade? O CEP 01220000 existe, mas se o endereço for em Santo André é o mesmo caso do exemplo anterior, a faixa de CEPs válidos para Santo André vai de 09000001 a 09299999.
Evidente que aqui a coisa já complica um pouco, pois a grafia no nome da cidade pode estar incorreta, ou abreviada e ainda é necessário verificar o caso de cidades com mais de uma faixa de CEPs.
Veja mais informações neste artigo: Identificando endereços Problemáticos pelo CEP – Parte III - Se o CEP existe, esta alocado corretamente no estado e na cidade ainda resta identificar o tipo do CEP cadastrado, permitindo aplicar outras regras no tratamento deste cliente especifico. O Correio define os seguintes tipos de CEP:
- CEP de Cidade
- CEP de Logradouro
- CEP Especial
- CEP Promocional
- CEP de Agências do Correio (Caixa Postal)
- CEP de Caixa Postal Comunitária
Veja neste artigo como identificar o tipo do CEP usando os três últimos dígitos.
Os três últimos somente podem ser utilizados de forma criteriosa, servem ainda como indicador de problemas futuros na cobrança de um crédito, na concessão de um seguro ou mesmo no envio de um cartão de crédito, a não ser é claro que o cliente seja funcionário do Correio e o CEP esteja atrelado ao endereço comercial.
Estes são procedimentos básicos podem agregar qualidade e economizar custos diretos e indiretos em processos que se utilizem de endereçamento, eliminando os mais problemáticos, ou direcionando-os para tratamento e recuperação em processos externos.
O CEP correto também agiliza processos de geo localização, pois os softwares de mapeamento podem utilizar a esta informação para melhorar a localização da latitude e longitude de um endereço.
Como tudo o mais em processos de TI a qualidade da informação inserida no sistema tem influência direta nos resultados que podem ser obtidos, em tempos de bigdata não podemos deixar de lado a qualidade dos dados e as boas práticas na coleta de informações, pois a conta final é salgada seja nos custos diretos ( uma postagem simples custa R$ 1,50) ou indiretos como posições de atendimentos extras, perda de prazos, e outros.