Análise exploratória de dados para Health Data Science

MSc. Fernando Sequeira Sousa

A análise exploratória de dados é uma forma de observar o conjunto de dados de maneira que seja possível resumir suas principais características e representa-los de forma gráfica, ajudando a entender da base de dados que temos em mãos. Explorar, analisar e entender os dados brutos é essencial tanto para as análises e inferências estatísticas clássicas, quanto para a aplicação de modelos mais complexos de machine learning e deep learning. É o primeiro passo para uma das etapas mais importantes de machine learning data science: a preparação ou pré-processamento dos dados. Estudando os dados a partir da análise exploratória é possível entender quais os tipos de variáveis existem, como elas estão distribuídas, se existem e quais são os outliers, quais dados podem estar possivelmente errados, etc. Enfim, uma série características e informações que estão escondidas, mas que podem determinar o sucesso ou fracasso do modelo de machine learning aplicado.

Na área de saúde existe uma infinidade de dados que podem ser explorados, tanto privados quanto públicos. Uma operadora de saúde pode, por exemplo, querer saber qual o tempo médio de atendimento das consultas de ortopedia, qual a especialidade que tem mais demanda ou qual a idade que determina 25% das mães mais novas. A partir desta avaliação um mundo de oportunidades abre-se para aplicações de prevenção a saúde, planejamento e otimização de processos utilizando data science: determinar escalas de médicos com mais precisão, prever a demanda de pacientes para o próximo ano e criar ações para evitar gravidez na adolescência podem ser alguns exemplos.

Dados públicos também oferecem grandes e interessantes oportunidades de análises. O DATASUS disponibiliza dados dos seus sistemas, como o SINASC, SIM, SIH, SINAN e SIA. São dados de saúde compilados de mais de duas décadas, com dezenas de terabytes de dados e com uma grande diversidade, abrindo portas para aplicações de Big Data em saúde.

Estes arquivos estão em um formato bem peculiar: DBC, uma forma compactada de arquivos DBF do dBase. Sim, estes sistemas são bem antigos e adotam este formato. Usualmente utiliza-se o Tabwin ou Tabnet para fazer a tabulação destes dados. Como analista de dados e desenvolvedor, prefiro utilizar algoritmos para trabalhar com os dados. Existem duas bibliotecas que ajudam quem gosta de colocar a mão na massa na análise exploratória: PySUS, para python, e read.dbc, para R. Com elas é possível fazer a leitura do arquivo DBC e transformar os dados em um objeto dentro do programa. No caso do PySUS, os dados são transformados em um DataFrame do pandas, uma biblioteca bastante utilizada em ciência de dados. A utilização é muito simples:

from pysus.utilities.readdbc import read_dbcdados = read_dbc('caminho_arquivo.dbc', encoding='iso-8859-1')

O parâmetro encoding foi colocado para suportar os dados que são importados dos arquivos do DATASUS. Estas duas linhas importam os dados do arquivo DBC para a variável dados na forma de um DataFrame. Seu conteúdo é parecido com uma tabela de banco de dados ou de uma planilha eletrônica. Veja na imagem abaixo parte do DataFrame gerado ao importar os dados do SINASC:

Dados importados para um DataFrame. SINASC AC, 2015

A análise exploratória de dados pode ser aplicada sobre estes conjuntos de dados de saúde para determinar características e gerar insights. Assim, podemos responder perguntas como:

  • Qual a quantidade de viúvas que tiveram filhos em Tocantins no ano de 2012?
  • Qual a média de idade das mães sem estudo do rio de janeiro em 2015?
  • Qual a média de idade das mães com até três anos de estudo do rio de janeiro em 2015?
  • Se essas médias forem iguais, será que os dois grupos tem a mesma dispersão?
  • Em 2018, houve mais nascimentos de meninos ou meninas?
  • Existe diferença na média do peso da criança entre as mães que fizeram e não fizeram pré-natal?
  • Qual a idade que determina 30% das mães mais novas?

Essas perguntas são só relativas ao SINASC e sobre alguns dos campos. Imagine o mundo de possibilidades considerando os outros campos disponíveis e os outros sistemas.

Essas perguntas normalmente são respondidas com medidas da estatística descritiva, como média, mediana, moda, quantis, desvio padrão e amplitude interquartil. São medidas obtidas com equações simples ou por simples contagem das observações. É comum calcular estas medidas não só da base inteira, mas também por subgrupos. Por exemplo, pode-se encontrar a média de idade das mães da base completa e as médias para cada um dos estados civis.

Outra ajuda que a análise exploratória de dados oferece é encontrar erros nos dados, que interferem nas inferências estatísticas e no machine learning. Por exemplo, consegue ver o que há de errado nestes dados sobre mães de nascidos vivos em SP?

Análise exploratória de dados com medidas de estatística descritiva. SINASC SP, 2017

Mãe com 99 anos? 99 filhos vivos e 99 filhos mortos? Criança nasceu com 6,5 Kg? Fica claro que é um dado que foi inserido de forma errada, interferindo em medidas como média, desvio padrão e amplitudes. O tamanho da interferência depende da quantidade de dados errados presente na base. Em todo caso estes dados devem ser descartados para as análises e modelos posteriores. Quando se trabalha com dados podemos partir da premissa que haverá erros nos dados originais, e a exploração inicial dos dados ajuda a encontrar estes problemas sem ter que olhar linha por linha.

Durante a análise exploratória de dados também é comum criar algumas formas de representar os dados graficamente, como tabelas de frequência, histogramas e outros gráficos. Veja por exemplo, o histograma de idade das mães no Acre em 2015:

Histograma de idade das mães. SINASC AC, 2015

Colocando os dados de forma gráfica, é possível enxergar onde a maioria dos dados e encontram, e ter uma ideia de como eles estão distribuídos.

Todo este estudo é essencial em Health Data Science. Explorando os dados no início das análises e do trabalho, as conclusões estatísticas e de machine learning serão mais assertivas e terão mais qualidade. Os resultados obtidos estarão prontos para serem discutidos e utilizados para a tomada decisão e planejamento em saúde. Quer saber e aprender mais sobre Health Data Science? Inscreva-se no curso de Health Data Science e Analytics da UNIFESP: bit.ly/cursoHDS

Fonte: https://medium.com/@sousa.fernando/an%C3%A1lise-explorat%C3%B3ria-de-dados-para-health-data-science-35d4dd593f32

Leave a Reply

Your email address will not be published. Required fields are marked *