Prévia do material em texto
Estratégias e técnicas de gerenciamento de dados Unidade 3 Ferramentas para análise de dados Hertz Wilton de Castro Lins Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 2 UNIDADE III - FERRAMENTAS PARA ANÁLISE DE DADOS Olá, cursista! Até aqui vimos o que são banco de dados, tabelas, dados e vários outros conceitos. Vimos também que existem ferramentas, programas de computador, para se trabalhar com esses dados de forma simples. Mesmo você não sabendo, você já utilizou essas ferramentas e continua utilizando dentro da área da saúde. Você também sabe que visualizar um dado é uma etapa importante para uma efetiva utilização e compreensão da informação. Considere, por exemplo, um arquivo em formato de texto, principalmente em grandes volumes, não é fácil a visualização de padrões, tendências e outras características inerentes ao conjunto de dados. O Quadro 1 mostra uma lista de municípios do Rio Grande do Norte junto com suas respectivas populações. Embora essa tabela contenha informações valiosas, os detalhes não são imediatamente óbvios. Em contraste, o Quadro 2 apresenta as mesmas informações, mas com um destaque visual: os municípios com população acima da média estadual de 21.163 habitantes por município são ressaltados com um fundo azul. Esse destaque facilita a identificação de padrões e tendências. No entanto, é na representação gráfica desses dados, mostrada na Figura 1, que as informações se tornam ainda mais acessíveis e compreensíveis. Este gráfico ilustra claramente as populações dos municípios em relação à média estadual, tornando a análise mais intuitiva. A questão então é: qual formato de apresentação dos dados tornou a informação mais compreensível? Quadro 1 – Conjunto de municípios do Rio Grande do Norte Cidades do Rio Grande do Norte e a sua população Município População Município População Alexandria 13 640 Guamaré 15 295 Alto do Rodrigues 12 484 Ielmo Marinho 11 615 Angicos 11 632 Ipanguaçu 14 131 Apodi 36 093 Jardim de Piranhas 13 977 Areia Branca 24 093 Jardim do Seridó 11 655 Arez 13 251 João Câmara 33 290 Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 3 Cidades do Rio Grande do Norte e a sua população Município População Município População Assú 56 496 Jucurutu 17 793 Baraúna 26 913 Lagoa Nova 15 573 Brejinho 12 202 Macaíba 82 249 Caicó 61 146 Macau 27 369 Canguaretama 29 668 Montanhas 11 444 Caraúbas 19 727 Monte Alegre 23 031 Ceará-Mirim 79 115 Mossoró 264 577 Currais Novos 41 313 Nísia Floresta 31 942 Extremoz 61 635 Nova Cruz 34 269 Goianinha 26 741 Parelhas 21 499 Quadro 2 – Municípios do Rio Grande do Norte com média da população maior que a média do Estado Cidades do Rio Grande do Norte e a sua população Município População Município População Alexandria 13 640 Guamaré 15 295 Alto do Rodrigues 12 484 Ielmo Marinho 11 615 Angicos 11 632 Ipanguaçu 14 131 Apodi 36 093 Jardim de Piranhas 13 977 Areia Branca 24 093 Jardim do Seridó 11 655 Arez 13 251 João Câmara 33 290 Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 4 Cidades do Rio Grande do Norte e a sua população Município População Município População Assú 56 496 Jucurutu 17 793 Baraúna 26 913 Lagoa Nova 15 573 Brejinho 12 202 Macaíba 82 249 Caicó 61 146 Macau 27 369 Canguaretama 29 668 Montanhas 11 444 Caraúbas 19 727 Monte Alegre 23 031 Ceará-Mirim 79 115 Mossoró 264 577 Currais Novos 41 313 Nísia Floresta 31 942 Extremoz 61 635 Nova Cruz 34 269 Goianinha 26 741 Parelhas 21 499 Agora, você verá alguns exemplos de ferramentas com tecnologias para essa análise, isto é, que conseguem extrair de um conjunto de dados informações que não conseguimos apenas olhando para todos eles. Figura 1 - Municípios do Rio Grande do Norte com média da população maior que a média do Estado Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 5 AULA 1 - Mineração de Dados A mineração de dados é uma dessas ferramentas e consiste de uma série de etapas de transformação necessárias à obtenção de conhecimento válido. Por meio da mineração de dados se viabiliza a análise dos dados no contexto das relações para identificar padrões e dentre estas etapas podemos citar a classificação, a análise de Associações e agrupamentos. • Classificação: É o processo de encontrar um modelo (ou função) que descreve e distingue classes de dados ou conceitos. O resultado da classificação é um conjunto de objetos classificados por categoria dentre diversas pré-definidas e conhecidas. • Exemplos: Detecção de spam, categorização de células. • Análise de Associações: Consiste em determinar afinidades entre dados que não foram previamente estabelecidas, ou seja, definir regras de associação entre eles. • Como exemplo temos o caso de dois itens que são comprados frequentemente juntos, podem passar a ser vendidos num pacote em promoção. • Análise de agrupamentos: Consiste na Identificação e aproximação de registros similares sem o conhecimento prévio das características das classes. Um agrupamento ou cluster é formado por registros similares, mas diferentes de outros agrupamentos. • Exemplos: segmentação de mercado por nicho de produtos, separação de comportamentos. Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 6 AULA 2 - Ferramentas para Análise e Manipulação dos Dados Atualmente existem várias ferramentas, com licença open source, disponíveis para análise e visualização de dados. Essas ferramentas disponibilizam um conjunto de recursos para manipulação dos dados e aplicação de técnica de mineração de dados como a classificação e implementações de vários algoritmos de aprendizado de máquina (JOVIC et al., 2014), como por exemplo: RapidMIner (HOFMANN; KLINKENBERG, 2013), R (ZHAO, 2012), Weka (HALL et al., 2009), KNIME (BERTHOLD, 2008), Scikit-learn (PEDREGOSA et al., 2011) e Orange (DEMSAR et al., 2013). Open Source: O programa com licença open source ou de código aberto é um tipo de programa que se caracteriza por ter seu código fonte disponibilizado para uso ou modificação por usuários ou outros desenvolvedores. O Orange, disponível no link , é uma ferramenta open source que oferece um conjunto de recursos para visualização e análise de dados. Pode ser utilizado através da linguagem Python, como uma biblioteca que fornece uma extensão dos recursos da linguagem, ou através da programação visual, com a interface de programação visual apresentada na Figura 2. Para entender melhor o funcionamento do Orange e conhecer mais detalhes a respeito de seus recursos, acesse os links: e . http://orange.biolab.si/ http://orange.biolab.si/getting-started/ http://orange.biolab.si/getting-started/ http://docs.orange.biolab.si/3/data-mining-library/#tutorial Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 7 Figura 2 – Interface de programação visual. Como apresentado na Figura 2, é possível observar na parte esquerda um conjunto de funcionalidades e recursos para análise e visualização dados organizados em categorias: visualização, classificação, regressão e avaliação. As principais ferramentas de manipulação de dados são fundamentais para projetos que lidam com grandes volumes de dados, oferecendo recursos poderosos para processamento e visualização desses conjuntos. Aqui estão algumas das ferramentas mais populares e amplamente utilizadas: • Python e Bibliotecas de Dados: Uma linguagem de programação que vem ganhando destaque na área de ciência de dados e machine learning. Com o suporte de bibliotecas como Pandas e NumPy, facilita a manipulação de dados, visualização e realização de cálculos estatísticos. • R e seus Pacotes: Uma linguagem de programação especializada em análise estatísticaavançada, permitindo uma exploração aprofundada dos dados. • Microsoft Excel: Uma ferramenta extensivamente usada para análise de dados, especialmente útil em contextos empresariais para análises e geração de relatórios. Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 8 • Tableau: Uma ferramenta de visualização de dados que possibilita a criação de visualizações interativas e compartilháveis. • Power BI da Microsoft: Uma ferramenta de business intelligence para análise e compartilhamento de insights. Essas ferramentas abrangem uma vasta gama de necessidades, desde a manipulação e análise básicas de dados até tarefas mais complexas, como machine learning e análise de grandes volumes de dados. A escolha da ferramenta adequada geralmente depende das necessidades específicas do projeto, do tamanho e complexidade dos dados, e da experiência do usuário. EXEMPLOS DE APLICAÇÃO COM DADOS DE SAÚDE PÚBLICA Um exemplo notável de utilização de dados na saúde pública é o uso de técnicas de análise e ciência de dados para monitorar e prevenir surtos de doenças, como é o caso das arbovirores. O boletim epidemiológico de arboviroses, elaborado pela Secretaria de Saúde do Estado do Rio Grande do Norte, é um exemplo dessa aplicação. Este boletim compila dados essenciais para fornecer uma visão abrangente da situação da dengue, zika e chikungunya no estado. Utilizando ferramentas de visualização de dados, é possível gerar mapas de calor, gráficos e dashboards interativos. Estes instrumentos são cruciais para que profissionais de saúde e formuladores de políticas tenham uma compreensão clara da situação atual e possam tomar decisões fundamentadas em dados reais. A Figura 3 exemplifica essa abordagem, ilustrando os casos prováveis de chikungunya no Rio Grande do Norte, segmentados por faixa etária, nos anos de 2023 e 2024, e destaca o valor inestimável dessas ferramentas na análise e resposta a desafios de saúde pública. Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 9 Figura 3 - Casos prováveis de Chikungunya de acordo com faixa etária. Rio Grande do Norte, 2023/2024." Fonte: Boletim Epidemiológico Aborviroses - Semana 5 (Dengue, Chikugunha e Zika) do Estado do Rio Grande Do Norte. Disponível em: Outra ferramenta com recursos para acesso a dados de saúde é o TABNET, disponível aqui, que fornece acesso on-line a bases de dados do SUS como, por exemplo, bases de dados de morbidade, incapacidade, acesso a serviços, qualidade da atenção, condições de vida e fatores ambientais. As figuras 4 e 5 a seguir apresentam um exemplo de consulta de informações de atenção básica do Rio Grande do Norte com essa ferramenta e o respectivo resultado, disponível em aqui. http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000326279.PDF http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000326279.PDF http://datasus.saude.gov.br/informacoes-de-saude/tabnet http://tabnet.datasus.gov.br/cgi/deftohtm.exe?siab/cnv/SIABSrn.def Estratégias e técnicas de gerenciamento de dados Ferramentas para análise de dados 10 Figura 4 – Tela de consulta no Tabnet. Fonte: Tabnet/DATASUS. Figura 5 – Resultado da busca no Tabnet que mostra a quantidade de nascidos vivos nos municípios do Rio Grande do Norte no mês de dezembro de 2015. Fonte: Tabnet/DATASUS.