Machine Learning

background-image: url(img/logo.png)
background-position: 50% 15%
background-size: 30%

# <br><br> Machine Learning

### Workshop Ciência de Dados 
### OOBr + Constat

---

### Sobre nós
.pull-left[
<img src=img/perfil.png width="330">
<br><br><br>Contato:
<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#0A1E3C;overflow:visible;position:relative;"><path d="M464 64C490.5 64 512 85.49 512 112C512 127.1 504.9 141.3 492.8 150.4L275.2 313.6C263.8 322.1 248.2 322.1 236.8 313.6L19.2 150.4C7.113 141.3 0 127.1 0 112C0 85.49 21.49 64 48 64H464zM217.6 339.2C240.4 356.3 271.6 356.3 294.4 339.2L512 176V384C512 419.3 483.3 448 448 448H64C28.65 448 0 419.3 0 384V176L217.6 339.2z"/></svg> <a href="mailto:elias.junior_@outlook.com">elias.junior_@outlook.com</a>
<svg aria-hidden="true" role="img" viewBox="0 0 496 512" style="height:1em;width:0.97em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#0A1E3C;overflow:visible;position:relative;"><path d="M165.9 397.4c0 2-2.3 3.6-5.2 3.6-3.3 .3-5.6-1.3-5.6-3.6 0-2 2.3-3.6 5.2-3.6 3-.3 5.6 1.3 5.6 3.6zm-31.1-4.5c-.7 2 1.3 4.3 4.3 4.9 2.6 1 5.6 0 6.2-2s-1.3-4.3-4.3-5.2c-2.6-.7-5.5 .3-6.2 2.3zm44.2-1.7c-2.9 .7-4.9 2.6-4.6 4.9 .3 2 2.9 3.3 5.9 2.6 2.9-.7 4.9-2.6 4.6-4.6-.3-1.9-3-3.2-5.9-2.9zM244.8 8C106.1 8 0 113.3 0 252c0 110.9 69.8 205.8 169.5 239.2 12.8 2.3 17.3-5.6 17.3-12.1 0-6.2-.3-40.4-.3-61.4 0 0-70 15-84.7-29.8 0 0-11.4-29.1-27.8-36.6 0 0-22.9-15.7 1.6-15.4 0 0 24.9 2 38.6 25.8 21.9 38.6 58.6 27.5 72.9 20.9 2.3-16 8.8-27.1 16-33.7-55.9-6.2-112.3-14.3-112.3-110.5 0-27.5 7.6-41.3 23.6-58.9-2.6-6.5-11.1-33.3 2.6-67.9 20.9-6.5 69 27 69 27 20-5.6 41.5-8.5 62.8-8.5s42.8 2.9 62.8 8.5c0 0 48.1-33.6 69-27 13.7 34.7 5.2 61.4 2.6 67.9 16 17.7 25.8 31.5 25.8 58.9 0 96.5-58.9 104.2-114.8 110.5 9.2 7.9 17 22.9 17 46.4 0 33.7-.3 75.4-.3 83.6 0 6.5 4.6 14.4 17.3 12.1C428.2 457.8 496 362.9 496 252 496 113.3 383.5 8 244.8 8zM97.2 352.9c-1.3 1-1 3.3 .7 5.2 1.6 1.6 3.9 2.3 5.2 1 1.3-1 1-3.3-.7-5.2-1.6-1.6-3.9-2.3-5.2-1zm-10.8-8.1c-.7 1.3 .3 2.9 2.3 3.9 1.6 1 3.6 .7 4.3-.7 .7-1.3-.3-2.9-2.3-3.9-2-.6-3.6-.3-4.3 .7zm32.4 35.6c-1.6 1.3-1 4.3 1.3 6.2 2.3 2.3 5.2 2.6 6.5 1 1.3-1.3 .7-4.3-1.3-6.2-2.2-2.3-5.2-2.6-6.5-1zm-11.4-14.7c-1.6 1-1.6 3.6 0 5.9 1.6 2.3 4.3 3.3 5.6 2.3 1.6-1.3 1.6-3.9 0-6.2-1.4-2.3-4-3.3-5.6-2z"/></svg> <a href="http://github.com/eliasrribeiro">@eliasrribeiro</a>
]

]

---
class: middle

### Sobre o OOBr

.pull-left[
- Plataforma interativa de **monitoramento**, **análises de dados públicos** (da saúde, socioeconômicos e ambientais) cientificamente embasadas e **disseminação de informações** relevantes na área da saúde materno-infantil.

- Ser referência de informações acessíveis e confiáveis sobre saúde materno-infantil e ser um suporte importante para a tomada de decisões na área.

- Equipe multidisciplinar da UFES, USP e FACENS.

- Financiado pela Fundação Bill & Melinda Gates, CNPq e FAPES.
]

---
class: middle

.pull-left[
### Painéis OOBr
<img src="img/paineis.png" width="100%" style="display: block; margin: auto;" />
]

.pull-right[
### Livro e tutoriais OOBr
<img src="img/tutoriais.png" width="100%" style="display: block; margin: auto;" />
]

.center[
#### <svg aria-hidden="true" role="img" viewBox="0 0 640 512" style="height:1em;width:1.25em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#0A1E3C;overflow:visible;position:relative;"><path d="M172.5 131.1C228.1 75.51 320.5 75.51 376.1 131.1C426.1 181.1 433.5 260.8 392.4 318.3L391.3 319.9C381 334.2 361 337.6 346.7 327.3C332.3 317 328.9 297 339.2 282.7L340.3 281.1C363.2 249 359.6 205.1 331.7 177.2C300.3 145.8 249.2 145.8 217.7 177.2L105.5 289.5C73.99 320.1 73.99 372 105.5 403.5C133.3 431.4 177.3 435 209.3 412.1L210.9 410.1C225.3 400.7 245.3 404 255.5 418.4C265.8 432.8 262.5 452.8 248.1 463.1L246.5 464.2C188.1 505.3 110.2 498.7 60.21 448.8C3.741 392.3 3.741 300.7 60.21 244.3L172.5 131.1zM467.5 380C411 436.5 319.5 436.5 263 380C213 330 206.5 251.2 247.6 193.7L248.7 192.1C258.1 177.8 278.1 174.4 293.3 184.7C307.7 194.1 311.1 214.1 300.8 229.3L299.7 230.9C276.8 262.1 280.4 306.9 308.3 334.8C339.7 366.2 390.8 366.2 422.3 334.8L534.5 222.5C566 191 566 139.1 534.5 108.5C506.7 80.63 462.7 76.99 430.7 99.9L429.1 101C414.7 111.3 394.7 107.1 384.5 93.58C374.2 79.2 377.5 59.21 391.9 48.94L393.5 47.82C451 6.731 529.8 13.25 579.8 63.24C636.3 119.7 636.3 211.3 579.8 267.7L467.5 380z"/></svg> [https://observatorioobstetricobr.org](https://observatorioobstetricobr.org)
]
---
class: inverse, middle

### Materiais de Referência

.pull-left[
<a href = "https://web.stanford.edu/~hastie/ISLRv2_website.pdf">
<img src="static/img/islr.png" style=" display: block; margin-left: auto; margin-right: auto;"></img>
</a>
]

.pull-right[
<a href = "https://loja.curso-r.com/introduc-o-ao-machine-learning.html">
<img src="img/cursor.jpg"  width = 80% style=" display: block; margin-left: auto; margin-right: auto;"></img>
</a>
]

---
class: inverse, middle

## Machine Learning

---
class: middle

### Ciência de Dados

Fonte : Ricardo Cappa e Gabriel Lages

---
class: middle

Fonte : Ciência de Dados na Educação Pública

---
class: middle

### O que é Machine Learning ?

- Criado em 1959, por Arthur Samuel

- Aprendizado de Máquina

- Conjunto de técnicas e estratégias para análise de dados que visa gerar estimativas mais precisas para uma quantidade ou fenômeno (Max Kuhn, 2014)

---
class: middle

Fonte : Ironhack Blog
---

### Exemplos de aplicação

- Streamings (Netflix, Spotify, etc)

- Bancos (Fraude, Crédito, etc)

- Diagnóstico por pixels em uma imagem

- Carro autônomo

- Pesquisas

---
class: inverse, middle

### Aprendizado Não Supervisionado vs Aprendizado Supervisionado

---
class: middle

- O `$\textit{Dataset }$` é separado em treino e teste, onde o é feito o treinamento na base treino para posteriormente serem feitos os testes de predição e avaliação da qualidade do ajuste na base teste.

]
.pull-right[
### Não Supervisionado
- Não ocorre o treinamento pela ausência da variável `$\textit{target}$`;

- Busca de padrões ou grupos com características em comum.
]
.center[
#### Qual abordagem usar então?
]

---
class: middle
### Modelos não Supervisionados

- Clusterização ou Agrupamentos:

- Métodos hierárquicos;
 - Métodos por particionamento.

]
.pull-right[

]
---
class: middle

###  Agrupamentos

Partimos do pressuposto que existem grupos ou clusters, com base em critérios ou características, que dão origem ao conjunto de dados.
Podemos separar em três principais métodos de separação desses clusters:

- Métodos Hierárquicos:
  - Baseado na distância dos pontos entre si.

- Métodos por Particionamentos:
  - Baseado na distância entre os pontos e os centróides

---
class: middle

### Agrupamento hierárquico
.center[
Agrupa os dados em grupos baseando-se na distância entre os pontos (Euclidiana por exemplo), até que observações mais próximas estejam alocadas em seus respectivos grupos.  
Inicialmente como entrada para algoritmos de agrupamento hierárquico, é realizada uma matriz de distâncias, ou dissimilaridade, com base na métrica de distância escolhida.   
]
.center[
  .pull-left[
  <img src=img/distancia_euclidiana.png width="500">
  ]
  .pull-right[
  <img src=img/manhattan.png width="270">
  ]
]

---
class: middle
### Agrupamento hierárquico
Há duas abordagens para os agrupamentos hierárquicos, sendo elas: aglomerativa e divisiva. Sendo a aglomerativa mais difundida em virtude de seu custo computacional inferior. Os seguintes são métodos de abordagem aglomerativa: 
 
 - Método dos vizinhos mais próximos;
 
 - Método dos vizinhos mais distantes;
 
 - Método da média das distâncias;
 
 - Método do centróide;
 
 - Método de Ward.

---
class: middle
### Dendrograma

.pull-left[De forma a facilitar a visualização da alocação dos dados em grupos faremos um dendrograma. Que nada mais é que um mapeamento de quais pontos estão mais próximos e quais não estão. Seguimos os seguintes passos:
- Calcule as distâncias entre os pontos;

- Una os pontos mais próximos;

- Finalize quando todos os elementos estão contemplados e pertencem a algum grau de agrupamento.]
.pull-right[
<img src=img/pontos.png width="950">
<img src=img/pontos2.png width="300">
]

---
class: middle
### Dendrograma
Podemos usar como ponto de corte para número de clusters quando o 'salto' de uma coluna para outra nas colunas de distâncias é relativamente alto.
.center[
  .pull-left[
<img src="machine_learning_files/figure-html/unnamed-chunk-7-1.png" width="100%" />
 ]
 .pull-right[
<img src="machine_learning_files/figure-html/unnamed-chunk-8-1.png" width="100%" />
 ]
]

---
class: middle
#### O que deu errado?
Possíveis fontes de variação:
- Métrica de distância;
- Regra de cálculo de distância entre dois grupos de pontos.
É indicado testar diferentes interações para cada um dos parâmetros para visualizar como essas diferentes formas interferem nos resultados obtidos, como o parâmetro 'method'.

Se trocarmos a distância para distância de Manhattan:

---
class: middle

###  Métodos por Particionamento (K-means)

K-means ou K-médias, são modelos que se baseiam na presença de centróides, repartindo o conjunto de dados em grupos, onde cada observação é agregada no cluster com centróide mais próximo.
Os centróides são alocados de forma a minimizar a soma dos quadrados das distâncias entre os pontos e seus respectivos centros. Formalmente:

Dado `$\textbf{X} = (x_1,x_2,...,x_n)$`, onde cada `$x_i$` é um vetor d-dimensional, e `$k$` equivalente ao número de grupos, sendo `$\textbf{S} = \{S_1,S_2,...,S_k\}$` cada um desses grupos, queremos:

`$$\underset{S}{\textrm{arg min}}\sum^k_{i=1}\sum_{x \in  S_i} || x -\mu_i||^2$$`

---
class: middle
### K-means
E se usarmos outro tipo de dados? qual seria o resultado? Testaremos com um conjunto de dados gerado no R.

---
class: middle
### K-means
E se usarmos outro tipo de dados? qual seria o resultado? Testaremos com um conjunto de dados gerado no R.

.pull-left[
<img src="machine_learning_files/figure-html/unnamed-chunk-10-1.png" width="100%" />
]
.pull-right[
<img src="machine_learning_files/figure-html/unnamed-chunk-11-1.png" width="100%" />

]

---
class: middle
####  o que deu errado?
O k-means se baseia na distância dos pontos para com os centróides, logo, tipos de grupos como esses ele possui dificuldades para classificação, o melhor método no caso seria utilizar o modelo de classificação hierárquico. Veja como fica:
.pull-left[
<img src="machine_learning_files/figure-html/unnamed-chunk-12-1.png" width="100%" />
]
.pull-right[
<img src="machine_learning_files/figure-html/unnamed-chunk-13-1.png" width="100%" />

]
---
class: inverse, middle

# Aplicação dos Métodos de Agrupamento

---
class: middle
### Objetivo
 Realizar análise de agrupamento dos municípios brasileiros com relação aos indicadores obstétricos (Ex: Porcentagem de Prematuridade, Porcentagem de Cesárea, etc.), avaliando os melhores indicadores para os agrupamentos e identificar os municípios que apresentam os piores e melhores índices.
 
O exemplo em questão se trata do trabalho de conclusão de curso da aluna Mariana Machado, a qual fez parte do OObr.

Os dados foram obtidos pela Plataforma de Ciência de Dados aplicada à Saúde (PCDaS) da Fundação Oswaldo Cruz (Fiocruz) do banco de dados SINASC do ano de 2019.

No âmbito desse exemplo, utilizaremos apenas os métodos trabalhados no primeiro dia da oficina, e não todos os aplicados no trabalho fonte. Para visualização de todos os métodos, o trabalho se encontra disponível no site do OObr.
[(link)](https://observatorioobstetricobr.org/publicacoes/trabalho-aprendizado-estatistico-nao-supervisionado-aplicado-aos-indicadores-obstetricos-dos-municipios-do-brasil/)
---
class:  middle

### Métodos Utilizados

Agrupamentos por Particionamento:
 
 - K-médias (K-means)

Agrupamentos Hierárquicos:

- Média das Distâncias
 
 - Centróide
 
 - Vizinho Mais Distante
 
 - Vizinho Mais Próximo
 
 - Ward

---
class: middle
### Indicadores

Antes de realmente falarmos dos indicadores, temos que entender o conceito por trás deles:

- Prematuridade: Parto com idade gestacional inferior a 37 semanas.
 
 - Gestação Múltipla: Gestação de dois ou mais fetos simultâneos.
 
 - Parto Cesárea: Parto onde extração do feto é por intervenção cirúrgica.
 
 - Consulta de Pré-Natal: Acompanhamento médico durante a gravidez. Ideal de 7 consultas durante o período pré-natal
 
 - Apgar: Escala proposta pela médica Virgínia Apgar que atribui pontuação a 5 sinais do recém-nascido (Frequência cardíaca, respiração, tônus muscular, irritabilidade reflexa e cor da pele). A escala varia de 0 a 10. Sendo feita no primeiro minuto após o nascimento (Apgar do primeiro minuto) e 5 minutos após(Apgar do quinto minuto).
 
 - Anomalia congênita: Alterações estruturais ou funcionais geradas na vida intrauterina.

---
class: middle
### Indicadores
Os indicadores são obtidos por percentual válido, de forma a desconsiderar os dados faltantes. Sendo eles:
 - Percentual válido de prematuridade
 
 - Percentual válido de gestações múltiplas
 
 - Percentual válido de partos cesáreas
 
 - Percentual válido de nascidos com nenhuma consulta pré-natal
 
 - Percentual válido de nascidos com 7 ou mais consultas de pré-natal
 
 - Percentual válido de Apgar do 1º minuto menor que 7
 
 - Percentual válido de Apgar do 5º minuto menor que 7
 
 - Percentual válido de nascidos com anomalia congênita
 
 - Percentual válido de nascidos com peso menor que 2500 gramas
 
 - Percentual válido de nascidos do sexo feminino
 
---
class: middle
### Dados
.center[
<img src=img/tabela3.png width="700">
]

---
class: middle, inverse

#Agrupamentos

---
class: middle

## Particionamento
.center[
<img src=img/tabelakmedias.png width="700">

<img src=img/cotovelokmedias.png width="500">
]
---
class: middle
### Hierárquicos
.center[
<img src=img/validacaohierarquico.png width="500">

]
---
class: inverse, middle
#Avaliação dos Métodos

---
class: middle
### Métricas
Como não há conhecimento prévio sobre a real divisão dos dados, as métricas de avaliação para o modelo consideram apenas as variáveis disponíveis nos dados. As utilizadas no estudo foram:
 
 - Davies-Bouldin (DB): Ideia geral fornecer a média da similaridade entre cada grupo e seu grupo mais similar dentre os clusters obtidos. Calculando a distância média de suas observações a um valore referencial, podendo ser um medóide ou centróide. (Menor)
 
 - Dunn (D): Razão entre a separação dos grupos e a variância dentro deles. (Maior)
 
 - Silhueta (S): Considera a distância de cada ponto às observações do mesmo grupo e aos demais clusters formados. (Maior)
 
 - Calinski-Harabasz (CH): Considera a variância intragrupo de cada cluster gerado considerando a distância quadrática de cada observação ao seu valor referência, podendo esse valor ser um centróide ou medóide.(Maior)

---
Class: middle
### Particionamento
<img src=img/validacaoparticao.png width="700">

---
class: middle
### Hierárquico
.center[
<img src=img/tabelahierarquico.png width="550">
]

---
class: inverse, middle
#Resultados

---
class: middle
### Resultados
.center[<img src=img/resultado.png width="800">]
---
class: middle
### Resultados
.center[<img src=img/mapa.png width="550">]
---
class: middle
### Resultados
Após todo o agrupamento das variáveis foi realizada uma árvore de decisão para análise de variáveis mais significativas para o modelo.
.center[<img src=img/arvore.png width="500">
<img src=img/capitais.png width="300">
]
---
class: middle
### Resultados
.center[<img src=img/nascidos.png width="800">]
---
class: middle
### Resultados
.center[<img src=img/boxplot.png width="800">]

---
class: inverse,middle

## Aprendizado Supervisionado

---
class: middle
.pull-left[

### Regressão

- Quantidade de Vendas
- Porcentagem 
- Preço
- Peso

]
.pul-right[

### Classificação

- Bom pagador/não é bom pagador
- Diagnóstico de alguma doença/sem doença
- Pixels em imagem é cancerígeno/não é cancerígeno
- Sentimento bom/sentimento ruim

]

---
class: middle
### Aprendizado Supervisionado

Em tese, queremos encontrar uma função `$f()$` de forma que `$y\approx f(x)$`. Exemplos :

- ___Exemplo 1___: Queremos prever a quantidade de vendas de um produto X baseado em qual mídia ele foi divulgado e qual foi o investimento sobre o mesmo.

- ___Exemplo 2___: Queremos classificar se uma pessoa vai ou não atrasar uma parcela baseado no tipo de contrato que ela fez e o valor da parcela do financiamento.

Nos exemplos:

`$vendas = f(midia, investimento)$`

`$inadimplência = f(valor da parcela, tipo de contrato)$`

Fonte: Exemplos obtidos no material do Curso-R.
---
class: middle

### Modelo de regressão linear

`$f(x) = \beta_0 + \beta_1 x_1 + \beta_2x_2$`

Fonte: [https://alykhantejani.github.io/images/gradient_descent_line_graph.gif](https://alykhantejani.github.io/images/gradient_descent_line_graph.gif)

]

---
class: middle

### Modelo de Regressão Logística

`$log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2$`

Fonte: Material Curso-R
---
class: middle

### Desempenho vs Interpretabilidade

Fonte: Material Curso-R
---
class: inverse,middle

## Conceitos

---
class: middle

### Pré-processamento dos dados

- Transformações não lineares nas variáveis preditoras (log, raiz quadrada, BoxCox)

- Tranformação em variáveis Dummy (para variáveis categóricas)

- Reamostragens

- Interações entre variáveis

- Normalização em variáveis numéricas

---
class: middle

### Treino e Teste

Fonte da imagem: MAp
---
class: middle

### Overfitting (Sobreajuste)

- Regressão Polinomial com aumento do polinômio

$$f(x)=\beta_0+\beta_1x_i+\beta_2x_i^2+\cdots+\beta_9x_i^9 $$

![scatter_eqm](static/img/overfiting_scatter_eqm.gif)
Fonte: Material Curso-R

---
class: middle

### Hiperparâmetros

- Hiperparâmetros são parâmetros de modelos que devem ser definidos antes de treinar o modelo.

- Usados para controlar o processo de aprendizado.

- Exemplos : **Random Forest**, **Redes Neurais**, **XGBoost**.

- __Grid Search__ é uma técnica usada para testar todas as combinações possíveis de hiperparâmetros.

---
class: middle

### Regularização - LASSO

- Parâmetro regularizador para controlar a complexidade do modelo, evitando o sobreajuste.

- Função de Custo do modelo de regressão linear:

`$$RMSE = \sqrt{\frac{1}{N}\sum(y_i - \hat{y_i})^2} = \sqrt{\frac{1}{N}\sum(y_i -  \color{red}{(\hat{\beta}_0 + \hat{\beta}_1x_{1i} + \dots + \hat{\beta}_px_{pi})})^2}$$`
- Penalização do modelo de regressão linear:

`$$RMSE_{regularizado} = RMSE + \color{red}{\lambda}\sum_{j = 1}^{p}|\beta_j|$$`
- Função Custo do modelo de regressão logística:

`$$D = \frac{-1}{N}\sum[y_i \log\hat{y_i} + (1 - y_i )\log(1 - \hat{y_i})]$$`
- Penalização do modelo de regressão logística:
`$$D_{regularizado} = D + \color{red}{\lambda}\sum_{j = 1}^{p}|\beta_j|$$`
---
class:middle

### Cross-validation (Validação Cruzada)

- Objetivo: encontrar o melhor conjunto de hiperparâmetros.

Fonte: ebc.cat
---
class: middle

### Validação por tempo

- __modeltime.resample__
]
.pull-right[

### Validação por espaço
<img src="img/cross_space.gif" width="90%" style="display: block; margin: auto;" />

- __spacialsample__
]
---
class: middle

## Medidas para modelos de regressão

**Métrica** de erro: **R**oot **M**ean **S**quared **E**rror.

$$
RMSE = \sqrt{\frac{1}{N}\sum(y_i - \hat{y_i})^2}
$$

MAE: Mean Absolute Error

$$
MAE = \frac{1}{N}\sum|y_i - \hat{y_i}|
$$

]

R2: R-squared

$$
R^2 = 1 - \frac{\sum(y_i - \color{salmon}{\hat{y_i}})^2}{\sum(y_i - \color{royalblue}{\bar{y}})^2}
$$
]

---
class:middle

### Medidas para modelos de classificação

### Matriz de confusão

<table class="table table-bordered" style="font-size: 20px; width: auto !important; margin-left: auto; margin-right: auto;">
 <thead>
<tr>
<th style="empty-cells: hide;border-bottom:hidden;" colspan="1"></th>
<th style="border-bottom:hidden;padding-bottom:0; padding-left:3px;padding-right:3px;text-align: center; padding-right: 4px; padding-left: 4px; background-color: white !important;" colspan="2"><div style="border-bottom: 1px solid #ddd; padding-bottom: 5px; ">Observado</div></th>
</tr>
  <tr>
   <th style="text-align:left;background-color: white !important;text-align: center;"> Predito </th>
   <th style="text-align:left;background-color: white !important;text-align: center;"> Negativo      </th>
   <th style="text-align:left;background-color: white !important;text-align: center;"> Positivo  </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;text-align: center;width: 3in; font-weight: bold;"> Negativo </td>
   <td style="text-align:left;background-color: white !important;text-align: center;width: 3in; "> Verdadeiro Negativo (TN) </td>
   <td style="text-align:left;background-color: white !important;text-align: center;width: 2in; "> Falso Negativo (FN) </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;text-align: center;width: 3in; font-weight: bold;"> Positivo </td>
   <td style="text-align:left;background-color: white !important;text-align: center;width: 3in; "> Falso Positivo (FP) </td>
   <td style="text-align:left;background-color: white !important;text-align: center;width: 2in; "> Verdadeiro Positivo (TP) </td>
  </tr>
</tbody>
</table>

### Medidas de desempenho

$$
\begin{array}{lcc}
\mbox{acurácia}  & = & \frac{TP + TN}{TP + TN + FP + FN}\\\\
\mbox{precisão} & = & \frac{TP}{TP + FP}\\\\
\mbox{sensibilidade} &=& \frac{TP}{TP + FN}\\\\
\mbox{especificidade} &=& \frac{TN}{TN + FP}\\\\
\end{array}
$$
---
class: middle

### Curva ROC e AUC

]

]
---
class: inverse,middle

### Árvores de Decisão

---
class: middle

### Árvores de Decisão

---
class: middle

### Ganho de Informação (information gain)

$$
\mbox{GI} = N . Imp(nó) - N(esq) . Imp(esq) - N(dir) . Imp(dir)
$$

### Medidas de Impureza mais comuns

Fonte: Material Curso-R

---
class: middle

### Exemplo usando o GINI

Fonte: Material Curso-R
---
class: middle

### Hiperparâmetros

- Quantidade mínima de observações dentro de um nó.

- Profundidade

- Parâmetro mínimo de complexidade (ganho de informação)

---
class: inverse, middle

### XGBoost

---
class: middle

### XGBoost (Extreme Gradient Boosting)

- Generalização do Gradient Bosting

- Combinação de várias árvores de decisão construídas sequencialmente usando a informação da árvora passada

- Utiliza o algoritmo de descida de gradiente minimizando a função perda da árvore anterior

- Poderoso computacionalmente

- Variáveis categóricas precisam ser transformas em dummy

- Trata automaticamente valores faltantes e __multicolinearidade__
---
class: middle

### Hiperparâmetros

- Quantidade mínima de observações dentro de um nó

- Profundidade

- Quantidade de variáveis sorteadas por árvore

- Número de árvores

- Tamanho do passo

- Parâmetro Regularizador (semelhante ao parâmetro de complexidade)

- Proporção de linhas para sortear por árvore

---
class: middle

### XGBoost

Fonte: Material Curso-R
---
class: inverse, middle

### Aplicação modelo XGBoost

---
class: middle

### Predição de casos de COVID-19 em gestantes e puérperas

- SIVEP-Gripe

- Casos COVID-19 vs Não COVID-19.

- Classificar casos "não especificados".

- Dados filtrados e tratados.

- Análises estatísticas para decisão das variáveis junto com a Obstetrícia.

- __{TIDYMODELS}__

---
class: middle

No <svg aria-hidden="true" role="img" viewBox="0 0 581 512" style="height:1em;width:1.13em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:#0A1E3C;overflow:visible;position:relative;"><path d="M581 226.6C581 119.1 450.9 32 290.5 32S0 119.1 0 226.6C0 322.4 103.3 402 239.4 418.1V480h99.1v-61.5c24.3-2.7 47.6-7.4 69.4-13.9L448 480h112l-67.4-113.7c54.5-35.4 88.4-84.9 88.4-139.7zm-466.8 14.5c0-73.5 98.9-133 220.8-133s211.9 40.7 211.9 133c0 50.1-26.5 85-70.3 106.4-2.4-1.6-4.7-2.9-6.4-3.7-10.2-5.2-27.8-10.5-27.8-10.5s86.6-6.4 86.6-92.7-90.6-87.9-90.6-87.9h-199V361c-74.1-21.5-125.2-67.1-125.2-119.9zm225.1 38.3v-55.6c57.8 0 87.8-6.8 87.8 27.3 0 36.5-38.2 28.3-87.8 28.3zm-.9 72.5H365c10.8 0 18.9 11.7 24 19.2-16.1 1.9-33 2.8-50.6 2.9v-22.1z"/></svg>

```r
library(tidymodels)

data <- readRDS("data.rds")

table(data$classi_fin)
```

```
## 
##  covid-19 não-covid 
##     18996      2257
```

---
class: middle

### Bases treino e teste

```r
set.seed(123)

srag_split <- initial_split(
  data, 
  prob = 0.7
)

srag_train <- training(srag_split)

srag_test <- testing(srag_split)
```

---
class: middle

### Pré-Processamento

```r
#Recipes

xgb_rec <- recipe(classi_fin ~ ., data = srag_train) %>% 
  step_normalize(idade) %>%
  themis::step_smotenc(classi_fin,seed = 69) %>% 
  step_dummy(all_nominal(), -classi_fin)  
```

- Varios tipos de step - transformações (BoxCox,polinomial,raiz quadrada), inputação pela média, reamostragens, nivelar classes de uma variável, categorizar faltantes (NA) etc..

---
class: middle

### Pré-Processamento

```r
#Recipes

xgb_rec_data <- recipe(classi_fin ~ ., data = srag_train) %>% 
  step_normalize(idade) %>%
  themis::step_smotenc(classi_fin,seed = 69) %>% 
  step_dummy(all_nominal(), -classi_fin)  %>% 
  prep() %>% 
  bake(new_data=NULL)

table(xgb_rec_data$classi_fin)
```

```{.scroll-100}
## 
##  covid-19 não-covid 
##     14250     14250
```

---
class: middle

### Especificação

```r
xgb_spec <- boost_tree(
  trees = 1000,
  tree_depth = tune(), 
  min_n = tune(), 
  loss_reduction = tune(),                     
  sample_size = tune(), 
  mtry = tune(),         
  learn_rate = tune(),                         
) %>% 
  set_engine("xgboost") %>% 
  set_mode("classification")
```

---
class: middle

### Workflow

```r
xgb_wf <- workflow() %>%
  add_recipe(xgb_rec) %>%
  add_model(xgb_spec)
```

---
class: middle

### Grid

```r
xgb_grid <- grid_max_entropy(
  tree_depth(),
  min_n(),
  loss_reduction(),
  sample_size = sample_prop(),
  finalize(mtry(), srag_train),
  learn_rate(),
  size = 30
)
```

- __grip_expand__ : você limita o espaço
]

### Cross-Validation

```r
set.seed(456)

srag_folds <- vfold_cv(
  srag_train, 
  v = 10,
  repeats = 5
)  
```

]

---
class: middle

### Tunning

```r
xgb_metrics <- metric_set(roc_auc, sensitivity, specificity, npv, ppv)

doParallel::registerDoParallel()

set.seed(1011)

xgb_res <- 
  xgb_wf %>% 
  tune_grid(
    resamples = srag_folds,
    grid = xgb_grid,
    metrics = xgb_metrics,
    control = control_grid(save_pred = TRUE)
  )
```

---
class: middle

pre[class] {
  max-height: 100px;
}
</style>

### Melhores Hiperparâmetros

```r
# metrics

collect_metrics(xgb_res)
```

```
## # A tibble: 150 × 12
##     mtry min_n tree_depth learn_rate loss_…¹ sampl…² .metric .esti…³  mean     n
##    <int> <int>      <int>      <dbl>   <dbl>   <dbl> <chr>   <chr>   <dbl> <int>
##  1     5    29         11    7.38e-9 1.05e-5   0.731 npv     binary  0.436    50
##  2     5    29         11    7.38e-9 1.05e-5   0.731 ppv     binary  0.962    50
##  3     5    29         11    7.38e-9 1.05e-5   0.731 roc_auc binary  0.881    50
##  4     5    29         11    7.38e-9 1.05e-5   0.731 sensit… binary  0.892    50
##  5     5    29         11    7.38e-9 1.05e-5   0.731 specif… binary  0.704    50
##  6     2    20          3    3.75e-4 2.24e-4   0.210 npv     binary  0.330    50
##  7     2    20          3    3.75e-4 2.24e-4   0.210 ppv     binary  0.957    50
##  8     2    20          3    3.75e-4 2.24e-4   0.210 roc_auc binary  0.851    50
##  9     2    20          3    3.75e-4 2.24e-4   0.210 sensit… binary  0.835    50
## 10     2    20          3    3.75e-4 2.24e-4   0.210 specif… binary  0.686    50
## # … with 140 more rows, 2 more variables: std_err <dbl>, .config <chr>, and
## #   abbreviated variable names ¹loss_reduction, ²sample_size, ³.estimator
## # ℹ Use `print(n = ...)` to see more rows, and `colnames()` to see all variable names
```

---
class: middle

### Melhores Hiperparâmetros

```r
# best hyperparameters

show_best(xgb_res, "roc_auc")
```

```
## # A tibble: 5 × 12
##    mtry min_n tree_depth  learn_rate loss_…¹ sampl…² .metric .esti…³  mean     n
##   <int> <int>      <int>       <dbl>   <dbl>   <dbl> <chr>   <chr>   <dbl> <int>
## 1    10    29         12     1.31e-2 2.40e-1   0.743 roc_auc binary  0.891    50
## 2     4    31         14     2.61e-3 1.27e-5   0.680 roc_auc binary  0.891    50
## 3     3    38          7     4.71e-3 3.31e-9   0.513 roc_auc binary  0.890    50
## 4     8     2         10     3.41e-8 2.18e-8   0.499 roc_auc binary  0.890    50
## 5     6    18          7     1.43e-3 9.12e-5   0.818 roc_auc binary  0.890    50
## # … with 2 more variables: std_err <dbl>, .config <chr>, and abbreviated
## #   variable names ¹loss_reduction, ²sample_size, ³.estimator
## # ℹ Use `colnames()` to see all variable names
```

---
class: middle

### Melhores Hiperparâmetros

```r
# best auc

best_auc <- select_best(xgb_res, "roc_auc"); best_auc  
```

```
## # A tibble: 1 × 7
##    mtry min_n tree_depth learn_rate loss_reduction sample_size .config          
##   <int> <int>      <int>      <dbl>          <dbl>       <dbl> <chr>            
## 1    10    29         12     0.0131          0.240       0.743 Preprocessor1_Mo…
```

---
class: middle

### Finalização do Modelo

```r
# Best model --------------

final_xgb <- finalize_workflow(
  xgb_wf,
  best_auc
)

# Final fit model ---------

final_fit <- last_fit(
  final_xgb, 
  srag_split,
)

collect_metrics(final_fit)
```

```
## # A tibble: 2 × 4
##   .metric  .estimator .estimate .config             
##   <chr>    <chr>          <dbl> <chr>               
## 1 accuracy binary         0.906 Preprocessor1_Model1
## 2 roc_auc  binary         0.886 Preprocessor1_Model1
```

---
class: middle

### Gráfico importância das variáveis

```r
library(vip)
### Gráfico de pontos
final_xgb %>%
  fit(data = srag_train) %>%
  pull_workflow_fit() %>%
  vip(geom = "point")
```

<img src="machine_learning_files/figure-html/unnamed-chunk-39-1.png" width="100%" />
]

---
class: middle

### Gráfico importância das variáveis

```r
final_fit %>%  
  pluck(".workflow",1) %>% 
  pull_workflow_fit() %>% 
  vip::vip(num_features=20)
```

---
class: middle

### Curva ROc

```r
final_fit %>% 
  collect_predictions() %>% 
  roc_curve(classi_fin,`.pred_covid-19`) %>% 
  autoplot()
```

---
class: middle

### Matriz de confusão

```r
conf_mat(
  data = final_fit$.predictions[[1]],
  truth = classi_fin,
  estimate = .pred_class
) %>% 
  autoplot(type = "heatmap")
```

<img src="machine_learning_files/figure-html/unnamed-chunk-42-1.png" width="100%" height="120%" />
---

### Medidas de desempenho

```r
library(gt)
preds <- final_fit %>% 
  collect_predictions()

summary(conf_mat(preds, classi_fin, .pred_class)) %>%
  dplyr::select(-.estimator) %>%
  gt() %>% 
  fmt_number(columns = 2, decimals = 4)
```
]
.pull-right[
<div id="cgmhtfidtm" style="overflow-x:auto;overflow-y:auto;width:auto;height:auto;">
<style>html {
  font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen, Ubuntu, Cantarell, 'Helvetica Neue', 'Fira Sans', 'Droid Sans', Arial, sans-serif;
}

#cgmhtfidtm .gt_table {
  display: table;
  border-collapse: collapse;
  margin-left: auto;
  margin-right: auto;
  color: #333333;
  font-size: 16px;
  font-weight: normal;
  font-style: normal;
  background-color: #FFFFFF;
  width: auto;
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #A8A8A8;
  border-right-style: none;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #A8A8A8;
  border-left-style: none;
  border-left-width: 2px;
  border-left-color: #D3D3D3;
}

#cgmhtfidtm .gt_heading {
  background-color: #FFFFFF;
  text-align: center;
  border-bottom-color: #FFFFFF;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
}

#cgmhtfidtm .gt_title {
  color: #333333;
  font-size: 125%;
  font-weight: initial;
  padding-top: 4px;
  padding-bottom: 4px;
  padding-left: 5px;
  padding-right: 5px;
  border-bottom-color: #FFFFFF;
  border-bottom-width: 0;
}

#cgmhtfidtm .gt_subtitle {
  color: #333333;
  font-size: 85%;
  font-weight: initial;
  padding-top: 0;
  padding-bottom: 6px;
  padding-left: 5px;
  padding-right: 5px;
  border-top-color: #FFFFFF;
  border-top-width: 0;
}

#cgmhtfidtm .gt_bottom_border {
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
}

#cgmhtfidtm .gt_col_headings {
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
}

#cgmhtfidtm .gt_col_heading {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: normal;
  text-transform: inherit;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
  vertical-align: bottom;
  padding-top: 5px;
  padding-bottom: 6px;
  padding-left: 5px;
  padding-right: 5px;
  overflow-x: hidden;
}

#cgmhtfidtm .gt_column_spanner_outer {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: normal;
  text-transform: inherit;
  padding-top: 0;
  padding-bottom: 0;
  padding-left: 4px;
  padding-right: 4px;
}

#cgmhtfidtm .gt_column_spanner_outer:first-child {
  padding-left: 0;
}

#cgmhtfidtm .gt_column_spanner_outer:last-child {
  padding-right: 0;
}

#cgmhtfidtm .gt_column_spanner {
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  vertical-align: bottom;
  padding-top: 5px;
  padding-bottom: 5px;
  overflow-x: hidden;
  display: inline-block;
  width: 100%;
}

#cgmhtfidtm .gt_group_heading {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  text-transform: inherit;
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
  vertical-align: middle;
}

#cgmhtfidtm .gt_empty_group_heading {
  padding: 0.5px;
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  vertical-align: middle;
}

#cgmhtfidtm .gt_from_md > :first-child {
  margin-top: 0;
}

#cgmhtfidtm .gt_from_md > :last-child {
  margin-bottom: 0;
}

#cgmhtfidtm .gt_row {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  margin: 10px;
  border-top-style: solid;
  border-top-width: 1px;
  border-top-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
  vertical-align: middle;
  overflow-x: hidden;
}

#cgmhtfidtm .gt_stub {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  text-transform: inherit;
  border-right-style: solid;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
  padding-left: 5px;
  padding-right: 5px;
}

#cgmhtfidtm .gt_stub_row_group {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  text-transform: inherit;
  border-right-style: solid;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
  padding-left: 5px;
  padding-right: 5px;
  vertical-align: top;
}

#cgmhtfidtm .gt_row_group_first td {
  border-top-width: 2px;
}

#cgmhtfidtm .gt_summary_row {
  color: #333333;
  background-color: #FFFFFF;
  text-transform: inherit;
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
}

#cgmhtfidtm .gt_first_summary_row {
  border-top-style: solid;
  border-top-color: #D3D3D3;
}

#cgmhtfidtm .gt_first_summary_row.thick {
  border-top-width: 2px;
}

#cgmhtfidtm .gt_last_summary_row {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
}

#cgmhtfidtm .gt_grand_summary_row {
  color: #333333;
  background-color: #FFFFFF;
  text-transform: inherit;
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
}

#cgmhtfidtm .gt_first_grand_summary_row {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  border-top-style: double;
  border-top-width: 6px;
  border-top-color: #D3D3D3;
}

#cgmhtfidtm .gt_striped {
  background-color: rgba(128, 128, 128, 0.05);
}

#cgmhtfidtm .gt_table_body {
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
}

#cgmhtfidtm .gt_footnotes {
  color: #333333;
  background-color: #FFFFFF;
  border-bottom-style: none;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 2px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
}

#cgmhtfidtm .gt_footnote {
  margin: 0px;
  font-size: 90%;
  padding-left: 4px;
  padding-right: 4px;
  padding-left: 5px;
  padding-right: 5px;
}

#cgmhtfidtm .gt_sourcenotes {
  color: #333333;
  background-color: #FFFFFF;
  border-bottom-style: none;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 2px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
}

#cgmhtfidtm .gt_sourcenote {
  font-size: 90%;
  padding-top: 4px;
  padding-bottom: 4px;
  padding-left: 5px;
  padding-right: 5px;
}

#cgmhtfidtm .gt_left {
  text-align: left;
}

#cgmhtfidtm .gt_center {
  text-align: center;
}

#cgmhtfidtm .gt_right {
  text-align: right;
  font-variant-numeric: tabular-nums;
}

#cgmhtfidtm .gt_font_normal {
  font-weight: normal;
}

#cgmhtfidtm .gt_font_bold {
  font-weight: bold;
}

#cgmhtfidtm .gt_font_italic {
  font-style: italic;
}

#cgmhtfidtm .gt_super {
  font-size: 65%;
}

#cgmhtfidtm .gt_two_val_uncert {
  display: inline-block;
  line-height: 1em;
  text-align: right;
  font-size: 60%;
  vertical-align: -0.25em;
  margin-left: 0.1em;
}

#cgmhtfidtm .gt_footnote_marks {
  font-style: italic;
  font-weight: normal;
  font-size: 75%;
  vertical-align: 0.4em;
}

#cgmhtfidtm .gt_asterisk {
  font-size: 100%;
  vertical-align: 0;
}

#cgmhtfidtm .gt_slash_mark {
  font-size: 0.7em;
  line-height: 0.7em;
  vertical-align: 0.15em;
}

#cgmhtfidtm .gt_fraction_numerator {
  font-size: 0.6em;
  line-height: 0.6em;
  vertical-align: 0.45em;
}

#cgmhtfidtm .gt_fraction_denominator {
  font-size: 0.6em;
  line-height: 0.6em;
  vertical-align: -0.05em;
}
</style>
<table class="gt_table">
  
  <thead class="gt_col_headings">
    <tr>
      <th class="gt_col_heading gt_columns_bottom_border gt_left" rowspan="1" colspan="1">.metric</th>
      <th class="gt_col_heading gt_columns_bottom_border gt_right" rowspan="1" colspan="1">.estimate</th>
    </tr>
  </thead>
  <tbody class="gt_table_body">
    <tr><td class="gt_row gt_left">accuracy</td>
<td class="gt_row gt_right">0.9061</td></tr>
    <tr><td class="gt_row gt_left">kap</td>
<td class="gt_row gt_right">0.5627</td></tr>
    <tr><td class="gt_row gt_left">sens</td>
<td class="gt_row gt_right">0.9305</td></tr>
    <tr><td class="gt_row gt_left">spec</td>
<td class="gt_row gt_right">0.7025</td></tr>
    <tr><td class="gt_row gt_left">ppv</td>
<td class="gt_row gt_right">0.9631</td></tr>
    <tr><td class="gt_row gt_left">npv</td>
<td class="gt_row gt_right">0.5473</td></tr>
    <tr><td class="gt_row gt_left">mcc</td>
<td class="gt_row gt_right">0.5684</td></tr>
    <tr><td class="gt_row gt_left">j_index</td>
<td class="gt_row gt_right">0.6329</td></tr>
    <tr><td class="gt_row gt_left">bal_accuracy</td>
<td class="gt_row gt_right">0.8165</td></tr>
    <tr><td class="gt_row gt_left">detection_prevalence</td>
<td class="gt_row gt_right">0.8628</td></tr>
    <tr><td class="gt_row gt_left">precision</td>
<td class="gt_row gt_right">0.9631</td></tr>
    <tr><td class="gt_row gt_left">recall</td>
<td class="gt_row gt_right">0.9305</td></tr>
    <tr><td class="gt_row gt_left">f_meas</td>
<td class="gt_row gt_right">0.9465</td></tr>
  </tbody>
  
  
</table>
</div>
]
---
class: middle

### Aplicação nos dados não especificados

```r
model <- final_xgb %>% fit(data)

saveRDS(model,"modelo_xgb.rds")

dados_nespecificado <- readRDS("dados_nespecificado.rds")

pred <- predict(model,dados_nespecificado)

dados_nespecificado$classi_fin_pred <- pred$.pred_class

table(dados_nespecificado$classi_fin_pred)
```

```
## 
##  covid-19 não-covid 
##     13721      4039
```

---
class: middle

### New Treshold

```r
library(probably)

thresholds <- preds %>%
  threshold_perf(classi_fin, `.pred_covid-19`, thresholds = seq(0, 1, by = 0.0025))

best_thresh <- thresholds %>%
  filter(.metric == "j_index") %>%
  filter(.estimate == max(.estimate)) %>%
  pull(.threshold) %>%
  max()

classes <- levels(preds$.pred_class)

preds_new <- preds %>%
  mutate(.new_pred_class = as.factor(ifelse(`.pred_covid-19` >= best_thresh,classes[1],classes[2]),
                                  levels = c("covid-19", "não-covid")))

final_fit$.predictions[[1]]$`.new_pred_class` = preds_new$.new_pred_class
```

---
class:middle

### Nova matriz de confusão

---
class:middle

####  Comparação dos dois

<div id="ghacqgpqjy" style="overflow-x:auto;overflow-y:auto;width:auto;height:auto;">
<style>html {
  font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen, Ubuntu, Cantarell, 'Helvetica Neue', 'Fira Sans', 'Droid Sans', Arial, sans-serif;
}

#ghacqgpqjy .gt_table {
  display: table;
  border-collapse: collapse;
  margin-left: auto;
  margin-right: auto;
  color: #333333;
  font-size: 16px;
  font-weight: normal;
  font-style: normal;
  background-color: #FFFFFF;
  width: auto;
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #A8A8A8;
  border-right-style: none;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #A8A8A8;
  border-left-style: none;
  border-left-width: 2px;
  border-left-color: #D3D3D3;
}

#ghacqgpqjy .gt_heading {
  background-color: #FFFFFF;
  text-align: center;
  border-bottom-color: #FFFFFF;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
}

#ghacqgpqjy .gt_title {
  color: #333333;
  font-size: 125%;
  font-weight: initial;
  padding-top: 4px;
  padding-bottom: 4px;
  padding-left: 5px;
  padding-right: 5px;
  border-bottom-color: #FFFFFF;
  border-bottom-width: 0;
}

#ghacqgpqjy .gt_subtitle {
  color: #333333;
  font-size: 85%;
  font-weight: initial;
  padding-top: 0;
  padding-bottom: 6px;
  padding-left: 5px;
  padding-right: 5px;
  border-top-color: #FFFFFF;
  border-top-width: 0;
}

#ghacqgpqjy .gt_bottom_border {
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
}

#ghacqgpqjy .gt_col_headings {
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
}

#ghacqgpqjy .gt_col_heading {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: normal;
  text-transform: inherit;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
  vertical-align: bottom;
  padding-top: 5px;
  padding-bottom: 6px;
  padding-left: 5px;
  padding-right: 5px;
  overflow-x: hidden;
}

#ghacqgpqjy .gt_column_spanner_outer {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: normal;
  text-transform: inherit;
  padding-top: 0;
  padding-bottom: 0;
  padding-left: 4px;
  padding-right: 4px;
}

#ghacqgpqjy .gt_column_spanner_outer:first-child {
  padding-left: 0;
}

#ghacqgpqjy .gt_column_spanner_outer:last-child {
  padding-right: 0;
}

#ghacqgpqjy .gt_column_spanner {
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  vertical-align: bottom;
  padding-top: 5px;
  padding-bottom: 5px;
  overflow-x: hidden;
  display: inline-block;
  width: 100%;
}

#ghacqgpqjy .gt_group_heading {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  text-transform: inherit;
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
  vertical-align: middle;
}

#ghacqgpqjy .gt_empty_group_heading {
  padding: 0.5px;
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  vertical-align: middle;
}

#ghacqgpqjy .gt_from_md > :first-child {
  margin-top: 0;
}

#ghacqgpqjy .gt_from_md > :last-child {
  margin-bottom: 0;
}

#ghacqgpqjy .gt_row {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  margin: 10px;
  border-top-style: solid;
  border-top-width: 1px;
  border-top-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 1px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 1px;
  border-right-color: #D3D3D3;
  vertical-align: middle;
  overflow-x: hidden;
}

#ghacqgpqjy .gt_stub {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  text-transform: inherit;
  border-right-style: solid;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
  padding-left: 5px;
  padding-right: 5px;
}

#ghacqgpqjy .gt_stub_row_group {
  color: #333333;
  background-color: #FFFFFF;
  font-size: 100%;
  font-weight: initial;
  text-transform: inherit;
  border-right-style: solid;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
  padding-left: 5px;
  padding-right: 5px;
  vertical-align: top;
}

#ghacqgpqjy .gt_row_group_first td {
  border-top-width: 2px;
}

#ghacqgpqjy .gt_summary_row {
  color: #333333;
  background-color: #FFFFFF;
  text-transform: inherit;
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
}

#ghacqgpqjy .gt_first_summary_row {
  border-top-style: solid;
  border-top-color: #D3D3D3;
}

#ghacqgpqjy .gt_first_summary_row.thick {
  border-top-width: 2px;
}

#ghacqgpqjy .gt_last_summary_row {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
}

#ghacqgpqjy .gt_grand_summary_row {
  color: #333333;
  background-color: #FFFFFF;
  text-transform: inherit;
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
}

#ghacqgpqjy .gt_first_grand_summary_row {
  padding-top: 8px;
  padding-bottom: 8px;
  padding-left: 5px;
  padding-right: 5px;
  border-top-style: double;
  border-top-width: 6px;
  border-top-color: #D3D3D3;
}

#ghacqgpqjy .gt_striped {
  background-color: rgba(128, 128, 128, 0.05);
}

#ghacqgpqjy .gt_table_body {
  border-top-style: solid;
  border-top-width: 2px;
  border-top-color: #D3D3D3;
  border-bottom-style: solid;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
}

#ghacqgpqjy .gt_footnotes {
  color: #333333;
  background-color: #FFFFFF;
  border-bottom-style: none;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 2px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
}

#ghacqgpqjy .gt_footnote {
  margin: 0px;
  font-size: 90%;
  padding-left: 4px;
  padding-right: 4px;
  padding-left: 5px;
  padding-right: 5px;
}

#ghacqgpqjy .gt_sourcenotes {
  color: #333333;
  background-color: #FFFFFF;
  border-bottom-style: none;
  border-bottom-width: 2px;
  border-bottom-color: #D3D3D3;
  border-left-style: none;
  border-left-width: 2px;
  border-left-color: #D3D3D3;
  border-right-style: none;
  border-right-width: 2px;
  border-right-color: #D3D3D3;
}

#ghacqgpqjy .gt_sourcenote {
  font-size: 90%;
  padding-top: 4px;
  padding-bottom: 4px;
  padding-left: 5px;
  padding-right: 5px;
}

#ghacqgpqjy .gt_left {
  text-align: left;
}

#ghacqgpqjy .gt_center {
  text-align: center;
}

#ghacqgpqjy .gt_right {
  text-align: right;
  font-variant-numeric: tabular-nums;
}

#ghacqgpqjy .gt_font_normal {
  font-weight: normal;
}

#ghacqgpqjy .gt_font_bold {
  font-weight: bold;
}

#ghacqgpqjy .gt_font_italic {
  font-style: italic;
}

#ghacqgpqjy .gt_super {
  font-size: 65%;
}

#ghacqgpqjy .gt_two_val_uncert {
  display: inline-block;
  line-height: 1em;
  text-align: right;
  font-size: 60%;
  vertical-align: -0.25em;
  margin-left: 0.1em;
}

#ghacqgpqjy .gt_footnote_marks {
  font-style: italic;
  font-weight: normal;
  font-size: 75%;
  vertical-align: 0.4em;
}

#ghacqgpqjy .gt_asterisk {
  font-size: 100%;
  vertical-align: 0;
}

#ghacqgpqjy .gt_slash_mark {
  font-size: 0.7em;
  line-height: 0.7em;
  vertical-align: 0.15em;
}

#ghacqgpqjy .gt_fraction_numerator {
  font-size: 0.6em;
  line-height: 0.6em;
  vertical-align: 0.45em;
}

#ghacqgpqjy .gt_fraction_denominator {
  font-size: 0.6em;
  line-height: 0.6em;
  vertical-align: -0.05em;
}
</style>
<table class="gt_table">
  
  <thead class="gt_col_headings">
    <tr>
      <th class="gt_col_heading gt_columns_bottom_border gt_left" rowspan="1" colspan="1">.metric</th>
      <th class="gt_col_heading gt_columns_bottom_border gt_right" rowspan="1" colspan="1">old_threshold</th>
      <th class="gt_col_heading gt_columns_bottom_border gt_right" rowspan="1" colspan="1">new_threshold</th>
    </tr>
  </thead>
  <tbody class="gt_table_body">
    <tr><td class="gt_row gt_left">accuracy</td>
<td class="gt_row gt_right">0.9061</td>
<td class="gt_row gt_right">0.8877</td></tr>
    <tr><td class="gt_row gt_left">kap</td>
<td class="gt_row gt_right">0.5627</td>
<td class="gt_row gt_right">0.5241</td></tr>
    <tr><td class="gt_row gt_left">sens</td>
<td class="gt_row gt_right">0.9305</td>
<td class="gt_row gt_right">0.9050</td></tr>
    <tr><td class="gt_row gt_left">spec</td>
<td class="gt_row gt_right">0.7025</td>
<td class="gt_row gt_right">0.7430</td></tr>
    <tr><td class="gt_row gt_left">ppv</td>
<td class="gt_row gt_right">0.9631</td>
<td class="gt_row gt_right">0.9671</td></tr>
    <tr><td class="gt_row gt_left">npv</td>
<td class="gt_row gt_right">0.5473</td>
<td class="gt_row gt_right">0.4834</td></tr>
    <tr><td class="gt_row gt_left">mcc</td>
<td class="gt_row gt_right">0.5684</td>
<td class="gt_row gt_right">0.5403</td></tr>
    <tr><td class="gt_row gt_left">j_index</td>
<td class="gt_row gt_right">0.6329</td>
<td class="gt_row gt_right">0.6479</td></tr>
    <tr><td class="gt_row gt_left">bal_accuracy</td>
<td class="gt_row gt_right">0.8165</td>
<td class="gt_row gt_right">0.8240</td></tr>
    <tr><td class="gt_row gt_left">detection_prevalence</td>
<td class="gt_row gt_right">0.8628</td>
<td class="gt_row gt_right">0.8357</td></tr>
    <tr><td class="gt_row gt_left">precision</td>
<td class="gt_row gt_right">0.9631</td>
<td class="gt_row gt_right">0.9671</td></tr>
    <tr><td class="gt_row gt_left">recall</td>
<td class="gt_row gt_right">0.9305</td>
<td class="gt_row gt_right">0.9050</td></tr>
    <tr><td class="gt_row gt_left">f_meas</td>
<td class="gt_row gt_right">0.9465</td>
<td class="gt_row gt_right">0.9350</td></tr>
  </tbody>
  
  
</table>
</div>

---
class: inverse, middle

.pull-left[
<div class="figure" style="text-align: center">
<img src="img/butantan.png" alt="Foto: OOBr no Instituto Butantan." width="100%" />
<p class="caption">Foto: OOBr no Instituto Butantan.</p>
</div>
]