Introdução


O documento a seguir detalha o passo a passo da apuração da Variação da Despesa Assistencial por Beneficiário (VDA) do ano de 2024 sobre o ano de 2023. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA e acompanhar a evolução da mesma ao longo do ano.

A VDA é um dos principais componentes do cálculo do Índice de Reajuste de Planos Individuais (IRPI), que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar. A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela Resolução Normativa - RN nº 441, de 19 de dezembro de 2018 e está detalhada no site da ANS em Espaço do Consumidor > Reajuste/Variação de mensalidade > Reajuste anual de planos individuais/familiares > Metodologia de Cálculo.

A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656/1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.

A medida de tendência central do setor de saúde suplementar é a média da VDA das operadoras ponderada pela quantidade de beneficiários do período mais recente, conforme consignada no Anexo II da RN nº 441/2018. Assim, fórmula para o cálculo da média ponderada da VDA das operadoras do setor em determinado ano é:


\[VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}\]

Onde:
i = Operadora na base de cálculo
n = Todas as operadoras na base de cálculo
p = Período de janeiro a dezembro do ano calendário
DA = Despesa assistencial em carteira própria acumulada no período
Ben = Média mensal de beneficiários em carteira própria ao longo do período


Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de despesa assistencial, quantidade de beneficiários com vínculos ativos e características das operadoras de planos de saúde. Esses conjuntos de dados podem ser acessados pelo Portal Brasileiro de Dados Abertos do Governo Federal. Os links para cada conjunto de dados utilizado neste cálculo estão disponíveis a seguir na seção de “Limpeza e Tratamento de Dados”.

# período de análise
periodo <- c(as.Date("2023-12-01"), as.Date("2024-12-01"))

# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"

Limpeza e tratamento dos dados


Operadoras


As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).

Dois conjuntos de dados estão disponíveis no Portal Brasileiro de Dados Abertos (https://dados.gov.br/dados/conjuntos-dados):

Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início (data do registro da operadora junto à ANS) e fim de operação (data do descredenciamento da operadora).

Para o cálculo da VDA no IRPI selecionam-se as operadoras médico-hospitalares e são desconsideradas

  1. Operadoras que iniciaram operação entre janeiro de 2023 e dezembro de 2024.
  2. Operadoras que tiveram registro cancelado até dezembro de 2024.
  3. Operadoras com ressalvas nas demonstrações financeiras protocoladas junto à ANS referentes a 2023 ou 2024.

O código a seguir faz a leitura dos arquivos *.csv do cadastro de operadoras ativas e canceladas, filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:

# Tabela auxiliar de cadastro das operadoras
ta.cadop <- 
  bind_rows(
    # dataset de operadoras com registro cancelado
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"
      ),
      colClasses = c(rep("character",22))
    ),
    
    # dataset de operadoras com registro ativo
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"
      ),
      colClasses = c(rep("character",20))
    )
  ) |>  
  # Formata as colunas relevantes
  rename_with(tolower) |> 
  mutate(
    across(starts_with("data_"), as_date),
    id_ops = as.integer(registro_ans),
    modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde', 
                         'Seguradora', 
                         modalidade),
    razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ") 
  ) |> 
  # Filtra apenas operadoras médico-hospitalares
  filter(modalidade %in% c('Autogestão', 
                           'Cooperativa Médica', 
                           'Filantropia',
                           'Medicina de Grupo', 
                           'Seguradora')) |>  
  # Cria campos de flag
  mutate(
    # Flag de operadoras que encerraram operações no período
    lg_cancelada = ( !is.na(data_descredenciamento) 
                     & year(data_descredenciamento) <= year(periodo[2]) ), 
    # Flag de operadoras que iniciaram operações no período
    lg_nova_ops  = ( year(data_registro_ans) >= year(periodo[1]) )
  ) |>
  # Flag de ressalvas
  left_join(
    read.csv2("../_datasets/ressalvas_2023_2024.csv") |>
      distinct(id_ops) |> 
      mutate(lg_ressalva = 1L), 
    join_by(id_ops)
  ) |> 
  mutate(lg_ressalva = ( !is.na(lg_ressalva) )) |> 
  select(
    id_ops, razao_social, modalidade, 
    lg_cancelada, lg_nova_ops, lg_ressalva
  )


contagem operadoras
Total 2.642
Canceladas 1.942
Novas 33
Com ressalva 85


Despesa Assistencial

As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das demonstrações contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS).

Todas as demonstrações contábeis publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela RN nº 528/2022, que dispõe sobre o plano de contas dos exercícios de 2023 e 2024.

O conjunto de dados Demonstrações Contábeis do 4º trimestre de 2024 pode ser acessado no Portal Brasileiro de Dados Abertos do Governo Federal. Este conjunto de dados detalha o saldo acumulado em reais ao final do trimestre nas contas contábeis de cada operadora.

O conjunto de dados do 4º trimestre de 2023 foi atualizado para contemplar as retificações feitas ao longo do ano por operadoras com ressalvas. Esta base atualizada acompanha a Nota Técnica que está publicada no site oficial da agência na página Portal ANS > Espaço do Consumidor > Reajuste > Individual ou Familiar > Metodologia de Cálculo

O código a seguir faz a leitura dos arquivos *.csv:

# Leitura das demonstrações contábeis
diops0 <- 
  rbind(
    read.csv2("../_datasets/diops_4T2023_versao_2025-03-04.csv"),
    read.csv2("../_datasets/diops_4T2024.csv") 
  ) |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  mutate(cd_conta_contabil = as.character(cd_conta_contabil)) |> 
  
  # altera data de referência para o último mês do trimestre
  mutate(id_calendar = as_date(data) + months(2)) |> 
  
  filter(
    id_calendar %in% c(periodo[1], periodo[2]), # ano 1 e ano 2
    nchar(cd_conta_contabil) == 9,              # contas contábeis de 9 dígitos
    vl_saldo_final != 0                         # exclui linhas sem saldo final
  ) |>
  
  select(
    id_ops = reg_ans, 
    cd_conta_contabil, id_calendar, 
    vl_saldo_final
  ) |> 
  
  # filtra operadoras relevantes
  inner_join(
    select(ta.cadop, id_ops), 
    join_by(id_ops)
  )


O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS:

Conta contábil Descrição Totalização
411X1XXXX Eventos/sinistros conhecidos ou avisados de assistência à saúde médico-hospitalar (+)
411X1XX8X Corresponsabilidade Assumida (-)
31171XXXX (-) Contraprestações de corresponsabilidade cedida de assistência médico-hospitalar (+)

Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria cedida a terceiros (contas contábeis redutoras de receita 31171XXXX). Valores de corresponsabilidade assumida (contas contábeis de despesa 411X1XX8X) são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).

O código a seguir totaliza a receita e despesa assistencial por trimestre, operadora e tipo de carteira:

# Receita e despesa assistencial por trimestre, operadora e tipo de carteira
diops1 <- 
  diops0 |>  
  # filtra contas contábeis relevantes para a análise
  filter( 
    # eventos/sinistros conhecidos médico-hospitalares, incluindo 
    # corresponsabilidade assumida 
    (substr(cd_conta_contabil, 1, 3) == '411' 
     & substr(cd_conta_contabil, 5, 5) == '1')
    
    # receita de contraprestações médico-hospitalares e 
    # corresponsabilidade cedida médico-hospitalar (redutor de receita)
    | (substr(cd_conta_contabil, 1, 5) == '31111' 
       | substr(cd_conta_contabil, 1, 5) == '31171')
  ) |> 
  
  # Agrupa as contas contábeis em três categorias
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4'     ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida',
      .default =  'EXCLUIR'), 
  ) |>
  
  # Totaliza por operadora, conta contábil e período
  summarise(
    vl_saldo_final = sum(vl_saldo_final), 
    .by = -vl_saldo_final
  ) |>  
  
  # Separa os saldos em colunas por categoria
  pivot_wider(
    names_from = gr_cc, 
    values_from = vl_saldo_final, 
    values_fill = 0
  ) |> 
  
  # identifica atributos de carteira pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'              ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      .default =  'EXCLUIR'
    ), 
    
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'          ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      .default =  'EXCLUIR'
    ), 
    
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pré',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós',
      .default =  'EXCLUIR'
    ), 
  ) |> 
  
  # Exclui corr assumida e inclui corr cedida na despesa (trocando o sinal)
  filter(vigencia != 'corr_assumida') |>     
  mutate(despesa = eventos - corr_cedida) |>
  
  summarise(
    receita = sum(receita), 
    despesa = sum(despesa), 
    .by = c(id_ops, vigencia, contratacao, financiamento, id_calendar)
  )


Resumo
ano Operadoras Receita (R$bn) Despesa (R$bn)
2023 642 272,8 231,4
2024 625 305,1 248,6


Filtra planos novos (posteriores à Lei) com formação de preço preestabelecida e totaliza por período, operadora e tipo de plano:

# Receita e despesa assistencial de planos novos com formação de preço pré
diops <- 
  diops1 |> 
  mutate(
    ano = as.integer(year(id_calendar)), 
    .after=contratacao
  ) |> 
  select(-id_calendar) |> 
  filter( 
    vigencia      == 'P',   # Planos novos (posteriores à Lei)
    financiamento == 'Pré', # Formação de preço preestabelecida
  ) |> 
  select(-vigencia, -financiamento) |> 
  
  # Filtra operadoras de interesse
  inner_join(select(ta.cadop, id_ops),  join_by(id_ops)) |> 
  
  # Flag de operadoras que não têm dados válidos de despesa
  mutate(
    lg_excl_despesa = sum(despesa>0) != 2, 
    .by = c(id_ops, contratacao), 
    .after=ano
  )


Resumo (R$ bilhões)
Apenas operadoras com dados de despesa nos 2 anos
ano operadoras receita despesa
Adesão
2023 436 32,7 28,4
2024 436 35,8 30,4
Empresarial
2023 512 160,4 132,0
2024 512 188,7 147,6
Individual
2023 443 50,6 40,9
2024 443 56,6 46,1
Total
2023 570 243,7 201,3
2024 570 281,1 224,1


Beneficiários (semi-aditivo)

As informações de vínculos ativos de beneficiários são obtidas através do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente.

A base de dados do SIB referente aos anos de 2023 e 2024 pode ser acessada no Portal Brasileiro de Dados Abertos do Governo Federal, conjunto de dados Beneficiários por operadora e tipo de carteira para cálculo da VDA. Este conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.

O código a seguir faz a leitura dos arquivos publicados no portal de dados abertos:

# Leitura da base de beneficiários
sib0 <- 
  read.csv2("../_datasets/Beneficiarios_operadora_e_carteira.csv") |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops        = cd_operadora, 
    vigencia      = vigencia_plano, 
    contratacao   = gr_contratacao, 
    financiamento = tipo_financiamento,
    benef         = nr_benef
  ) |> 
  mutate(
    id_calendar = make_date(as.integer(mes/100),
                            mes - (as.integer(mes/100)) * 100,
                            01),
    
    contratacao = case_when(
      contratacao == 'Coletivo empresarial'   ~ 'Empresarial',
      contratacao == 'Coletivo por adesão'    ~ 'Adesão',
      contratacao == 'Individual ou familiar' ~ 'Individual',
      .default = contratacao
    )
  ) |> 
  
  filter(
    # Filtra período de análise
    id_calendar > (periodo[1] - years(1)), id_calendar <= periodo[2],
    
    # Exclui zeros e nulos
    benef != 0 & !is.na(benef),

    # Filtra planos de interesse para a análise
    cobertura == "Médico-hospitalar",
    vigencia == 'P',                     # planos novos (posteriores à Lei)
    financiamento != 'Pós-estabelecido', # com formação de preço pré
    contratacao %in% c('Empresarial',
                       'Individual',
                       'Adesão')
  ) |> 
  
  # filtra operadoras médico-hospitalares
  inner_join(select(ta.cadop,id_ops), join_by(id_ops)) |> 
  
  # Totaliza por operadora, tipo de contratação e mês
  summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) |> 
  
  arrange(id_ops, contratacao, id_calendar)


Calcula a média de beneficiários no ano por operadora e tipo de contratação e exclui operadoras que não tenham uma sequência ininterrupta de beneficiários nos 24 meses:

# Calcula média de beneficiários por ano, operadora e tipo de contratação e
# filtra operadoras que têm sequência ininterrupta de 24 meses
sib <- 
  sib0 |> 
  mutate(ano = as.integer(year(id_calendar))) |> 
  select(-id_calendar) |> 
  
  # Flag de operadoras que não tiveram sequência ininterrupta de 24 meses
  mutate(
    lg_excl_benef = n()!=24, 
    .by=c(id_ops, contratacao)
  ) |> 
  
  # Calcula a média dos últimos 12 meses por operadora, contratacao e ano
  summarise(
    benefm = sum(benef, na.rm=T)/12,
    .by = c(id_ops, contratacao, ano, lg_excl_benef)
  )


Beneficiários
Totais agregados, média mensal
ano Operadoras beneficiarios
Adesão
2023 467 4.579.048
2024 467 4.440.036
Empresarial
2023 539 30.139.017
2024 539 31.223.407
Individual
2023 457 7.693.243
2024 457 7.823.636
Total
2023 597 42.411.308
2024 597 43.487.079
Nota: Apenas operadoras com sequência de beneficiários nos 24 meses



Cálculo da VDA


Despesa por Beneficiário

Esta seção gera a base de despesa assistencial e beneficiários e calcula a despesa por beneficiário.

A despesa por beneficiário é a média mensal da despesa assistencial da carteira própria de uma operadora incorrida no ano, dividida pela média de vínculos ativos de beneficiários ao longo do ano. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.

A base de cálculo da VDA considera apenas:

  • Operadoras sem ressalvas com registro ativo nos dois anos

  • Observações que apresentam valor positivo de despesa nos dois anos

  • Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários nos dois anos

O código a seguir calcula a Despesa Mensal por Beneficiário:

# Calcula a despesa mensal por beneficiário
df.vda0 <- 
  inner_join(
    diops |> 
      filter(!lg_excl_despesa) |> 
      select(-receita, -lg_excl_despesa), 
    
    sib |> 
      filter(!lg_excl_benef) |> 
      select(-lg_excl_benef), 
    
    join_by(id_ops, contratacao, ano)
  ) |> 
  arrange(id_ops, contratacao, ano) |> 
  
  # exclui operadoras invalidadas por qualquer motivo:
  inner_join(ta.cadop, join_by(id_ops)) |> 
  filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |> 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
  relocate(razao_social, .after = id_ops) |> 
  
  # calcula despesa mensal por beneficiário:
  mutate(
    dpb = if_else(!is.na(benefm) & benefm > 0, despesa/benefm/12, NA)
  )


Despesa mensal por beneficiário
Totais agregados, em R$ por mês
ano operadoras Despesa por
beneficiário
Adesão
2023 368 525
2024 368 567
Empresarial
2023 436 368
2024 436 395
Individual
2023 368 437
2024 368 483
Nota: Apenas operadoras com sequência de beneficiários nos
24 meses e com saldo de despesa informado nos dois anos.


Visualização gráfica da distribuição da despesa por beneficiário das operadoras.

Nota: O gráfico a seguir exclui os 5% maiores e menores valores de cada carteira para que seja possível visualizar a distribuição dos dados.


Estatísticas descritivas da despesa mensal por beneficiário das operadoras
ano mínimo q1 mediana q3 máximo média desvio iqr cv assimetria curtose
Individual
2023 4 283 380 526 53.394 586 2.788 243 476% 18,48 346,88
2024 4 320 433 579 61.279 678 3.202 259 472% 18,44 345,80
Empresarial
2023 13 168 227 318 108.782 568 5.212 150 918% 20,53 423,09
2024 0 178 250 336 13.237 382 817 158 214% 11,04 150,90
Adesão
2023 1 248 383 550 112.544 1.110 7.338 301 661% 13,28 182,98
2024 9 275 420 619 101.110 1.215 7.461 345 614% 12,60 162,66


VDA por operadora

A VDA de uma operadora é a variação da despesa por beneficiário desta operadora sobre o mesmo período do ano anterior, conforme a seguinte fórmula:

\[VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1\]

Onde:
i = Operadora na base de cálculo
p = Ano calendário anterior ao início da aplicação do IRPI
DA = Despesa assistencial em carteira própria acumulada ao fim do período
Ben = Média mensal de beneficiários em carteira própria ao longo do período


O código a seguir calcula a VDA por operadora:

# Calcula a VDA por operadora
df.vda <- 
  df.vda0 |>
  # coloca os anos em colunas
  arrange(id_ops, contratacao, ano) |> 
  mutate(ano = if_else(ano==year(periodo[1]), "ano1", "ano2")) |> 
  pivot_wider(names_from=ano, values_from=c(despesa,benefm,dpb)) |> 
  
  # calcula VDA
  mutate( vda = (dpb_ano2/dpb_ano1 - 1)*100 ) |> 
  
  # identifica valores extremos pelo critério BOXPLOT 1.5xIQR
  mutate(
    lg_outlier = 
      vda >= (quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T)) 
    | vda <= (quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T)),
    
    .by = contratacao
  )


Estatísticas descritivas da Variação da Despesa Assistencial por beneficiário das operadoras
contratacao n mínimo q1 mediana q3 máximo média desvio iqr cv assimetria curtose
Individual 368 −37,69 4,26 12,21 20,50 3.468,41 27,27 186,21 16,23 683% 17,35 314,71
Empresarial 436 −99,97 2,27 9,81 17,62 315,46 11,71 30,45 15,35 260% 2,85 27,15
Adesão 368 −72,50 0,62 10,79 25,21 4.727,03 32,50 252,49 24,59 777% 17,58 322,10



Valores extremos (outliers)
Identificados pela metodologia de intervalo interquartílico (1.5 x IQR)
contratacao operadoras outliers %
inferiores
superiores
Limite outliers Limite outliers
Individual 368 38 10,3% −20,1 12 44,8 26
Empresarial 436 47 10,8% −20,8 22 40,6 25
Adesão 368 39 10,6% −36,3 8 62,1 31


VDA do setor

A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores extremos.



Base de cálculo

Gera uma base completa que reúne todas as observações dos dois anos e o cálculo da VDA para gravar.

# Base completa que reúne todas as operadoras dos dois anos
df.reunida <-  
  full_join(
    sib |> 
      mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
             lg_excl_benef = if_else(lg_excl_benef,1L,0L)) |> 
      pivot_wider(
        names_from = ano, 
        values_from = benefm, 
        values_fill = 0, names_prefix = "ben_"), 
    
    diops |> 
      mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
             lg_excl_despesa = if_else(lg_excl_despesa,1L,0L)) |> 
      pivot_wider(
        names_from = ano, 
        values_from = c(despesa, receita), 
        values_fill=0
      ), 
    join_by(id_ops, contratacao)
  ) |> 
  
  mutate(
    # Calcula despesa por beneficiário nos dois anos
    dpb_ano1 = if_else(despesa_ano1 > 0 & ben_ano1 > 0, 
                       despesa_ano1/ben_ano1/12, 
                       NA),
    dpb_ano2 = if_else(despesa_ano2 > 0 & ben_ano2 > 0, 
                       despesa_ano2/ben_ano2/12, 
                       NA),
  ) |> 
  
  # Inclui flags de operadoras excluídas por outros motivos
  inner_join(ta.cadop, join_by(id_ops)) |> 
  
  full_join(
    df.vda |> 
      select(id_ops, contratacao, lg_outlier, vda) |> 
      mutate(lg_outlier = if_else(lg_outlier, 1L, 0L)), 
    
    join_by(id_ops, contratacao)
  ) |> 
  
  select(
    id_ops, razao_social, modalidade, 
    contratacao, 
    starts_with('lg_'), 
    starts_with('receita'), starts_with('despesa'), starts_with('ben'), 
    everything()
  ) |> 
  
  mutate(
    # Se a variável estiver zerada, transforma em vazio
    across(receita_ano1:ben_ano2, ~na_if(.x, 0)),
    # Se o flag de exclusão estiver vazio, marca como exclusão
    across(lg_excl_benef:lg_ressalva, ~coalesce(.x, 1L)),
  ) |> 
  # Exclui observações que não tenham nem informação de despesa nem 
  # de beneficiários da base
  filter( 
    !(is.na(despesa_ano1) 
      & is.na(despesa_ano2) 
      & is.na(ben_ano1) 
      & is.na(ben_ano2)) 
  )


Representatividade de base de cálculo da VDA (após exclusões por dados incompletos, ressalva, início de operação ou cancelamento de registro) sobre as bases extraídas dos sistemas de origem.


Representatividade da amostra - Beneficiários
contratacao Beneficiários Beneficiários VDA %
Individual 7.940.709 6.985.182 88,0%
Empresarial 31.470.735 27.389.476 87,0%
Adesão 4.666.094 3.907.698 83,7%

Apêndice A: Glossário

Beneficiário: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.

Contratante: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.

Operadora: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.

Plano Privado de Assistência à Saúde: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.

Tipo de contratação:

  • Individual ou Familiar, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar

  • Coletivo empresarial, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária

  • Coletivo por adesão, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)

Tipo de financiamento:

  • Preestabelecido, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.

  • Pós-estabelecido, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.



Apêndice B: Programação R

Pacotes e ambiente de programação:

## R version 4.4.2 (2024-10-31 ucrt)
## Platform: x86_64-w64-mingw32/x64
## Running under: Windows 11 x64 (build 26100)
## 
## Matrix products: default
## 
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] gt_1.0.0        lubridate_1.9.4 forcats_1.0.0   stringr_1.5.1  
##  [5] dplyr_1.1.4     purrr_1.0.4     readr_2.1.5     tidyr_1.3.1    
##  [9] tibble_3.2.1    ggplot2_3.5.2   tidyverse_2.0.0
## 
## loaded via a namespace (and not attached):
##  [1] gld_2.6.7          gtable_0.3.6       xfun_0.52          bslib_0.9.0       
##  [5] lattice_0.22-7     tzdb_0.5.0         vctrs_0.6.5        tools_4.4.2       
##  [9] generics_0.1.3     proxy_0.4-27       pkgconfig_2.0.3    Matrix_1.7-3      
## [13] data.table_1.17.0  RColorBrewer_1.1-3 assertthat_0.2.1   readxl_1.4.5      
## [17] lifecycle_1.0.4    rootSolve_1.8.2.4  compiler_4.4.2     farver_2.1.2      
## [21] Exact_3.3          munsell_0.5.1      litedown_0.7       htmltools_0.5.8.1 
## [25] DescTools_0.99.60  class_7.3-23       sass_0.4.9         yaml_2.3.10       
## [29] pillar_1.10.2      jquerylib_0.1.4    MASS_7.3-65        cachem_1.1.0      
## [33] boot_1.3-31        commonmark_1.9.5   tidyselect_1.2.1   digest_0.6.37     
## [37] mvtnorm_1.3-3      stringi_1.8.7      arrow_19.0.1.1     labeling_0.4.3    
## [41] fastmap_1.2.0      grid_4.4.2         colorspace_2.1-1   lmom_3.2          
## [45] expm_1.0-0         cli_3.6.4          magrittr_2.0.3     e1071_1.7-16      
## [49] withr_3.0.2        scales_1.3.0       bit64_4.6.0-1      timechange_0.3.0  
## [53] httr_1.4.7         rmarkdown_2.29     bit_4.6.0          cellranger_1.1.0  
## [57] hms_1.1.3          evaluate_1.0.3     haven_2.5.4        knitr_1.50        
## [61] markdown_2.0       rlang_1.1.6        Rcpp_1.0.14        glue_1.8.0        
## [65] xml2_1.3.8         rstudioapi_0.17.1  jsonlite_2.0.0     R6_2.6.1          
## [69] fs_1.6.5


Programação completa em linguagem R:

# período de análise
periodo <- c(as.Date("2023-12-01"), as.Date("2024-12-01"))

# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"

# Tabela auxiliar de cadastro das operadoras
ta.cadop <- 
  bind_rows(
    # dataset de operadoras com registro cancelado
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"
      ),
      colClasses = c(rep("character",22))
    ),
    
    # dataset de operadoras com registro ativo
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"
      ),
      colClasses = c(rep("character",20))
    )
  ) |>  
  # Formata as colunas relevantes
  rename_with(tolower) |> 
  mutate(
    across(starts_with("data_"), as_date),
    id_ops = as.integer(registro_ans),
    modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde', 
                         'Seguradora', 
                         modalidade),
    razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ") 
  ) |> 
  # Filtra apenas operadoras médico-hospitalares
  filter(modalidade %in% c('Autogestão', 
                           'Cooperativa Médica', 
                           'Filantropia',
                           'Medicina de Grupo', 
                           'Seguradora')) |>  
  # Cria campos de flag
  mutate(
    # Flag de operadoras que encerraram operações no período
    lg_cancelada = ( !is.na(data_descredenciamento) 
                     & year(data_descredenciamento) <= year(periodo[2]) ), 
    # Flag de operadoras que iniciaram operações no período
    lg_nova_ops  = ( year(data_registro_ans) >= year(periodo[1]) )
  ) |>
  # Flag de ressalvas
  left_join(
    read.csv2("../_datasets/ressalvas_2023_2024.csv") |>
      distinct(id_ops) |> 
      mutate(lg_ressalva = 1L), 
    join_by(id_ops)
  ) |> 
  mutate(lg_ressalva = ( !is.na(lg_ressalva) )) |> 
  select(
    id_ops, razao_social, modalidade, 
    lg_cancelada, lg_nova_ops, lg_ressalva
  )

ta.cadop |> 
  summarise(
    "Total"        = n_distinct(id_ops),
    "Canceladas"   = sum(lg_cancelada),
    "Novas"        = sum(lg_nova_ops),
    "Com ressalva" = sum(lg_ressalva)
  ) |> 
  pivot_longer(
    everything(), 
    names_to = "contagem", 
    values_to = "operadoras"
  ) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_integer("operadoras") |> 
  gtTabOptions()

# Leitura das demonstrações contábeis
diops0 <- 
  rbind(
    read.csv2("../_datasets/diops_4T2023_versao_2025-03-04.csv"),
    read.csv2("../_datasets/diops_4T2024.csv") 
  ) |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  mutate(cd_conta_contabil = as.character(cd_conta_contabil)) |> 
  
  # altera data de referência para o último mês do trimestre
  mutate(id_calendar = as_date(data) + months(2)) |> 
  
  filter(
    id_calendar %in% c(periodo[1], periodo[2]), # ano 1 e ano 2
    nchar(cd_conta_contabil) == 9,              # contas contábeis de 9 dígitos
    vl_saldo_final != 0                         # exclui linhas sem saldo final
  ) |>
  
  select(
    id_ops = reg_ans, 
    cd_conta_contabil, id_calendar, 
    vl_saldo_final
  ) |> 
  
  # filtra operadoras relevantes
  inner_join(
    select(ta.cadop, id_ops), 
    join_by(id_ops)
  )

# Receita e despesa assistencial por trimestre, operadora e tipo de carteira
diops1 <- 
  diops0 |>  
  # filtra contas contábeis relevantes para a análise
  filter( 
    # eventos/sinistros conhecidos médico-hospitalares, incluindo 
    # corresponsabilidade assumida 
    (substr(cd_conta_contabil, 1, 3) == '411' 
     & substr(cd_conta_contabil, 5, 5) == '1')
    
    # receita de contraprestações médico-hospitalares e 
    # corresponsabilidade cedida médico-hospitalar (redutor de receita)
    | (substr(cd_conta_contabil, 1, 5) == '31111' 
       | substr(cd_conta_contabil, 1, 5) == '31171')
  ) |> 
  
  # Agrupa as contas contábeis em três categorias
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4'     ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida',
      .default =  'EXCLUIR'), 
  ) |>
  
  # Totaliza por operadora, conta contábil e período
  summarise(
    vl_saldo_final = sum(vl_saldo_final), 
    .by = -vl_saldo_final
  ) |>  
  
  # Separa os saldos em colunas por categoria
  pivot_wider(
    names_from = gr_cc, 
    values_from = vl_saldo_final, 
    values_fill = 0
  ) |> 
  
  # identifica atributos de carteira pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'              ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      .default =  'EXCLUIR'
    ), 
    
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'          ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      .default =  'EXCLUIR'
    ), 
    
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pré',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós',
      .default =  'EXCLUIR'
    ), 
  ) |> 
  
  # Exclui corr assumida e inclui corr cedida na despesa (trocando o sinal)
  filter(vigencia != 'corr_assumida') |>     
  mutate(despesa = eventos - corr_cedida) |>
  
  summarise(
    receita = sum(receita), 
    despesa = sum(despesa), 
    .by = c(id_ops, vigencia, contratacao, financiamento, id_calendar)
  )

diops1 |> 
  mutate(ano = year(id_calendar)) |> 
  summarise(
    Operadoras = n_distinct(id_ops), 
    "Receita (R$bn)" = sum(receita, na.rm = T), 
    "Despesa (R$bn)" = sum(despesa, na.rm = T), 
    .by = ano
  ) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_integer(Operadoras) |> 
  fmt_number(3:4, decimals=1, scale_by=1/1e9) |> 
  gtTabOptions() |> 
  tab_header(title=md("**Resumo**"))

# Receita e despesa assistencial de planos novos com formação de preço pré
diops <- 
  diops1 |> 
  mutate(
    ano = as.integer(year(id_calendar)), 
    .after=contratacao
  ) |> 
  select(-id_calendar) |> 
  filter( 
    vigencia      == 'P',   # Planos novos (posteriores à Lei)
    financiamento == 'Pré', # Formação de preço preestabelecida
  ) |> 
  select(-vigencia, -financiamento) |> 
  
  # Filtra operadoras de interesse
  inner_join(select(ta.cadop, id_ops),  join_by(id_ops)) |> 
  
  # Flag de operadoras que não têm dados válidos de despesa
  mutate(
    lg_excl_despesa = sum(despesa>0) != 2, 
    .by = c(id_ops, contratacao), 
    .after=ano
  )

rbind(
  diops |> 
    filter(!lg_excl_despesa) |> 
    summarise(
      operadoras = n_distinct(id_ops), 
              receita = sum(receita, na.rm = T), 
              despesa = sum(despesa, na.rm = T), 
              .by = c(ano, contratacao)
    ),
  
  diops |> 
    filter(!lg_excl_despesa) |> 
    summarise(
      operadoras = n_distinct(id_ops), 
              receita = sum(receita, na.rm = T), 
              despesa = sum(despesa, na.rm = T), 
              .by = c(ano)
    ) |> 
    mutate(contratacao = "Total")
) |> 
  arrange(contratacao, ano) |> group_by(contratacao) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_integer(operadoras) |> 
  fmt_number(4:5, decimals=1, scale_by=1/1e9) |> 
  gtTabOptions() |> 
  tab_header(
    title = md("**Resumo (R$ bilhões)**"),
    subtitle = "Apenas operadoras com dados de despesa nos 2 anos"
  )

rm(diops0, diops1); gc()
# Leitura da base de beneficiários
sib0 <- 
  read.csv2("../_datasets/Beneficiarios_operadora_e_carteira.csv") |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops        = cd_operadora, 
    vigencia      = vigencia_plano, 
    contratacao   = gr_contratacao, 
    financiamento = tipo_financiamento,
    benef         = nr_benef
  ) |> 
  mutate(
    id_calendar = make_date(as.integer(mes/100),
                            mes - (as.integer(mes/100)) * 100,
                            01),
    
    contratacao = case_when(
      contratacao == 'Coletivo empresarial'   ~ 'Empresarial',
      contratacao == 'Coletivo por adesão'    ~ 'Adesão',
      contratacao == 'Individual ou familiar' ~ 'Individual',
      .default = contratacao
    )
  ) |> 
  
  filter(
    # Filtra período de análise
    id_calendar > (periodo[1] - years(1)), id_calendar <= periodo[2],
    
    # Exclui zeros e nulos
    benef != 0 & !is.na(benef),

    # Filtra planos de interesse para a análise
    cobertura == "Médico-hospitalar",
    vigencia == 'P',                     # planos novos (posteriores à Lei)
    financiamento != 'Pós-estabelecido', # com formação de preço pré
    contratacao %in% c('Empresarial',
                       'Individual',
                       'Adesão')
  ) |> 
  
  # filtra operadoras médico-hospitalares
  inner_join(select(ta.cadop,id_ops), join_by(id_ops)) |> 
  
  # Totaliza por operadora, tipo de contratação e mês
  summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) |> 
  
  arrange(id_ops, contratacao, id_calendar)

# Calcula média de beneficiários por ano, operadora e tipo de contratação e
# filtra operadoras que têm sequência ininterrupta de 24 meses
sib <- 
  sib0 |> 
  mutate(ano = as.integer(year(id_calendar))) |> 
  select(-id_calendar) |> 
  
  # Flag de operadoras que não tiveram sequência ininterrupta de 24 meses
  mutate(
    lg_excl_benef = n()!=24, 
    .by=c(id_ops, contratacao)
  ) |> 
  
  # Calcula a média dos últimos 12 meses por operadora, contratacao e ano
  summarise(
    benefm = sum(benef, na.rm=T)/12,
    .by = c(id_ops, contratacao, ano, lg_excl_benef)
  )

rbind(
  sib |> 
    filter(!lg_excl_benef) |> 
    summarise(Operadoras = n_distinct(id_ops),
              beneficiarios = sum(benefm),
              .by = c(ano, contratacao)),
  
  sib |> 
    filter(!lg_excl_benef) |> 
    summarise(Operadoras = n_distinct(id_ops),
              beneficiarios = sum(benefm),
              .by = c(ano)) |> 
    mutate(contratacao="Total")
) |> 
  arrange(contratacao, ano) |> group_by(contratacao) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_integer(3:4) |> 
  gtTabOptions() |> 
  tab_header(
    title = md("**Beneficiários**"),
    subtitle = md("*Totais agregados, média mensal*")
  ) |> 
  tab_footnote(
    "Nota: Apenas operadoras com sequência de beneficiários nos 24 meses"
  )

rm(sib0); gc()
# Calcula a despesa mensal por beneficiário
df.vda0 <- 
  inner_join(
    diops |> 
      filter(!lg_excl_despesa) |> 
      select(-receita, -lg_excl_despesa), 
    
    sib |> 
      filter(!lg_excl_benef) |> 
      select(-lg_excl_benef), 
    
    join_by(id_ops, contratacao, ano)
  ) |> 
  arrange(id_ops, contratacao, ano) |> 
  
  # exclui operadoras invalidadas por qualquer motivo:
  inner_join(ta.cadop, join_by(id_ops)) |> 
  filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |> 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
  relocate(razao_social, .after = id_ops) |> 
  
  # calcula despesa mensal por beneficiário:
  mutate(
    dpb = if_else(!is.na(benefm) & benefm > 0, despesa/benefm/12, NA)
  )

df.vda0 |> 
  summarise(
    operadoras = n_distinct(id_ops),
    dpb = sum(despesa)/sum(benefm)/12,
    .by = c(ano, contratacao)
  ) |> 
  arrange(contratacao, ano) |> group_by(contratacao) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_integer(3:4) |> 
  gtTabOptions() |> 
  cols_label(
    dpb = "Despesa por<br>beneficiário",
    .fn = md
  ) |>
  tab_header(
    title = md("**Despesa mensal por beneficiário**"),
    subtitle = md("*Totais agregados, em R$ por mês*")
  ) |> 
  tab_footnote(md(paste0(
    "Nota: Apenas operadoras com sequência de beneficiários nos<br>",
    "24 meses e com saldo de despesa informado nos dois anos."
  ))
  )

df.vda0 |> 
  mutate(
    lg_outlier = (dpb > quantile(dpb,0.95)) | (dpb < quantile(dpb,0.05)),
    .by = c(ano, contratacao)
  ) |>
  mutate(
    ano = as.factor(ano),
    contratacao = factor(contratacao, levels=c("Individual",
                                               "Empresarial",
                                               "Adesão"))
  ) |> 
  filter( !lg_outlier ) |>
  ggplot(aes(x=dpb, fill=ano, color=ano, weight=benefm)) + 
  facet_wrap(~contratacao, ncol = 1, scales="free_y") +
  geom_density(alpha=.4, adjust=.5) +
  scale_color_brewer(palette="Set1") +
  scale_fill_brewer(palette="Set1") +
  scale_y_continuous(expand = expansion(mult = c(0,0.1))) +
  scale_x_continuous(
    expand = expansion(mult = c(0,0)), 
    breaks = scales::breaks_width(100)
  ) +
  theme(
    legend.position = "top",
        panel.spacing = unit(0.02, units = "npc"),
        panel.grid.major.x = element_line(linetype = "dashed")
  ) +
  labs(
    title = "Distribuição Ponderada da Despesa Mensal por Beneficiário",
    subtitle="Frequência ponderada pela quantidade de beneficiários da operadora.",
    caption = paste0(
      "Notas:\n",
      "Exclui os 5% maiores e menores valores de cada carteira.\n",
      "Estimativa Gaussiana de densidade por Kernel para função de densidade ",
      "de probabilidade."
    ),
    x = "Despesa mensal por beneficiário (R$/mês)",
    y = "Densidade"
  )

df.vda0 |> 
  summarise(
    mínimo = min(dpb),
    q1 = quantile(dpb,0.25,names = F),
    mediana = median(dpb),
    q3 = quantile(dpb,0.75,names = F),
    máximo = max(dpb),
    média = mean(dpb),
    desvio = sd(dpb),
    iqr = IQR(dpb),
    cv = sd(dpb)/`média`,
    assimetria = DescTools::Skew(dpb),
    curtose    = DescTools::Kurt(dpb),
    .by = c(contratacao, ano)
  ) |> 
  arrange(desc(contratacao), ano)|> group_by(contratacao) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_number(3:10, decimals=0) |> fmt_percent(cv, decimals=0) |> 
  fmt_number(c(assimetria, curtose), decimals=2) |> 
  gtTabOptions() |> 
  tab_header(
    title = md(paste0(
      "**Estatísticas descritivas da despesa mensal por beneficiário das ",
      "operadoras**"
    ))
  )

# Calcula a VDA por operadora
df.vda <- 
  df.vda0 |>
  # coloca os anos em colunas
  arrange(id_ops, contratacao, ano) |> 
  mutate(ano = if_else(ano==year(periodo[1]), "ano1", "ano2")) |> 
  pivot_wider(names_from=ano, values_from=c(despesa,benefm,dpb)) |> 
  
  # calcula VDA
  mutate( vda = (dpb_ano2/dpb_ano1 - 1)*100 ) |> 
  
  # identifica valores extremos pelo critério BOXPLOT 1.5xIQR
  mutate(
    lg_outlier = 
      vda >= (quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T)) 
    | vda <= (quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T)),
    
    .by = contratacao
  )

df.vda |> 
  filter(!is.na(vda)) |> 
  summarise(
    n       = n_distinct(id_ops),
    mínimo  = min(vda),
    q1      = quantile(vda,0.25, names = F),
    mediana = median(vda),
    q3      = quantile(vda,0.75, names = F),
    máximo  = max(vda),
    média   = mean(vda),
    desvio  = sd(vda),
    iqr     = IQR(vda),
    cv      = sd(vda)/`média`,
    assimetria = DescTools::Skew(vda),
    curtose    = DescTools::Kurt(vda),
    .by = contratacao
  ) |>
  arrange(desc(contratacao)) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_number(c(3:10,assimetria,curtose), decimals=2) |> 
  fmt_percent(cv, decimals=0) |> 
  gtTabOptions() |> 
  tab_header(
    title = md(paste0(
      "**Estatísticas descritivas da Variação da Despesa Assistencial por ",
      "beneficiário das operadoras**"
    ))
  )

df.plt <- 
  df.vda |> filter(!is.na(vda)) |> 
  # filter(vda <= 2000) |>
  mutate(n=n(), .by = contratacao) |> 
  mutate(
    outlier.color = if_else(lg_outlier, "red", NA),
    contratacao = factor(contratacao, 
                         levels = c("Individual","Empresarial","Adesão"))
  ) 

contratacao_n <- 
  df.plt |> 
  summarise(n=n(), .by = contratacao) |> 
  mutate(label=paste0(contratacao," (",n," operadoras)")) |> 
  select(-n) 
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

suppressWarnings(print(
  df.plt |> 
    ggplot(aes(x=vda, y=contratacao, fill=contratacao)) +
    geom_boxplot(alpha=.5, show.legend=F, outlier.colour=NA, staplewidth=.5) +
    # stat_summary(fun.y=mean, geom="point", size=2) +  #dot for the mean
    geom_jitter(color=df.plt$outlier.color, width = .3, alpha=.4) +
    facet_wrap(
      ~contratacao, ncol = 1, scales = "free_y", 
      labeller = as_labeller(contratacao_n)
    ) +
    scale_fill_brewer(palette="Dark2", direction=-1) +
    scale_x_continuous(
      labels = scales::label_number(big.mark = ".", decimal.mark = ",")
    ) +
    theme(
      legend.position = "none",
          axis.text.y = element_blank(),
          panel.grid.major.x = element_line(linetype = "dashed")
      ) +
    labs(
      title = "Boxplot da Variação da Despesa por Beneficiário (VDA) das Operadoras",
      subtitle = "Valores extremos (outliers) em vermelho",
      caption = "Fonte: ANS/DIOPS, ANS/SIB",
      x=NULL, y="VDA (%)"
    )
))

df.vda |>
  filter(!is.na(vda)) |> 
  mutate(
    lim.sup = quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T),
    lim.inf = quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T),
    .by = contratacao
  ) |> 
  summarise(
    operadoras = n(),
    outliers = sum(vda>lim.sup | vda<lim.inf),
    pct = outliers/operadoras,
    n.inf = sum(vda<lim.inf, na.rm = T),
    n.sup = sum(vda>lim.sup, na.rm = T),
    .by = c(contratacao, lim.inf, lim.sup)
  ) |> 
  select(contratacao, operadoras:pct, ends_with(".inf"), everything()) |> 
  arrange(desc(contratacao)) |> 
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  tab_spanner(label = "inferiores", columns = ends_with(".inf")) |> 
  tab_spanner(label = "superiores", columns = ends_with(".sup")) |> 
  cols_label(
    starts_with("lim.") ~ "Limite",
    starts_with("n.")   ~ "outliers",
    pct = "%"
  ) |> 
  fmt_percent(pct, decimals=1) |> 
  fmt_number(starts_with("lim."), decimals = 1) |> 
  gtTabOptions() |> 
  tab_header(
    title = md("**Valores extremos (outliers)**"),
    subtitle = paste0(
      "Identificados pela metodologia de intervalo interquartílico",
      " (1.5 x IQR)"
    )
  )

df.plt <- 
  df.vda |> 
  filter(!is.na(lg_outlier) & !lg_outlier) |> 
  mutate(
    contratacao = factor(contratacao, levels=c("Individual",
                                               "Empresarial",
                                               "Adesão"))
  ) 

contratacao_n <- 
  df.plt |> 
  summarise(n=n(), .by = contratacao) |> 
  mutate(label=paste0(contratacao," (n=",n," operadoras)")) |> 
  select(-n) 

contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

mediaP <- 
  df.plt |> 
  summarise(gr.mediaP = weighted.mean(vda, w=benefm_ano2), .by=contratacao) |> 
  mutate(benefm_ano2=.2)

df.plt |> 
  ggplot(aes(x=vda, fill=contratacao, color=contratacao, weight=benefm_ano2)) +
  geom_histogram(aes(y=after_stat(density)), alpha=.5, binwidth=1) +
  # geom_density(alpha=.4, adjust=.5) + 
  geom_vline(data=mediaP, aes(xintercept=gr.mediaP), color="black") +
  geom_text(
    data = mediaP, 
    aes(
      x = gr.mediaP, y = benefm_ano2, 
      label=paste0("Média ponderada: ",
                   scales::number(gr.mediaP, accuracy=.01),
                   "%")
    ),
    nudge_x = 1, color = "black", size=3, hjust=0
  ) +
  facet_wrap(
    ~contratacao, ncol = 1, scales="free_y", 
    labeller = as_labeller(contratacao_n)
  ) +
  scale_color_brewer(palette="Dark2", direction=-1) +
  scale_fill_brewer(palette="Dark2", direction=-1) +
  scale_x_continuous(
    expand = expansion(mult=c(0.01,0.01)),
    breaks=scales::breaks_width(10)
  ) +
  scale_y_continuous(expand = expansion(mult = c(0,.1))) +
  # coord_cartesian(xlim=c(-10,65)) +
  
  theme(
    legend.position = "none",
    panel.grid.major = element_line(linetype="dashed")
  ) +
  labs(
    title = paste0(
      "Histograma da variação da despesa por beneficiário (VDA) das Operadoras"
    ),
    subtitle = paste0(
      "Frequência ponderada pelo tamanho da carteira da operadora. ",
      "Exclui valores extremos."
    ),
    caption = paste0(
      "Fonte: ANS/DIOPS, ANS/SIB\n",
      "Notas: Exclui valores extremos pela metodologia de intervalo ",
      "interquartílico (boxplot)."
    ),
    y = "Densidade",
    x = "VDA (%) - intervalos: 1 pt percentual"
  ) 

rm(df.plt, mediaP, contratacao_n, df.vda0); gc()
# GERA O CADOP NOVAMENTE COM NOMES DE OPERADORAS APÓS TRATAMENTO e 
# "LG_" ALTERADO PARA 1/0
ta.cadop <- 
  left_join(
    ta.cadop |> select(-razao_social),
    arrow::read_parquet("../_datasets/vw_cadop.parquet") |> 
      select(id_ops, razao_social), 
    join_by(id_ops)
  ) |> 
  mutate(across(starts_with("lg_"), ~if_else(.x, 1L, 0L)))
# Base completa que reúne todas as operadoras dos dois anos
df.reunida <-  
  full_join(
    sib |> 
      mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
             lg_excl_benef = if_else(lg_excl_benef,1L,0L)) |> 
      pivot_wider(
        names_from = ano, 
        values_from = benefm, 
        values_fill = 0, names_prefix = "ben_"), 
    
    diops |> 
      mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
             lg_excl_despesa = if_else(lg_excl_despesa,1L,0L)) |> 
      pivot_wider(
        names_from = ano, 
        values_from = c(despesa, receita), 
        values_fill=0
      ), 
    join_by(id_ops, contratacao)
  ) |> 
  
  mutate(
    # Calcula despesa por beneficiário nos dois anos
    dpb_ano1 = if_else(despesa_ano1 > 0 & ben_ano1 > 0, 
                       despesa_ano1/ben_ano1/12, 
                       NA),
    dpb_ano2 = if_else(despesa_ano2 > 0 & ben_ano2 > 0, 
                       despesa_ano2/ben_ano2/12, 
                       NA),
  ) |> 
  
  # Inclui flags de operadoras excluídas por outros motivos
  inner_join(ta.cadop, join_by(id_ops)) |> 
  
  full_join(
    df.vda |> 
      select(id_ops, contratacao, lg_outlier, vda) |> 
      mutate(lg_outlier = if_else(lg_outlier, 1L, 0L)), 
    
    join_by(id_ops, contratacao)
  ) |> 
  
  select(
    id_ops, razao_social, modalidade, 
    contratacao, 
    starts_with('lg_'), 
    starts_with('receita'), starts_with('despesa'), starts_with('ben'), 
    everything()
  ) |> 
  
  mutate(
    # Se a variável estiver zerada, transforma em vazio
    across(receita_ano1:ben_ano2, ~na_if(.x, 0)),
    # Se o flag de exclusão estiver vazio, marca como exclusão
    across(lg_excl_benef:lg_ressalva, ~coalesce(.x, 1L)),
  ) |> 
  # Exclui observações que não tenham nem informação de despesa nem 
  # de beneficiários da base
  filter( 
    !(is.na(despesa_ano1) 
      & is.na(despesa_ano2) 
      & is.na(ben_ano1) 
      & is.na(ben_ano2)) 
  )

df.reunida |> 
  summarise(
    "% Beneficiários" = sum(ben_ano2[!is.na(vda)])/sum(ben_ano2, na.rm = T),
    "% Operadoras (SIB)" = sum(!is.na(vda))/sum(!is.na(ben_ano2)),
    "% Despesa" = sum(despesa_ano2[!is.na(vda)])/sum(despesa_ano2, na.rm = T),
    "% Operadoras (DIOPS)" = sum(!is.na(vda))/sum(!is.na(despesa_ano2)),
    .by = contratacao
  ) |> 
  pivot_longer(cols = 2:5, values_to = "percentual", names_to = 'Metrica') |> 
  mutate(Metrica = factor(Metrica, levels=c("% Beneficiários","% Operadoras (SIB)",
                                            "% Despesa", "% Operadoras (DIOPS)"))) |> 
  ggplot(aes(x = contratacao, y=percentual)) +
  geom_col(fill = "slategray4",width=.75) +
  geom_text(aes(label = scales::percent(percentual, accuracy = .1), vjust = 2), 
            position = position_dodge(1), size=3, color = "white") +
  scale_y_continuous(breaks=NULL, expand = expansion(mult = c(0,0)),
                     limits = c(0,1)) +
  theme(panel.grid.major.x = element_blank(),
        axis.text=element_text(size=8)) +
  labs(x=NULL, y=NULL, 
       title = "Representatividade da amostra",
       subtitle = "% da base original") +
  facet_wrap(Metrica ~ ., nrow = 2)

df.reunida |> 
  summarise(
    Beneficiários = sum(ben_ano2, na.rm = T),
    "Beneficiários VDA" = sum(ben_ano2[!is.na(vda)], na.rm = T),
    "%" = `Beneficiários VDA`/`Beneficiários`,
    .by = contratacao
  ) |> 
  arrange(desc(contratacao)) |>
  gt(rowname_col="stub", locale="pt") |> sub_missing() |>
  fmt_integer(2:3) |> fmt_percent(4, decimals=1) |> 
  gtTabOptions() |> 
  tab_header(title = md("**Representatividade da amostra - Beneficiários**"))

rm(df.vda)
dfs <- ls()[sapply(mget(ls(), .GlobalEnv), is.data.frame)]
for (df in dfs) {
  get(df) |>
    mutate(across(where(is.factor), ~ enc2utf8(as.character(.x)))) |>
    mutate(across(where(is.character), ~ enc2utf8(as.character(.x)))) |>
    write.csv2(
      str_c(c("../Documentos/_basesR/", df, ".csv"), sep = "", collapse = ""),
      row.names=FALSE, fileEncoding="UTF-8", na=""
    )
}
remove(df, dfs)