O documento a seguir detalha o passo a passo da apuração da Variação da Despesa Assistencial por Beneficiário (VDA) do ano de 2024 sobre o ano de 2023. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA e acompanhar a evolução da mesma ao longo do ano.
A VDA é um dos principais componentes do cálculo do Índice de Reajuste de Planos Individuais (IRPI), que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar. A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela Resolução Normativa - RN nº 441, de 19 de dezembro de 2018 e está detalhada no site da ANS em Espaço do Consumidor > Reajuste/Variação de mensalidade > Reajuste anual de planos individuais/familiares > Metodologia de Cálculo.
A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656/1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.
A medida de tendência central do setor de saúde suplementar é a média
da VDA das operadoras ponderada pela quantidade de beneficiários do
período mais recente, conforme consignada no Anexo II da RN
nº 441/2018. Assim, fórmula para o cálculo da média ponderada da VDA
das operadoras do setor em determinado ano é:
\[VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}\]
Onde:
i = Operadora na base de cálculo
n = Todas as operadoras na base de cálculo
p = Período de janeiro a dezembro do ano calendário
DA = Despesa assistencial em carteira própria acumulada no período
Ben = Média mensal de beneficiários em carteira própria ao longo do
período
Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de despesa assistencial, quantidade de beneficiários com vínculos ativos e características das operadoras de planos de saúde. Esses conjuntos de dados podem ser acessados pelo Portal Brasileiro de Dados Abertos do Governo Federal. Os links para cada conjunto de dados utilizado neste cálculo estão disponíveis a seguir na seção de “Limpeza e Tratamento de Dados”.
# período de análise
periodo <- c(as.Date("2023-12-01"), as.Date("2024-12-01"))
# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"
As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).
Dois conjuntos de dados estão disponíveis no Portal Brasileiro de Dados Abertos (https://dados.gov.br/dados/conjuntos-dados):
Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início (data do registro da operadora junto à ANS) e fim de operação (data do descredenciamento da operadora).
Para o cálculo da VDA no IRPI selecionam-se as operadoras médico-hospitalares e são desconsideradas
O código a seguir faz a leitura dos arquivos *.csv do cadastro de operadoras ativas e canceladas, filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:
# Tabela auxiliar de cadastro das operadoras
ta.cadop <-
bind_rows(
# dataset de operadoras com registro cancelado
read.csv2(
paste0(
url_raiz,
"operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"
),
colClasses = c(rep("character",22))
),
# dataset de operadoras com registro ativo
read.csv2(
paste0(
url_raiz,
"operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"
),
colClasses = c(rep("character",20))
)
) |>
# Formata as colunas relevantes
rename_with(tolower) |>
mutate(
across(starts_with("data_"), as_date),
id_ops = as.integer(registro_ans),
modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde',
'Seguradora',
modalidade),
razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ")
) |>
# Filtra apenas operadoras médico-hospitalares
filter(modalidade %in% c('Autogestão',
'Cooperativa Médica',
'Filantropia',
'Medicina de Grupo',
'Seguradora')) |>
# Cria campos de flag
mutate(
# Flag de operadoras que encerraram operações no período
lg_cancelada = ( !is.na(data_descredenciamento)
& year(data_descredenciamento) <= year(periodo[2]) ),
# Flag de operadoras que iniciaram operações no período
lg_nova_ops = ( year(data_registro_ans) >= year(periodo[1]) )
) |>
# Flag de ressalvas
left_join(
read.csv2("../_datasets/ressalvas_2023_2024.csv") |>
distinct(id_ops) |>
mutate(lg_ressalva = 1L),
join_by(id_ops)
) |>
mutate(lg_ressalva = ( !is.na(lg_ressalva) )) |>
select(
id_ops, razao_social, modalidade,
lg_cancelada, lg_nova_ops, lg_ressalva
)
| contagem | operadoras |
|---|---|
| Total | 2.642 |
| Canceladas | 1.942 |
| Novas | 33 |
| Com ressalva | 85 |
As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das demonstrações contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS).
Todas as demonstrações contábeis publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela RN nº 528/2022, que dispõe sobre o plano de contas dos exercícios de 2023 e 2024.
O conjunto de dados Demonstrações Contábeis do 4º trimestre de 2024 pode ser acessado no Portal Brasileiro de Dados Abertos do Governo Federal. Este conjunto de dados detalha o saldo acumulado em reais ao final do trimestre nas contas contábeis de cada operadora.
O conjunto de dados do 4º trimestre de 2023 foi atualizado para contemplar as retificações feitas ao longo do ano por operadoras com ressalvas. Esta base atualizada acompanha a Nota Técnica que está publicada no site oficial da agência na página Portal ANS > Espaço do Consumidor > Reajuste > Individual ou Familiar > Metodologia de Cálculo
O código a seguir faz a leitura dos arquivos *.csv:
# Leitura das demonstrações contábeis
diops0 <-
rbind(
read.csv2("../_datasets/diops_4T2023_versao_2025-03-04.csv"),
read.csv2("../_datasets/diops_4T2024.csv")
) |>
as_tibble() |>
rename_with(tolower) |>
mutate(cd_conta_contabil = as.character(cd_conta_contabil)) |>
# altera data de referência para o último mês do trimestre
mutate(id_calendar = as_date(data) + months(2)) |>
filter(
id_calendar %in% c(periodo[1], periodo[2]), # ano 1 e ano 2
nchar(cd_conta_contabil) == 9, # contas contábeis de 9 dígitos
vl_saldo_final != 0 # exclui linhas sem saldo final
) |>
select(
id_ops = reg_ans,
cd_conta_contabil, id_calendar,
vl_saldo_final
) |>
# filtra operadoras relevantes
inner_join(
select(ta.cadop, id_ops),
join_by(id_ops)
)
O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS:
| Conta contábil | Descrição | Totalização |
|---|---|---|
| 411X1XXXX | Eventos/sinistros conhecidos ou avisados de assistência à saúde médico-hospitalar | (+) |
| 411X1XX8X | Corresponsabilidade Assumida | (-) |
| 31171XXXX | (-) Contraprestações de corresponsabilidade cedida de assistência médico-hospitalar | (+) |
Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria cedida a terceiros (contas contábeis redutoras de receita 31171XXXX). Valores de corresponsabilidade assumida (contas contábeis de despesa 411X1XX8X) são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).
O código a seguir totaliza a receita e despesa assistencial por trimestre, operadora e tipo de carteira:
# Receita e despesa assistencial por trimestre, operadora e tipo de carteira
diops1 <-
diops0 |>
# filtra contas contábeis relevantes para a análise
filter(
# eventos/sinistros conhecidos médico-hospitalares, incluindo
# corresponsabilidade assumida
(substr(cd_conta_contabil, 1, 3) == '411'
& substr(cd_conta_contabil, 5, 5) == '1')
# receita de contraprestações médico-hospitalares e
# corresponsabilidade cedida médico-hospitalar (redutor de receita)
| (substr(cd_conta_contabil, 1, 5) == '31111'
| substr(cd_conta_contabil, 1, 5) == '31171')
) |>
# Agrupa as contas contábeis em três categorias
mutate(
gr_cc = case_when(
substr(cd_conta_contabil, 1, 1) == '4' ~ 'eventos',
substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita',
substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida',
.default = 'EXCLUIR'),
) |>
# Totaliza por operadora, conta contábil e período
summarise(
vl_saldo_final = sum(vl_saldo_final),
.by = -vl_saldo_final
) |>
# Separa os saldos em colunas por categoria
pivot_wider(
names_from = gr_cc,
values_from = vl_saldo_final,
values_fill = 0
) |>
# identifica atributos de carteira pela conta contábil
mutate(
vigencia = case_when(
substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida',
substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
.default = 'EXCLUIR'
),
contratacao = case_when(
substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida',
substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
.default = 'EXCLUIR'
),
financiamento = case_when(
substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida',
substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pré',
substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós',
.default = 'EXCLUIR'
),
) |>
# Exclui corr assumida e inclui corr cedida na despesa (trocando o sinal)
filter(vigencia != 'corr_assumida') |>
mutate(despesa = eventos - corr_cedida) |>
summarise(
receita = sum(receita),
despesa = sum(despesa),
.by = c(id_ops, vigencia, contratacao, financiamento, id_calendar)
)
| Resumo | |||
| ano | Operadoras | Receita (R$bn) | Despesa (R$bn) |
|---|---|---|---|
| 2023 | 642 | 272,8 | 231,4 |
| 2024 | 625 | 305,1 | 248,6 |
Filtra planos novos (posteriores à Lei) com formação de preço preestabelecida e totaliza por período, operadora e tipo de plano:
# Receita e despesa assistencial de planos novos com formação de preço pré
diops <-
diops1 |>
mutate(
ano = as.integer(year(id_calendar)),
.after=contratacao
) |>
select(-id_calendar) |>
filter(
vigencia == 'P', # Planos novos (posteriores à Lei)
financiamento == 'Pré', # Formação de preço preestabelecida
) |>
select(-vigencia, -financiamento) |>
# Filtra operadoras de interesse
inner_join(select(ta.cadop, id_ops), join_by(id_ops)) |>
# Flag de operadoras que não têm dados válidos de despesa
mutate(
lg_excl_despesa = sum(despesa>0) != 2,
.by = c(id_ops, contratacao),
.after=ano
)
| Resumo (R$ bilhões) | |||
| Apenas operadoras com dados de despesa nos 2 anos | |||
| ano | operadoras | receita | despesa |
|---|---|---|---|
| Adesão | |||
| 2023 | 436 | 32,7 | 28,4 |
| 2024 | 436 | 35,8 | 30,4 |
| Empresarial | |||
| 2023 | 512 | 160,4 | 132,0 |
| 2024 | 512 | 188,7 | 147,6 |
| Individual | |||
| 2023 | 443 | 50,6 | 40,9 |
| 2024 | 443 | 56,6 | 46,1 |
| Total | |||
| 2023 | 570 | 243,7 | 201,3 |
| 2024 | 570 | 281,1 | 224,1 |
As informações de vínculos ativos de beneficiários são obtidas através do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente.
A base de dados do SIB referente aos anos de 2023 e 2024 pode ser acessada no Portal Brasileiro de Dados Abertos do Governo Federal, conjunto de dados Beneficiários por operadora e tipo de carteira para cálculo da VDA. Este conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.
O código a seguir faz a leitura dos arquivos publicados no portal de dados abertos:
# Leitura da base de beneficiários
sib0 <-
read.csv2("../_datasets/Beneficiarios_operadora_e_carteira.csv") |>
as_tibble() |>
rename_with(tolower) |>
rename(
id_ops = cd_operadora,
vigencia = vigencia_plano,
contratacao = gr_contratacao,
financiamento = tipo_financiamento,
benef = nr_benef
) |>
mutate(
id_calendar = make_date(as.integer(mes/100),
mes - (as.integer(mes/100)) * 100,
01),
contratacao = case_when(
contratacao == 'Coletivo empresarial' ~ 'Empresarial',
contratacao == 'Coletivo por adesão' ~ 'Adesão',
contratacao == 'Individual ou familiar' ~ 'Individual',
.default = contratacao
)
) |>
filter(
# Filtra período de análise
id_calendar > (periodo[1] - years(1)), id_calendar <= periodo[2],
# Exclui zeros e nulos
benef != 0 & !is.na(benef),
# Filtra planos de interesse para a análise
cobertura == "Médico-hospitalar",
vigencia == 'P', # planos novos (posteriores à Lei)
financiamento != 'Pós-estabelecido', # com formação de preço pré
contratacao %in% c('Empresarial',
'Individual',
'Adesão')
) |>
# filtra operadoras médico-hospitalares
inner_join(select(ta.cadop,id_ops), join_by(id_ops)) |>
# Totaliza por operadora, tipo de contratação e mês
summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) |>
arrange(id_ops, contratacao, id_calendar)
Calcula a média de beneficiários no ano por operadora e tipo de contratação e exclui operadoras que não tenham uma sequência ininterrupta de beneficiários nos 24 meses:
# Calcula média de beneficiários por ano, operadora e tipo de contratação e
# filtra operadoras que têm sequência ininterrupta de 24 meses
sib <-
sib0 |>
mutate(ano = as.integer(year(id_calendar))) |>
select(-id_calendar) |>
# Flag de operadoras que não tiveram sequência ininterrupta de 24 meses
mutate(
lg_excl_benef = n()!=24,
.by=c(id_ops, contratacao)
) |>
# Calcula a média dos últimos 12 meses por operadora, contratacao e ano
summarise(
benefm = sum(benef, na.rm=T)/12,
.by = c(id_ops, contratacao, ano, lg_excl_benef)
)
| Beneficiários | ||
| Totais agregados, média mensal | ||
| ano | Operadoras | beneficiarios |
|---|---|---|
| Adesão | ||
| 2023 | 467 | 4.579.048 |
| 2024 | 467 | 4.440.036 |
| Empresarial | ||
| 2023 | 539 | 30.139.017 |
| 2024 | 539 | 31.223.407 |
| Individual | ||
| 2023 | 457 | 7.693.243 |
| 2024 | 457 | 7.823.636 |
| Total | ||
| 2023 | 597 | 42.411.308 |
| 2024 | 597 | 43.487.079 |
| Nota: Apenas operadoras com sequência de beneficiários nos 24 meses | ||
Esta seção gera a base de despesa assistencial e beneficiários e calcula a despesa por beneficiário.
A despesa por beneficiário é a média mensal da despesa assistencial da carteira própria de uma operadora incorrida no ano, dividida pela média de vínculos ativos de beneficiários ao longo do ano. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.
A base de cálculo da VDA considera apenas:
Operadoras sem ressalvas com registro ativo nos dois anos
Observações que apresentam valor positivo de despesa nos dois anos
Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários nos dois anos
O código a seguir calcula a Despesa Mensal por Beneficiário:
# Calcula a despesa mensal por beneficiário
df.vda0 <-
inner_join(
diops |>
filter(!lg_excl_despesa) |>
select(-receita, -lg_excl_despesa),
sib |>
filter(!lg_excl_benef) |>
select(-lg_excl_benef),
join_by(id_ops, contratacao, ano)
) |>
arrange(id_ops, contratacao, ano) |>
# exclui operadoras invalidadas por qualquer motivo:
inner_join(ta.cadop, join_by(id_ops)) |>
filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |>
select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
relocate(razao_social, .after = id_ops) |>
# calcula despesa mensal por beneficiário:
mutate(
dpb = if_else(!is.na(benefm) & benefm > 0, despesa/benefm/12, NA)
)
| Despesa mensal por beneficiário | ||
| Totais agregados, em R$ por mês | ||
| ano | operadoras | Despesa por beneficiário |
|---|---|---|
| Adesão | ||
| 2023 | 368 | 525 |
| 2024 | 368 | 567 |
| Empresarial | ||
| 2023 | 436 | 368 |
| 2024 | 436 | 395 |
| Individual | ||
| 2023 | 368 | 437 |
| 2024 | 368 | 483 |
| Nota: Apenas operadoras com sequência de beneficiários nos 24 meses e com saldo de despesa informado nos dois anos. |
||
Visualização gráfica da distribuição da despesa por beneficiário das operadoras.
Nota: O gráfico a seguir exclui os 5% maiores e menores valores de cada carteira para que seja possível visualizar a distribuição dos dados.
| Estatísticas descritivas da despesa mensal por beneficiário das operadoras | |||||||||||
| ano | mínimo | q1 | mediana | q3 | máximo | média | desvio | iqr | cv | assimetria | curtose |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Individual | |||||||||||
| 2023 | 4 | 283 | 380 | 526 | 53.394 | 586 | 2.788 | 243 | 476% | 18,48 | 346,88 |
| 2024 | 4 | 320 | 433 | 579 | 61.279 | 678 | 3.202 | 259 | 472% | 18,44 | 345,80 |
| Empresarial | |||||||||||
| 2023 | 13 | 168 | 227 | 318 | 108.782 | 568 | 5.212 | 150 | 918% | 20,53 | 423,09 |
| 2024 | 0 | 178 | 250 | 336 | 13.237 | 382 | 817 | 158 | 214% | 11,04 | 150,90 |
| Adesão | |||||||||||
| 2023 | 1 | 248 | 383 | 550 | 112.544 | 1.110 | 7.338 | 301 | 661% | 13,28 | 182,98 |
| 2024 | 9 | 275 | 420 | 619 | 101.110 | 1.215 | 7.461 | 345 | 614% | 12,60 | 162,66 |
A VDA de uma operadora é a variação da despesa por beneficiário desta
operadora sobre o mesmo período do ano anterior, conforme a seguinte
fórmula:
\[VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1\]
Onde:
i = Operadora na base de cálculo
p = Ano calendário anterior ao início da aplicação do IRPI
DA = Despesa assistencial em carteira própria acumulada ao fim do
período
Ben = Média mensal de beneficiários em carteira própria ao longo do
período
O código a seguir calcula a VDA por operadora:
# Calcula a VDA por operadora
df.vda <-
df.vda0 |>
# coloca os anos em colunas
arrange(id_ops, contratacao, ano) |>
mutate(ano = if_else(ano==year(periodo[1]), "ano1", "ano2")) |>
pivot_wider(names_from=ano, values_from=c(despesa,benefm,dpb)) |>
# calcula VDA
mutate( vda = (dpb_ano2/dpb_ano1 - 1)*100 ) |>
# identifica valores extremos pelo critério BOXPLOT 1.5xIQR
mutate(
lg_outlier =
vda >= (quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T))
| vda <= (quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T)),
.by = contratacao
)
| Estatísticas descritivas da Variação da Despesa Assistencial por beneficiário das operadoras | ||||||||||||
| contratacao | n | mínimo | q1 | mediana | q3 | máximo | média | desvio | iqr | cv | assimetria | curtose |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Individual | 368 | −37,69 | 4,26 | 12,21 | 20,50 | 3.468,41 | 27,27 | 186,21 | 16,23 | 683% | 17,35 | 314,71 |
| Empresarial | 436 | −99,97 | 2,27 | 9,81 | 17,62 | 315,46 | 11,71 | 30,45 | 15,35 | 260% | 2,85 | 27,15 |
| Adesão | 368 | −72,50 | 0,62 | 10,79 | 25,21 | 4.727,03 | 32,50 | 252,49 | 24,59 | 777% | 17,58 | 322,10 |
| Valores extremos (outliers) | |||||||
| Identificados pela metodologia de intervalo interquartílico (1.5 x IQR) | |||||||
| contratacao | operadoras | outliers | % |
inferiores
|
superiores
|
||
|---|---|---|---|---|---|---|---|
| Limite | outliers | Limite | outliers | ||||
| Individual | 368 | 38 | 10,3% | −20,1 | 12 | 44,8 | 26 |
| Empresarial | 436 | 47 | 10,8% | −20,8 | 22 | 40,6 | 25 |
| Adesão | 368 | 39 | 10,6% | −36,3 | 8 | 62,1 | 31 |
A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores extremos.
Gera uma base completa que reúne todas as observações dos dois anos e o cálculo da VDA para gravar.
# Base completa que reúne todas as operadoras dos dois anos
df.reunida <-
full_join(
sib |>
mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
lg_excl_benef = if_else(lg_excl_benef,1L,0L)) |>
pivot_wider(
names_from = ano,
values_from = benefm,
values_fill = 0, names_prefix = "ben_"),
diops |>
mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
lg_excl_despesa = if_else(lg_excl_despesa,1L,0L)) |>
pivot_wider(
names_from = ano,
values_from = c(despesa, receita),
values_fill=0
),
join_by(id_ops, contratacao)
) |>
mutate(
# Calcula despesa por beneficiário nos dois anos
dpb_ano1 = if_else(despesa_ano1 > 0 & ben_ano1 > 0,
despesa_ano1/ben_ano1/12,
NA),
dpb_ano2 = if_else(despesa_ano2 > 0 & ben_ano2 > 0,
despesa_ano2/ben_ano2/12,
NA),
) |>
# Inclui flags de operadoras excluídas por outros motivos
inner_join(ta.cadop, join_by(id_ops)) |>
full_join(
df.vda |>
select(id_ops, contratacao, lg_outlier, vda) |>
mutate(lg_outlier = if_else(lg_outlier, 1L, 0L)),
join_by(id_ops, contratacao)
) |>
select(
id_ops, razao_social, modalidade,
contratacao,
starts_with('lg_'),
starts_with('receita'), starts_with('despesa'), starts_with('ben'),
everything()
) |>
mutate(
# Se a variável estiver zerada, transforma em vazio
across(receita_ano1:ben_ano2, ~na_if(.x, 0)),
# Se o flag de exclusão estiver vazio, marca como exclusão
across(lg_excl_benef:lg_ressalva, ~coalesce(.x, 1L)),
) |>
# Exclui observações que não tenham nem informação de despesa nem
# de beneficiários da base
filter(
!(is.na(despesa_ano1)
& is.na(despesa_ano2)
& is.na(ben_ano1)
& is.na(ben_ano2))
)
Representatividade de base de cálculo da VDA (após exclusões por dados incompletos, ressalva, início de operação ou cancelamento de registro) sobre as bases extraídas dos sistemas de origem.
| Representatividade da amostra - Beneficiários | |||
| contratacao | Beneficiários | Beneficiários VDA | % |
|---|---|---|---|
| Individual | 7.940.709 | 6.985.182 | 88,0% |
| Empresarial | 31.470.735 | 27.389.476 | 87,0% |
| Adesão | 4.666.094 | 3.907.698 | 83,7% |
Beneficiário: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.
Contratante: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.
Operadora: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.
Plano Privado de Assistência à Saúde: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.
Tipo de contratação:
Individual ou Familiar, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar
Coletivo empresarial, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária
Coletivo por adesão, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)
Tipo de financiamento:
Preestabelecido, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.
Pós-estabelecido, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.
Pacotes e ambiente de programação:
## R version 4.4.2 (2024-10-31 ucrt)
## Platform: x86_64-w64-mingw32/x64
## Running under: Windows 11 x64 (build 26100)
##
## Matrix products: default
##
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## other attached packages:
## [1] gt_1.0.0 lubridate_1.9.4 forcats_1.0.0 stringr_1.5.1
## [5] dplyr_1.1.4 purrr_1.0.4 readr_2.1.5 tidyr_1.3.1
## [9] tibble_3.2.1 ggplot2_3.5.2 tidyverse_2.0.0
##
## loaded via a namespace (and not attached):
## [1] gld_2.6.7 gtable_0.3.6 xfun_0.52 bslib_0.9.0
## [5] lattice_0.22-7 tzdb_0.5.0 vctrs_0.6.5 tools_4.4.2
## [9] generics_0.1.3 proxy_0.4-27 pkgconfig_2.0.3 Matrix_1.7-3
## [13] data.table_1.17.0 RColorBrewer_1.1-3 assertthat_0.2.1 readxl_1.4.5
## [17] lifecycle_1.0.4 rootSolve_1.8.2.4 compiler_4.4.2 farver_2.1.2
## [21] Exact_3.3 munsell_0.5.1 litedown_0.7 htmltools_0.5.8.1
## [25] DescTools_0.99.60 class_7.3-23 sass_0.4.9 yaml_2.3.10
## [29] pillar_1.10.2 jquerylib_0.1.4 MASS_7.3-65 cachem_1.1.0
## [33] boot_1.3-31 commonmark_1.9.5 tidyselect_1.2.1 digest_0.6.37
## [37] mvtnorm_1.3-3 stringi_1.8.7 arrow_19.0.1.1 labeling_0.4.3
## [41] fastmap_1.2.0 grid_4.4.2 colorspace_2.1-1 lmom_3.2
## [45] expm_1.0-0 cli_3.6.4 magrittr_2.0.3 e1071_1.7-16
## [49] withr_3.0.2 scales_1.3.0 bit64_4.6.0-1 timechange_0.3.0
## [53] httr_1.4.7 rmarkdown_2.29 bit_4.6.0 cellranger_1.1.0
## [57] hms_1.1.3 evaluate_1.0.3 haven_2.5.4 knitr_1.50
## [61] markdown_2.0 rlang_1.1.6 Rcpp_1.0.14 glue_1.8.0
## [65] xml2_1.3.8 rstudioapi_0.17.1 jsonlite_2.0.0 R6_2.6.1
## [69] fs_1.6.5
Programação completa em linguagem R:
# período de análise
periodo <- c(as.Date("2023-12-01"), as.Date("2024-12-01"))
# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"
# Tabela auxiliar de cadastro das operadoras
ta.cadop <-
bind_rows(
# dataset de operadoras com registro cancelado
read.csv2(
paste0(
url_raiz,
"operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"
),
colClasses = c(rep("character",22))
),
# dataset de operadoras com registro ativo
read.csv2(
paste0(
url_raiz,
"operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"
),
colClasses = c(rep("character",20))
)
) |>
# Formata as colunas relevantes
rename_with(tolower) |>
mutate(
across(starts_with("data_"), as_date),
id_ops = as.integer(registro_ans),
modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde',
'Seguradora',
modalidade),
razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ")
) |>
# Filtra apenas operadoras médico-hospitalares
filter(modalidade %in% c('Autogestão',
'Cooperativa Médica',
'Filantropia',
'Medicina de Grupo',
'Seguradora')) |>
# Cria campos de flag
mutate(
# Flag de operadoras que encerraram operações no período
lg_cancelada = ( !is.na(data_descredenciamento)
& year(data_descredenciamento) <= year(periodo[2]) ),
# Flag de operadoras que iniciaram operações no período
lg_nova_ops = ( year(data_registro_ans) >= year(periodo[1]) )
) |>
# Flag de ressalvas
left_join(
read.csv2("../_datasets/ressalvas_2023_2024.csv") |>
distinct(id_ops) |>
mutate(lg_ressalva = 1L),
join_by(id_ops)
) |>
mutate(lg_ressalva = ( !is.na(lg_ressalva) )) |>
select(
id_ops, razao_social, modalidade,
lg_cancelada, lg_nova_ops, lg_ressalva
)
ta.cadop |>
summarise(
"Total" = n_distinct(id_ops),
"Canceladas" = sum(lg_cancelada),
"Novas" = sum(lg_nova_ops),
"Com ressalva" = sum(lg_ressalva)
) |>
pivot_longer(
everything(),
names_to = "contagem",
values_to = "operadoras"
) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_integer("operadoras") |>
gtTabOptions()
# Leitura das demonstrações contábeis
diops0 <-
rbind(
read.csv2("../_datasets/diops_4T2023_versao_2025-03-04.csv"),
read.csv2("../_datasets/diops_4T2024.csv")
) |>
as_tibble() |>
rename_with(tolower) |>
mutate(cd_conta_contabil = as.character(cd_conta_contabil)) |>
# altera data de referência para o último mês do trimestre
mutate(id_calendar = as_date(data) + months(2)) |>
filter(
id_calendar %in% c(periodo[1], periodo[2]), # ano 1 e ano 2
nchar(cd_conta_contabil) == 9, # contas contábeis de 9 dígitos
vl_saldo_final != 0 # exclui linhas sem saldo final
) |>
select(
id_ops = reg_ans,
cd_conta_contabil, id_calendar,
vl_saldo_final
) |>
# filtra operadoras relevantes
inner_join(
select(ta.cadop, id_ops),
join_by(id_ops)
)
# Receita e despesa assistencial por trimestre, operadora e tipo de carteira
diops1 <-
diops0 |>
# filtra contas contábeis relevantes para a análise
filter(
# eventos/sinistros conhecidos médico-hospitalares, incluindo
# corresponsabilidade assumida
(substr(cd_conta_contabil, 1, 3) == '411'
& substr(cd_conta_contabil, 5, 5) == '1')
# receita de contraprestações médico-hospitalares e
# corresponsabilidade cedida médico-hospitalar (redutor de receita)
| (substr(cd_conta_contabil, 1, 5) == '31111'
| substr(cd_conta_contabil, 1, 5) == '31171')
) |>
# Agrupa as contas contábeis em três categorias
mutate(
gr_cc = case_when(
substr(cd_conta_contabil, 1, 1) == '4' ~ 'eventos',
substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita',
substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida',
.default = 'EXCLUIR'),
) |>
# Totaliza por operadora, conta contábil e período
summarise(
vl_saldo_final = sum(vl_saldo_final),
.by = -vl_saldo_final
) |>
# Separa os saldos em colunas por categoria
pivot_wider(
names_from = gr_cc,
values_from = vl_saldo_final,
values_fill = 0
) |>
# identifica atributos de carteira pela conta contábil
mutate(
vigencia = case_when(
substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida',
substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
.default = 'EXCLUIR'
),
contratacao = case_when(
substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida',
substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
.default = 'EXCLUIR'
),
financiamento = case_when(
substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida',
substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pré',
substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós',
.default = 'EXCLUIR'
),
) |>
# Exclui corr assumida e inclui corr cedida na despesa (trocando o sinal)
filter(vigencia != 'corr_assumida') |>
mutate(despesa = eventos - corr_cedida) |>
summarise(
receita = sum(receita),
despesa = sum(despesa),
.by = c(id_ops, vigencia, contratacao, financiamento, id_calendar)
)
diops1 |>
mutate(ano = year(id_calendar)) |>
summarise(
Operadoras = n_distinct(id_ops),
"Receita (R$bn)" = sum(receita, na.rm = T),
"Despesa (R$bn)" = sum(despesa, na.rm = T),
.by = ano
) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_integer(Operadoras) |>
fmt_number(3:4, decimals=1, scale_by=1/1e9) |>
gtTabOptions() |>
tab_header(title=md("**Resumo**"))
# Receita e despesa assistencial de planos novos com formação de preço pré
diops <-
diops1 |>
mutate(
ano = as.integer(year(id_calendar)),
.after=contratacao
) |>
select(-id_calendar) |>
filter(
vigencia == 'P', # Planos novos (posteriores à Lei)
financiamento == 'Pré', # Formação de preço preestabelecida
) |>
select(-vigencia, -financiamento) |>
# Filtra operadoras de interesse
inner_join(select(ta.cadop, id_ops), join_by(id_ops)) |>
# Flag de operadoras que não têm dados válidos de despesa
mutate(
lg_excl_despesa = sum(despesa>0) != 2,
.by = c(id_ops, contratacao),
.after=ano
)
rbind(
diops |>
filter(!lg_excl_despesa) |>
summarise(
operadoras = n_distinct(id_ops),
receita = sum(receita, na.rm = T),
despesa = sum(despesa, na.rm = T),
.by = c(ano, contratacao)
),
diops |>
filter(!lg_excl_despesa) |>
summarise(
operadoras = n_distinct(id_ops),
receita = sum(receita, na.rm = T),
despesa = sum(despesa, na.rm = T),
.by = c(ano)
) |>
mutate(contratacao = "Total")
) |>
arrange(contratacao, ano) |> group_by(contratacao) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_integer(operadoras) |>
fmt_number(4:5, decimals=1, scale_by=1/1e9) |>
gtTabOptions() |>
tab_header(
title = md("**Resumo (R$ bilhões)**"),
subtitle = "Apenas operadoras com dados de despesa nos 2 anos"
)
rm(diops0, diops1); gc()
# Leitura da base de beneficiários
sib0 <-
read.csv2("../_datasets/Beneficiarios_operadora_e_carteira.csv") |>
as_tibble() |>
rename_with(tolower) |>
rename(
id_ops = cd_operadora,
vigencia = vigencia_plano,
contratacao = gr_contratacao,
financiamento = tipo_financiamento,
benef = nr_benef
) |>
mutate(
id_calendar = make_date(as.integer(mes/100),
mes - (as.integer(mes/100)) * 100,
01),
contratacao = case_when(
contratacao == 'Coletivo empresarial' ~ 'Empresarial',
contratacao == 'Coletivo por adesão' ~ 'Adesão',
contratacao == 'Individual ou familiar' ~ 'Individual',
.default = contratacao
)
) |>
filter(
# Filtra período de análise
id_calendar > (periodo[1] - years(1)), id_calendar <= periodo[2],
# Exclui zeros e nulos
benef != 0 & !is.na(benef),
# Filtra planos de interesse para a análise
cobertura == "Médico-hospitalar",
vigencia == 'P', # planos novos (posteriores à Lei)
financiamento != 'Pós-estabelecido', # com formação de preço pré
contratacao %in% c('Empresarial',
'Individual',
'Adesão')
) |>
# filtra operadoras médico-hospitalares
inner_join(select(ta.cadop,id_ops), join_by(id_ops)) |>
# Totaliza por operadora, tipo de contratação e mês
summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) |>
arrange(id_ops, contratacao, id_calendar)
# Calcula média de beneficiários por ano, operadora e tipo de contratação e
# filtra operadoras que têm sequência ininterrupta de 24 meses
sib <-
sib0 |>
mutate(ano = as.integer(year(id_calendar))) |>
select(-id_calendar) |>
# Flag de operadoras que não tiveram sequência ininterrupta de 24 meses
mutate(
lg_excl_benef = n()!=24,
.by=c(id_ops, contratacao)
) |>
# Calcula a média dos últimos 12 meses por operadora, contratacao e ano
summarise(
benefm = sum(benef, na.rm=T)/12,
.by = c(id_ops, contratacao, ano, lg_excl_benef)
)
rbind(
sib |>
filter(!lg_excl_benef) |>
summarise(Operadoras = n_distinct(id_ops),
beneficiarios = sum(benefm),
.by = c(ano, contratacao)),
sib |>
filter(!lg_excl_benef) |>
summarise(Operadoras = n_distinct(id_ops),
beneficiarios = sum(benefm),
.by = c(ano)) |>
mutate(contratacao="Total")
) |>
arrange(contratacao, ano) |> group_by(contratacao) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_integer(3:4) |>
gtTabOptions() |>
tab_header(
title = md("**Beneficiários**"),
subtitle = md("*Totais agregados, média mensal*")
) |>
tab_footnote(
"Nota: Apenas operadoras com sequência de beneficiários nos 24 meses"
)
rm(sib0); gc()
# Calcula a despesa mensal por beneficiário
df.vda0 <-
inner_join(
diops |>
filter(!lg_excl_despesa) |>
select(-receita, -lg_excl_despesa),
sib |>
filter(!lg_excl_benef) |>
select(-lg_excl_benef),
join_by(id_ops, contratacao, ano)
) |>
arrange(id_ops, contratacao, ano) |>
# exclui operadoras invalidadas por qualquer motivo:
inner_join(ta.cadop, join_by(id_ops)) |>
filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |>
select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
relocate(razao_social, .after = id_ops) |>
# calcula despesa mensal por beneficiário:
mutate(
dpb = if_else(!is.na(benefm) & benefm > 0, despesa/benefm/12, NA)
)
df.vda0 |>
summarise(
operadoras = n_distinct(id_ops),
dpb = sum(despesa)/sum(benefm)/12,
.by = c(ano, contratacao)
) |>
arrange(contratacao, ano) |> group_by(contratacao) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_integer(3:4) |>
gtTabOptions() |>
cols_label(
dpb = "Despesa por<br>beneficiário",
.fn = md
) |>
tab_header(
title = md("**Despesa mensal por beneficiário**"),
subtitle = md("*Totais agregados, em R$ por mês*")
) |>
tab_footnote(md(paste0(
"Nota: Apenas operadoras com sequência de beneficiários nos<br>",
"24 meses e com saldo de despesa informado nos dois anos."
))
)
df.vda0 |>
mutate(
lg_outlier = (dpb > quantile(dpb,0.95)) | (dpb < quantile(dpb,0.05)),
.by = c(ano, contratacao)
) |>
mutate(
ano = as.factor(ano),
contratacao = factor(contratacao, levels=c("Individual",
"Empresarial",
"Adesão"))
) |>
filter( !lg_outlier ) |>
ggplot(aes(x=dpb, fill=ano, color=ano, weight=benefm)) +
facet_wrap(~contratacao, ncol = 1, scales="free_y") +
geom_density(alpha=.4, adjust=.5) +
scale_color_brewer(palette="Set1") +
scale_fill_brewer(palette="Set1") +
scale_y_continuous(expand = expansion(mult = c(0,0.1))) +
scale_x_continuous(
expand = expansion(mult = c(0,0)),
breaks = scales::breaks_width(100)
) +
theme(
legend.position = "top",
panel.spacing = unit(0.02, units = "npc"),
panel.grid.major.x = element_line(linetype = "dashed")
) +
labs(
title = "Distribuição Ponderada da Despesa Mensal por Beneficiário",
subtitle="Frequência ponderada pela quantidade de beneficiários da operadora.",
caption = paste0(
"Notas:\n",
"Exclui os 5% maiores e menores valores de cada carteira.\n",
"Estimativa Gaussiana de densidade por Kernel para função de densidade ",
"de probabilidade."
),
x = "Despesa mensal por beneficiário (R$/mês)",
y = "Densidade"
)
df.vda0 |>
summarise(
mínimo = min(dpb),
q1 = quantile(dpb,0.25,names = F),
mediana = median(dpb),
q3 = quantile(dpb,0.75,names = F),
máximo = max(dpb),
média = mean(dpb),
desvio = sd(dpb),
iqr = IQR(dpb),
cv = sd(dpb)/`média`,
assimetria = DescTools::Skew(dpb),
curtose = DescTools::Kurt(dpb),
.by = c(contratacao, ano)
) |>
arrange(desc(contratacao), ano)|> group_by(contratacao) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_number(3:10, decimals=0) |> fmt_percent(cv, decimals=0) |>
fmt_number(c(assimetria, curtose), decimals=2) |>
gtTabOptions() |>
tab_header(
title = md(paste0(
"**Estatísticas descritivas da despesa mensal por beneficiário das ",
"operadoras**"
))
)
# Calcula a VDA por operadora
df.vda <-
df.vda0 |>
# coloca os anos em colunas
arrange(id_ops, contratacao, ano) |>
mutate(ano = if_else(ano==year(periodo[1]), "ano1", "ano2")) |>
pivot_wider(names_from=ano, values_from=c(despesa,benefm,dpb)) |>
# calcula VDA
mutate( vda = (dpb_ano2/dpb_ano1 - 1)*100 ) |>
# identifica valores extremos pelo critério BOXPLOT 1.5xIQR
mutate(
lg_outlier =
vda >= (quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T))
| vda <= (quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T)),
.by = contratacao
)
df.vda |>
filter(!is.na(vda)) |>
summarise(
n = n_distinct(id_ops),
mínimo = min(vda),
q1 = quantile(vda,0.25, names = F),
mediana = median(vda),
q3 = quantile(vda,0.75, names = F),
máximo = max(vda),
média = mean(vda),
desvio = sd(vda),
iqr = IQR(vda),
cv = sd(vda)/`média`,
assimetria = DescTools::Skew(vda),
curtose = DescTools::Kurt(vda),
.by = contratacao
) |>
arrange(desc(contratacao)) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_number(c(3:10,assimetria,curtose), decimals=2) |>
fmt_percent(cv, decimals=0) |>
gtTabOptions() |>
tab_header(
title = md(paste0(
"**Estatísticas descritivas da Variação da Despesa Assistencial por ",
"beneficiário das operadoras**"
))
)
df.plt <-
df.vda |> filter(!is.na(vda)) |>
# filter(vda <= 2000) |>
mutate(n=n(), .by = contratacao) |>
mutate(
outlier.color = if_else(lg_outlier, "red", NA),
contratacao = factor(contratacao,
levels = c("Individual","Empresarial","Adesão"))
)
contratacao_n <-
df.plt |>
summarise(n=n(), .by = contratacao) |>
mutate(label=paste0(contratacao," (",n," operadoras)")) |>
select(-n)
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)
suppressWarnings(print(
df.plt |>
ggplot(aes(x=vda, y=contratacao, fill=contratacao)) +
geom_boxplot(alpha=.5, show.legend=F, outlier.colour=NA, staplewidth=.5) +
# stat_summary(fun.y=mean, geom="point", size=2) + #dot for the mean
geom_jitter(color=df.plt$outlier.color, width = .3, alpha=.4) +
facet_wrap(
~contratacao, ncol = 1, scales = "free_y",
labeller = as_labeller(contratacao_n)
) +
scale_fill_brewer(palette="Dark2", direction=-1) +
scale_x_continuous(
labels = scales::label_number(big.mark = ".", decimal.mark = ",")
) +
theme(
legend.position = "none",
axis.text.y = element_blank(),
panel.grid.major.x = element_line(linetype = "dashed")
) +
labs(
title = "Boxplot da Variação da Despesa por Beneficiário (VDA) das Operadoras",
subtitle = "Valores extremos (outliers) em vermelho",
caption = "Fonte: ANS/DIOPS, ANS/SIB",
x=NULL, y="VDA (%)"
)
))
df.vda |>
filter(!is.na(vda)) |>
mutate(
lim.sup = quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T),
lim.inf = quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T),
.by = contratacao
) |>
summarise(
operadoras = n(),
outliers = sum(vda>lim.sup | vda<lim.inf),
pct = outliers/operadoras,
n.inf = sum(vda<lim.inf, na.rm = T),
n.sup = sum(vda>lim.sup, na.rm = T),
.by = c(contratacao, lim.inf, lim.sup)
) |>
select(contratacao, operadoras:pct, ends_with(".inf"), everything()) |>
arrange(desc(contratacao)) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
tab_spanner(label = "inferiores", columns = ends_with(".inf")) |>
tab_spanner(label = "superiores", columns = ends_with(".sup")) |>
cols_label(
starts_with("lim.") ~ "Limite",
starts_with("n.") ~ "outliers",
pct = "%"
) |>
fmt_percent(pct, decimals=1) |>
fmt_number(starts_with("lim."), decimals = 1) |>
gtTabOptions() |>
tab_header(
title = md("**Valores extremos (outliers)**"),
subtitle = paste0(
"Identificados pela metodologia de intervalo interquartílico",
" (1.5 x IQR)"
)
)
df.plt <-
df.vda |>
filter(!is.na(lg_outlier) & !lg_outlier) |>
mutate(
contratacao = factor(contratacao, levels=c("Individual",
"Empresarial",
"Adesão"))
)
contratacao_n <-
df.plt |>
summarise(n=n(), .by = contratacao) |>
mutate(label=paste0(contratacao," (n=",n," operadoras)")) |>
select(-n)
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)
mediaP <-
df.plt |>
summarise(gr.mediaP = weighted.mean(vda, w=benefm_ano2), .by=contratacao) |>
mutate(benefm_ano2=.2)
df.plt |>
ggplot(aes(x=vda, fill=contratacao, color=contratacao, weight=benefm_ano2)) +
geom_histogram(aes(y=after_stat(density)), alpha=.5, binwidth=1) +
# geom_density(alpha=.4, adjust=.5) +
geom_vline(data=mediaP, aes(xintercept=gr.mediaP), color="black") +
geom_text(
data = mediaP,
aes(
x = gr.mediaP, y = benefm_ano2,
label=paste0("Média ponderada: ",
scales::number(gr.mediaP, accuracy=.01),
"%")
),
nudge_x = 1, color = "black", size=3, hjust=0
) +
facet_wrap(
~contratacao, ncol = 1, scales="free_y",
labeller = as_labeller(contratacao_n)
) +
scale_color_brewer(palette="Dark2", direction=-1) +
scale_fill_brewer(palette="Dark2", direction=-1) +
scale_x_continuous(
expand = expansion(mult=c(0.01,0.01)),
breaks=scales::breaks_width(10)
) +
scale_y_continuous(expand = expansion(mult = c(0,.1))) +
# coord_cartesian(xlim=c(-10,65)) +
theme(
legend.position = "none",
panel.grid.major = element_line(linetype="dashed")
) +
labs(
title = paste0(
"Histograma da variação da despesa por beneficiário (VDA) das Operadoras"
),
subtitle = paste0(
"Frequência ponderada pelo tamanho da carteira da operadora. ",
"Exclui valores extremos."
),
caption = paste0(
"Fonte: ANS/DIOPS, ANS/SIB\n",
"Notas: Exclui valores extremos pela metodologia de intervalo ",
"interquartílico (boxplot)."
),
y = "Densidade",
x = "VDA (%) - intervalos: 1 pt percentual"
)
rm(df.plt, mediaP, contratacao_n, df.vda0); gc()
# GERA O CADOP NOVAMENTE COM NOMES DE OPERADORAS APÓS TRATAMENTO e
# "LG_" ALTERADO PARA 1/0
ta.cadop <-
left_join(
ta.cadop |> select(-razao_social),
arrow::read_parquet("../_datasets/vw_cadop.parquet") |>
select(id_ops, razao_social),
join_by(id_ops)
) |>
mutate(across(starts_with("lg_"), ~if_else(.x, 1L, 0L)))
# Base completa que reúne todas as operadoras dos dois anos
df.reunida <-
full_join(
sib |>
mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
lg_excl_benef = if_else(lg_excl_benef,1L,0L)) |>
pivot_wider(
names_from = ano,
values_from = benefm,
values_fill = 0, names_prefix = "ben_"),
diops |>
mutate(ano = if_else(ano==year(periodo[1]),"ano1","ano2"),
lg_excl_despesa = if_else(lg_excl_despesa,1L,0L)) |>
pivot_wider(
names_from = ano,
values_from = c(despesa, receita),
values_fill=0
),
join_by(id_ops, contratacao)
) |>
mutate(
# Calcula despesa por beneficiário nos dois anos
dpb_ano1 = if_else(despesa_ano1 > 0 & ben_ano1 > 0,
despesa_ano1/ben_ano1/12,
NA),
dpb_ano2 = if_else(despesa_ano2 > 0 & ben_ano2 > 0,
despesa_ano2/ben_ano2/12,
NA),
) |>
# Inclui flags de operadoras excluídas por outros motivos
inner_join(ta.cadop, join_by(id_ops)) |>
full_join(
df.vda |>
select(id_ops, contratacao, lg_outlier, vda) |>
mutate(lg_outlier = if_else(lg_outlier, 1L, 0L)),
join_by(id_ops, contratacao)
) |>
select(
id_ops, razao_social, modalidade,
contratacao,
starts_with('lg_'),
starts_with('receita'), starts_with('despesa'), starts_with('ben'),
everything()
) |>
mutate(
# Se a variável estiver zerada, transforma em vazio
across(receita_ano1:ben_ano2, ~na_if(.x, 0)),
# Se o flag de exclusão estiver vazio, marca como exclusão
across(lg_excl_benef:lg_ressalva, ~coalesce(.x, 1L)),
) |>
# Exclui observações que não tenham nem informação de despesa nem
# de beneficiários da base
filter(
!(is.na(despesa_ano1)
& is.na(despesa_ano2)
& is.na(ben_ano1)
& is.na(ben_ano2))
)
df.reunida |>
summarise(
"% Beneficiários" = sum(ben_ano2[!is.na(vda)])/sum(ben_ano2, na.rm = T),
"% Operadoras (SIB)" = sum(!is.na(vda))/sum(!is.na(ben_ano2)),
"% Despesa" = sum(despesa_ano2[!is.na(vda)])/sum(despesa_ano2, na.rm = T),
"% Operadoras (DIOPS)" = sum(!is.na(vda))/sum(!is.na(despesa_ano2)),
.by = contratacao
) |>
pivot_longer(cols = 2:5, values_to = "percentual", names_to = 'Metrica') |>
mutate(Metrica = factor(Metrica, levels=c("% Beneficiários","% Operadoras (SIB)",
"% Despesa", "% Operadoras (DIOPS)"))) |>
ggplot(aes(x = contratacao, y=percentual)) +
geom_col(fill = "slategray4",width=.75) +
geom_text(aes(label = scales::percent(percentual, accuracy = .1), vjust = 2),
position = position_dodge(1), size=3, color = "white") +
scale_y_continuous(breaks=NULL, expand = expansion(mult = c(0,0)),
limits = c(0,1)) +
theme(panel.grid.major.x = element_blank(),
axis.text=element_text(size=8)) +
labs(x=NULL, y=NULL,
title = "Representatividade da amostra",
subtitle = "% da base original") +
facet_wrap(Metrica ~ ., nrow = 2)
df.reunida |>
summarise(
Beneficiários = sum(ben_ano2, na.rm = T),
"Beneficiários VDA" = sum(ben_ano2[!is.na(vda)], na.rm = T),
"%" = `Beneficiários VDA`/`Beneficiários`,
.by = contratacao
) |>
arrange(desc(contratacao)) |>
gt(rowname_col="stub", locale="pt") |> sub_missing() |>
fmt_integer(2:3) |> fmt_percent(4, decimals=1) |>
gtTabOptions() |>
tab_header(title = md("**Representatividade da amostra - Beneficiários**"))
rm(df.vda)
dfs <- ls()[sapply(mget(ls(), .GlobalEnv), is.data.frame)]
for (df in dfs) {
get(df) |>
mutate(across(where(is.factor), ~ enc2utf8(as.character(.x)))) |>
mutate(across(where(is.character), ~ enc2utf8(as.character(.x)))) |>
write.csv2(
str_c(c("../Documentos/_basesR/", df, ".csv"), sep = "", collapse = ""),
row.names=FALSE, fileEncoding="UTF-8", na=""
)
}
remove(df, dfs)