TL;DR
Neste artigo vamos apresentar nossa base de Diretórios Brasileiros, que está disponível no nosso datalake público (a BD+), onde disponibilizamos diversas bases de dados públicas já tratadas, organizadas e integradas para análise. Também vamos demonstrar como essa base facilita o cruzamento entre tabelas de diferentes conjuntos de dados e como você pode aplicá-la em sua análise.
A Base de Diretórios Brasileiros
Essa base é uma referência de centralização de informações de unidades básicas para análises e funciona como um perfil completo de entidades como município, escola, UF, setores censitários e mais. São tabelas que ligam diversos códigos institucionais e informações de diferentes entidades brasileiras.
Isso é importante porque resolve o problema de não existir um identificador único para municípios entre as instituições brasileiras, resolve a mudança de IDs e nomes com typos entre anos e instituições, além de IDs novos de municípios que são criados ao longo do tempo.
Por exemplo, para municípios, essa base liga conjuntos de organizações como IBGE, Receita Federal, Tribunal Superior Eleitoral (TSE), Banco Central do Brasil, comarcas, região de saúde, etc.
Cada tabela dessa base representa uma entidade do nosso datalake público, como UF
, municipio
, escola
, distrito
, setor_censitario
, categorias CID-10
e CID-9
, CBO-2002
e CBO-1992
, dentre outras.
Os diretórios criam naturalmente relações entre as diferentes entidades. Por exemplo, a tabela município possui uma coluna sigla_uf
, ou seja, nela identificamos a qual UF
o município pertence. O mesmo vale para escola
, podemos identificar em qual município determinada escola está localizada.
Para exemplificar como a base de Diretórios Brasileiros facilita o cruzamento de diferentes conjuntos, preparamos os seguintes exemplos de aplicações que demonstram como você pode lançar mão dessa ferramenta em suas análises, apenas com uma query de SQL no BigQuery.
Exemplo de aplicação
- Indicadores de Mobilidade e Transportes
No primeiro exemplo, cruzamos a tabela municipio
da base de Diretórios Brasileiros com a tabela tempo_deslocamento_casa_trabalho
, da base de Indicadores de Mobilidade e Transporte da Mobilidados, que contém dados sobre tempo médio de deslocamento casa-trabalho, assim como de percentual de pessoas que gastam mais de uma hora neste deslocamento no ano de 2010.
Para isso, usamos como chave primária a coluna id_municipio
. O objetivo é adicionar as colunas regiao e municipio no novo conjunto de dados. Assim, além de saber o nome dos municípios, também é possível fazer o agrupamento por cidade, grande região ou por estado e ver qual destes têm o tempo médio de deslocamento maior ou menor.
Confira abaixo a Query utilizada:
WITH deslocamento_casa_trabalho as
(SELECT ano, id_municipio, tempo_medio_deslocamento
FROM `basedosdados.br_mobilidados_indicadores.tempo_deslocamento_casa_trabalho`)
SELECT t1.id_municipio, regiao, nome as municipio, sigla_uf, tempo_medio_deslocamento
FROM deslocamento_casa_trabalho t1
JOIN `basedosdados.br_bd_diretorios_brasil.municipio` t2
ON t1.id_municipio = t2.id_municipio
- Dados de importações e exportações brasileiras
No segundo exemplo, usamos a tabela pais
da base de Diretórios, com a tabela municipio_importacao
da base Comex Stat, que contém dados detalhados das exportações e importações brasileiras, extraídas do SISCOMEX. Esta tabela específica aborda dados de importação, detalhados por município e empresa importadora.
Neste exemplo, usamos como chave primária a coluna id_pais
para extrair da base de Diretórios o nome do país.
Ao rodar query, teremos como resultado, além do ID do País e Valor da Importação, o nome do país, ou seja, os destinos das importações do Brasil no ano de 2020.
Você pode utilizar a query abaixo para acessar o destino das importações do Brasil no ano de 2020:
WITH importacao as
(SELECT ano, id_pais, sigla_uf, SUM(valor_fob_dolar) AS importacao
FROM `basedosdados-dev.br_me_comex_stat.municipio_importacao`
WHERE ano = 2020
GROUP BY ano, sigla_uf, id_pais
ORDER BY importacao DESC)
SELECT t1.ano, t1.id_pais, nome, importacao, sigla_uf
FROM importacao t1
JOIN `basedosdados-dev.br_bd_diretorios_brasil.pais` t2
ON t1.id_pais = t2.id_pais
GROUP BY ano, sigla_uf, nome, id_pais, importacao
ORDER BY importacao DESC
```
Vale lembrar que o cruzamento entre bases não é realizável apenas porque a base de Diretórios funciona como uma espécie de dicionário. Além deste fator, existe o **padrão de qualidade da Base dos Dados**, ou seja, nós compatibilizamos todos os dados para que possam ser cruzados entre tabelas. A limpeza das bases disponíveis em nosso datalake público envolve um rigoroso processo de padronização e compatibilização de dados.
Ficou com alguma dúvida sobre nossa base de Diretórios Brasileiros, ou como aplicá-la? Deixe seu comentário ou procure algum de nossos assistentes de dados no canal *#dados* em nossa [comunidade do Discord](https://discord.com/invite/huKWpsVYx4).
A Base dos Dados é uma iniciativa sem fins lucrativos e nossa equipe trabalha sempre para facilitar seu trabalho ou pesquisa. Nós criamos nosso datalake público e padrão de dados para que *a distância entre você e sua análise seja apenas uma boa pergunta*. Que tal nos ajudar nessa empreitada? Você pode apoiar a BD mensalmente por [aqui](https://apoia.se/basedosdados) ou via PIX com nossa chave CNPJ 42494318000116. Seu apoio nos ajuda a chegar mais perto da nossa missão de universalizar o acesso a dados de qualidade no Brasil!
Top comments (0)