Primeiramente foi coletado os dados e inserido em um data frame. Esses dados estão no formato csv
e disponíveis no github. Por isso foi utilizado o link do raw no pd.read_csv().
Como se tratava de 11 banco de dados que foram lidos utilizamos uma lógica com o for que altera o link do raw e adiciona todos os dados em uma lista. Após adicionados, os dados foram concatenados e se transformaram em um único dataframe.
O primeiro dataframe ficou com 2258018 linhas e 7 colunas:
Em seguida, foi criado outro dataframe cujo os dados importados estavam no formato parquet
. Para isso utilizamos o pd.read_parquet()
e adicionamos os dados dentro de outro dataframe collection. Nessa célula também excluímos os itens duplicados da primeira tabela.
A segunda coluna possuia 546237 linhas e 7 colunas:
Em seguida mesclamos os dois dataframes:
Assim, obtivemos um único dataframe com 2072522 linhas e 13 colunas.