Primeiramente foi coletado os dados e inserido em um data frame. Esses dados estão no formato csv e disponíveis no github. Por isso foi utilizado o link do raw no pd.read_csv().

Como se tratava de 11 banco de dados que foram lidos utilizamos uma lógica com o for que altera o link do raw e adiciona todos os dados em uma lista. Após adicionados, os dados foram concatenados e se transformaram em um único dataframe.

Untitled

O primeiro dataframe ficou com 2258018 linhas e 7 colunas:

Untitled

Em seguida, foi criado outro dataframe cujo os dados importados estavam no formato parquet. Para isso utilizamos o pd.read_parquet() e adicionamos os dados dentro de outro dataframe collection. Nessa célula também excluímos os itens duplicados da primeira tabela.

Untitled

A segunda coluna possuia 546237 linhas e 7 colunas:

Untitled

Em seguida mesclamos os dois dataframes:

Untitled

Assim, obtivemos um único dataframe com 2072522 linhas e 13 colunas.

Untitled