Plik Parquet to format przechowywania kolumnowego zaprojektowany do efektywnego przechowywania danych tabelarycznych. Jest to format binarny, który pozwala na lepszą kompresję i kodowanie danych, co skutkuje optymalizacją przechowywania i szybszymi operacjami odczytu. Został stworzony, aby wspierać prace z dużymi zbiorami danych w rozproszonych systemach przetwarzania, takich jak Hadoop i Spark.
pandas
oraz pyarrow
. Oto przykładowy kod:
import pandas as pd
import pyarrow.parquet as pq
# Odczytanie pliku Parquet do DataFrame pandas
df = pd.read_parquet('ścieżka_do_pliku.parquet')
# Wyświetlenie zawartości DataFrame
print(df)
pyarrow
jest bezpośrednio związana z Apache Arrow, co gwarantuje wysoką wydajność odczytu i zapisu plików Parquet w Pythonie.
Ustawienia plików cookies
Informacje o plikach cookies
Szanujemy Twoją prywatność