Plik Parquet to format przechowywania kolumnowego zaprojektowany do efektywnego przechowywania danych tabelarycznych. Jest to format binarny, który pozwala na lepszą kompresję i kodowanie danych, co skutkuje optymalizacją przechowywania i szybszymi operacjami odczytu. Został stworzony, aby wspierać prace z dużymi zbiorami danych w rozproszonych systemach przetwarzania, takich jak Hadoop i Spark.
pandas
oraz pyarrow
. Oto przykładowy kod:
import pandas as pd
import pyarrow.parquet as pq
# Odczytanie pliku Parquet do DataFrame pandas
df = pd.read_parquet('ścieżka_do_pliku.parquet')
# Wyświetlenie zawartości DataFrame
print(df)
pyarrow
jest bezpośrednio związana z Apache Arrow, co gwarantuje wysoką wydajność odczytu i zapisu plików Parquet w Pythonie.
Hybrid Poplar Sp. z o.o.
VAT ID: PL5213892597
ul. Ksawerów 3,
02-656 Warszawa
Copyright © 2024 bigglo | Wszelkie prawa zastrzeżone.
Hybrid Poplar Sp. z o.o.
VAT ID: PL5213892597
ul. Ksawerów 3,
02-656 Warszawa
Copyright © 2024 bigglo.pl
Ustawienia plików cookies
Informacje o plikach cookies
Szanujemy Twoją prywatność