BigQuery – Wszystko co musisz wiedzieć o narzędziu w 2024

Google BigQuery – czym jest i jak działa?
Poradnik dla początkujących

Grafika pokazująca odwrócony proces ETL
Z BigQuery pracuję już prawie od dekady. Metamorfoza jaką przeszło to narzędzie w tym czasie jest imponująca. Google zamieniło brzydki interfejs do odpytywania danych w super intuicyjną i wysoce funkcjonalną platformę analityczną.
Dzisiaj chciałbym  przeprowadzić Cię po tych wszystkich funkcjonalnościach, oraz pokazać jak ogromną wartość mogą mieć one dla Twojego biznesu.

Czym jest Google BigQuery?

BigQuery to wysoce skalowalna, bezserwerowa hurtownia danych działająca w chmurze. Umożliwia ona analizowanie ogromnych ilości danych bez konieczności zarządzania infrastrukturą. Na tle konkurencji wyróżnia się szeregiem funkcji i możliwości, które sprawiają, że jest popularnym wyborem dla przedsiębiorstw i organizacji poszukujących potężnych narzędzi do przetwarzania i analizy danych.

Jeszcze kilka lat temu o BigQuery mówiło się w kontekście Hurtowni Danych. Biorąc jednak pod uwagę szereg nowo dodanych funkcjonalności oraz integracji z całym ekosystemem Google Cloud nazywanie jej tylko hurtownią danych jest nie tylko mocnym uproszczeniem ale też poważnym niedomówieniem. Narzędzie to praktycznie samo w sobie może już nosić miano mocno zaawansowanej, nowoczesnej platformy analitycznej. Poniżej znajdziesz alternatywę video do wpisu w wersji tekstowej.

Charakterystyka narzędzia

Zanim przejdę do opisania tego jak możesz wykorzystać hurtownię danych bigquery w biznesie skupmy się na kilku elementach charakterystycznych dla tego narzędzia.

Zastosowanie w biznesie

Z roku na rok Google BigQuery ma coraz szersze zastosowanie w biznesie. Bardzo istotną rolą  jest możliwość załadowania i przechowywania Twoich danych z różnych źródeł w jedno miejsce. Dzięki temu znacznie zwiększasz możliwości analityczne swojego biznesu mogąc tworzyć raporty, analizy i modele uwzględniające dane z wielu narzędzi i programów, z których korzystacie na co dzień.

BigQuery przestaje być również miejscem z którego korzystają tylko analitycy i inżynierowie danych. Dobrze skonstruowana hurtownia daje wiele możliwości interakcji z danymi. Menedżerowie i specjaliści mogą łatwo  zintegrować dane z narzędziami, które znają i korzystają na co dzień, takimi jak Google Sheets, Excel czy Google Slides.

Poniżej spisałem obszary, które są najpopularniejszymi zastosowaniami narzędzia w codziennych potrzebach biznesowych.

Analityka

Zadania analityczne będą jednymi z najczęściej wykonywanych operacji. Pracę z danymi ułatwi nam język SQL. Do wyboru mamy standard SQL lub legacy SQL. Dla miłośników pythona mamy dobrą informację. W BigQUery Studio w prosty sposób możesz skorzystać z notatnika Google Collab z gotową bazą bibliotek pythonowych do analizy i eksploracji danych takich jak Pandas czy Numpy.

Dodatkowo, narzędzie umożliwia przeprowadzenie szybkiej eksploracji waszych danych za pomocą konsoli, narzędzia DataPlex, DataPrep lub za pomocą Looker Studio. Jeśli macie potrzebę zaawansowanej pracy na danych geograficznych, z pomocą przyjdzie wam przeznaczone do tego BigQuery Geo VIZ.

Zastosowanie hurtowni danych Google BigQuery w Analityce

Machine Learning

BigQuery ML daje wam możliwość tworzenia i trenowania modeli typu machine learning przy pomocy języka SQL.
Jest to ogromna zaleta przede wszystkim dla mniejszych firm, które nie potrzebują ponosić dodatkowych kosztów na zatrudnianie ludzi o różnych kompetencjach programistycznych aby stworzyć zaawansowane modele rekomendacyjne, prognostyczne czy klasyfikacyjne.

Zastosowanie hurtowni danych Google BigQuery w Machine Learningu

Całość możecie obsłużyć w ramach interfejsu używając funkcji BigQuery ML. Jeśli macie jednak bardziej zaawansowane potrzeby tworzenia modeli ML, tabele przechowywane w hurtowni danych możecie w prosty sposób zintegrować z bardziej zaawansowanymi narzędziami i platformami wspomagającymi tą część analityki.

Sztuczna Inteligencja

Od niedawna w narzędziu posiadamy możliwość prostej integracji z modelami sztucznej inteligencji udostępnionymi przez Vertex AI. Dzięki temu możemy za pomocą języka SQL tworzyć bardzo zaawansowane analizy z wykorzystaniem modeli językowych i multimodalnych bezpośrednio na danych zawartych w naszych tabelach.

Zastosowanie hurtowni danych BigQuery w sztucznej inteligencji
Jest to o tyle przełomowe rozwiązanie, że modele językowe możemy bardzo prosto włączyć w proces analityczny naszych danych tekstowych, dokumentów i obrazów bez potrzeby kodowania bardzo zaawansowanych procesów oraz platform AI. Dodatkowo w pełni kontrolujemy bezpieczeństwo tego jak modele wykorzystują nasze dane mając pewność, że tylko my mamy wgląd zarówno do danych jak i promptów przekazywanych modelowi językowemu.

Business Intelligence

Jednym z zadań hurtowni danych BigQuery jest zasilanie narzędzi Business Intelligence danymi. Narzędzie posiada dedykowany silnik do przyspieszania czasu oczekiwania na działanie Twoich dashboardów analitycznych dzięki inteligentnemu cashowaniu danych. Dzięki temu Twoje Dashboardy będa działać ultra szybko nawet jeśli zasilane są ogromnymi zbiorami danych.
Zastosowanie hurtowni danych BigQuery w Business Intelligence

Ładowanie i Migracja Danych do BigQuery

Wiele czynności powiązanych z Google BigQuery będzie związanych z tworzeniem procesów ładowania danych. Rozróżnić możemy trzy rodzaje takich czynności. W pierwszej kolejności ładujemy dane historyczne z naszych źródeł. Taki backfill upewnia nas, że mamy dostęp do odpowiedniej historii danych do przeprowadzenia analiz.
W kolejnych krokach będziemy tworzyć procesy replikujące dane, które będą odzwierciedlać zmiany zachodzące w naszych oryginalnych źródłach. Te, możemy podzielić na strumieniowanie (streaming) oraz ładowanie wsadowe (batch processing).
Proces ładowania i migracji danych do BigQuery

Zupełnie innym scenariuszem będzie migracja już istniejącej hurtowni danych, którą możemy przeprowadzić zupełnie bezkosztowo z takich źródeł jak : Snowflake, Amazon Redshift, Apache Hive, Teradata, Oracle i IBM Netezza.

Przechowywanie Danych w BigQuery

Jedną z podstawowych funkcjonalności BigQuery jest przechowywanie ogromnych ilości danych. W teorii nie ma limitów odnośnie tego jak dużą ilość danych możemy załadować do naszej hurtowni danych. Są jednak przypadki, że mówimy o tak ogromnych ilościach danych, że tradycyjne sposoby migracji lub replikacji nie wchodzą w grę z powodu ograniczeń prędkości internetu i limitów ładowania narzędzia.

Jeśli potrzebujesz pilnie załadować ilości odpowiadające eksabajtom danych skontaktuj się ze sprzedażą Google a zagwarantują Ci fizyczny proces obsługi takiego inicjacyjnego backfillu.

Transformacja Danych w BigQuery

W większości przypadków dane do hurtowni będziemy ładować w formie surowej (w postaci tabel zastanych w oryginalnych źródłach danych). Aby jednak były one przydatne w naszych procesach analitycznych musimy je najpierw odpowiednio przygotować. Ten etap nazywamy transformacją danych.
Pisząc o transformacji mam na myśli tak naprawdę wiele różnych czynności. Najczęściej będziemy mieć na myśli różne działania polegające na łączeniu danych z różnych tabel, agregowaniu ich, filtrowaniu, czyszczeniu i tworzeniu zupełnie nowych kolumn, tabel i widoków, które będa lepiej spełniać dalsze potrzeby biznesowe.
Proces transformacji danych w Google BigQuery

Aby unikać zbędnych kosztów i manualnego uruchamiania tych samych zapytań, procesy transformacyjne najlepiej zautomatyzować. Do wykonywania działań transformacyjnych rekomendujemy natywne rozwiązanie Google Cloud – Dataform lub sprawnie integrujący się z GCP narzędzie dbt.

Udostępnianie/Publikacja danych

Jedną z istotnych funkcjonalności biznesowych jest możliwość udostępniania danych różnym interesariuszom. W BigQuery mamy dużo możliwości publikacji lub eksportu danych. Ludzie nie mający doświadczenia z językiem SQL mogą uzyskać dostęp do danych bezpośrednio z poziomu Google Sheets.

Opcjonalnie, dane można wyeksportować do plików płaskich, arkuszy kalkulacyjnych lub Looker Studio bezpośrednio z poziomu naszej hurtowni. Jedną z ciekawych możliwości dystrybucji danych wewnątrz organizacji działającej w zdecentralizowanej filozofii wymiany danych (tzw. Data Mesh) będzie Analytics Hub.
Proces udostępniania i publikacji danych

Administracja danych i użytkowników w BigQuery

Bezpieczeństwo danych Twojej firmy jest jednym z najważniejszych elementów w Twoim biznesie.
Szczególnie ważne jest aby wdrażać hurtownię danych mając na uwadze kto, kiedy i na jakiej zasadzie może mieć dostęp do Twoich danych. BigQuery w połączeniu z innymi funkcjonalnościami Google Cloud umożliwia szereg zabezpieczeń oraz monitorowania wszystkich akcji oraz zadań związanych z Twoimi danymi.

Dzięki temu możesz zarządzać bardzo szczegółowo dostępami oraz możliwościami eksportu danych poza obszar chmury Google. Dodatkowo BigQuery umożliwia analizowanie całej historii działań wszystkich użytkowników w Twojej organizacji oraz tworzenie alertów w momencie pojawienia się niepokojącego zachowania.

W BigQuery poza nadawaniem uprawnień na poziomie projektu, zbioru danych czy tabeli możesz zastosować row level policy lub column level policy ułatwiając dostęp różnym interesariuszom tylko do istotnych danych w ramach jednej tabeli.

Jakie są rodzaje ról i uprawnień w BigQuery?

Rola Opis uprawnień
Admin Zapewnia uprawnienia do zarządzania wszystkimi zasobami w ramach projektu.
Data Editor (roles/bigquery.dataEditor) Na poziomie tabeli lub widoku:
  • Odczytu i aktualizacji danych i metadanych dla tabeli lub widoku.
  • Usuwania tabeli lub widoku.

Na poziomie datasetu:
  • Odczytywanie metadanych datasetu i wyświetlanie tabel.
  • Tworzenie, aktualizowanie, pobieranie i usuwanie tabel i zestawów danych.
Data Owner (roles/bigquery.dataOwner) Na poziomie tabeli lub widoku:
  • Odczyt i aktualizacja danych i metadanych dla tabeli lub widoku.
  • Udostępnianie i usuwanie tabeli lub widoku.

Na poziomie datasetu:
  • Odczytu, aktualizacji i usuwania zestawu danych.
  • Tworzenia, aktualizowania, pobierania i usuwania tabel zestawu danych.
Data Viewer (roles/bigquery.dataViewer) Na poziomie tabeli lub widoku:
  • Odczyt danych i metadanych z tabeli lub widoku.

Na poziomie datasetu:
  • Wyświetlanie listy wszystkich zasobów w zestawie danych (takich jak tabele, widoki, migawki, modele i procedury) oraz odczytywanie danych i metadanych za pomocą odpowiednich interfejsów API i zapytań.

Na poziomie projektu:
  • Wyliczanie wszystkich zestawów danych w projekcie.
Job User (roles/bigquery.jobUser) Zapewnia uprawnienia do uruchamiania zadań, w tym zapytań, strumieniowania i transferów w ramach projektu.
Istnieje więcej standardowych ról w BigQuery. Role te możecie przypisać do tabeli, datasetu lub całego projektu. W zależności od tego co wybierzecie zmienią się możliwości tego użytkownika. Alternatywą jest stworzenie roli niestandardowej, przypisując do niej tylko te uprawnienia z których chcemy aby konkretna osoba lub grupa osób mogła skorzystać.

Zarządzanie, Katalogowanie i opisywanie danych

Jedną z najważniejszych czynności w dojrzałej organizacji wspieranej danymi są działania związane z opisywaniem i zarządzaniem jakością naszych danych. W dzisiejszych czasach stało się to szczególnie istotne. Niepoprawne zrozumienie danych podczas używania przez analityków, developerów BI i użytkowników biznesowych może prowadzić do wielu błędnych wniosków i katastrofalnych w skutkach decyzji biznesowych.
Zarządzanie danymi w Google BigQuery

Korzystając z DataPlex możemy zarządzać wszystkimi tymi operacjami w jednym miejscu. Dodatkowo tworząc procesy profilujące dane oraz testy jakości mamy możliwość ciągłego monitorowania problemów z kompletnością lub poprawnością naszych danych. W dojrzałej organizacji za te działania będzie odpowiedzialny Data Steward.

Ile kosztuje BigQuery?

To bardzo ważne pytanie dla tych, którzy myślą na poważnie o zaimplementowaniu narzędzia w swoim biznesie. Koszt BigQuery składa się z dwóch głównych elementów:

Poza tymi głównymi kosztami, zapłacisz za korzystanie z innych alternatywnych funkcjonalności dostępnych w narzędziu. Głównie chodzi o korzystanie z BigQuery Omni, BigQuery ML, BI Engine oraz strumieniowania danych do i z tabel.

Narzędzie oferuje również bezpłatny tier, w ramach którego masz dostępne 20 Gb miejsca na przechowywanie danych oraz 1 TB na computing w projekcie.

Jeśli Twoja firma pracuje bardzo dużo na danych, zamiast korzystać z modelu pay as you go możecie wykorzystać jedną trzech możliwych opcji tierowych zwanych edycjami.
Dzięki temu koszty narzędzia będą bardziej przewidywalne ponieważ z góry zapłacisz za możliwość korzystania ze slotów obliczeniowych.

Obecnie mamy trzy możliwe tiery, Standard, Enterprise i Enterprise plus z różnymi cenami za computing, o których więcej możesz przeczytać tutaj.
Poniżej również znajduje się tabela ukazująca stawki za różne usługi w Google BigQuery.
Usługi i wykorzystanie Typ subskrypcji Cena (USD)
Wersja bezpłatna Wersja darmowa zapewnia klientom 10 GiB miejsca na dane, do 1 TiB na obliczenia oraz dostęp do innych zasobów. Bezpłatnie
Obliczenia (Computing) On Demand

Zapewnia dostęp do 2000 slotów jednocześnie, współdzielonych między wszystkimi zapytaniami w ramach jednego projektu.

Od

$6,25

za TiB przeskanowanych danych. Pierwszy 1 TiB na miesiąc jest bezpłatny.

Wersja standardowa

Niskokosztowa opcja do standardowej analizy SQL

$0,04

za godzinę slotu

Wersja Enterprise

Zaawansowana analityka korporacyjna

$0,06

za godzinę slotu

Wersja Enterprise Plus

Analityka korporacyjna o znaczeniu krytycznym

$0,10

za godzinę slotu

Przechowywanie (Storage) Aktywna pamięć lokalna

W oparciu o nieskompresowane bajty używane w tabelach lub partycjach tabel zmodyfikowanych w ciągu ostatnich 90 dni.

Od

$0,02

za GiB. Pierwsze 10 GiB jest bezpłatne każdego miesiąca.

Długoterminowa pamięć logiczna

W oparciu o nieskompresowane bajty używane w tabelach lub partycjach tabel zmodyfikowanych przez 90 kolejnych dni.

Od

$0,01

za GiB. Pierwsze 10 GiB jest bezpłatne każdego miesiąca.

Aktywna pamięć fizyczna

W oparciu o skompresowane bajty używane w tabelach lub partycjach tabel zmodyfikowanych przez 90 kolejnych dni.

$0,04

za GiB. Pierwsze 10 GiB jest bezpłatne każdego miesiąca.

Długoterminowa pamięć fizyczna

W oparciu o skompresowane bajty w tabelach lub partycjach, które nie zostały zmodyfikowane przez 90 kolejnych dni.

$0,02

za GiB. Pierwsze 10 GiB jest bezpłatne każdego miesiąca.

Pozyskiwanie danych

Wczytywanie wsadowe 

Import tabeli z zasobnika w chmurze

Bezpłatnie

Podczas korzystania ze współdzielonej puli slotów

Ładowanie strumieniowe

Opłata naliczana jest za pomyślnie załadowane wiersze. Poszczególne wiersze są obliczane przy użyciu minimum 1 KB.

0,01 USD

za 200 MiB

BigQuery Storage Write API

Dane załadowane do BigQuery podlegają cenom przechowywania BigQuery lub cenom Cloud Storage.

0,025 USD

za 1 GiB. Pierwsze 2 TiB miesięcznie są bezpłatne.

Eksport danych

Eksport

Eksportuj dane tabeli do Cloud Storage.

Bezpłatnie

Odczyt - strumieniowanie

Dostępd do danych poprzez API

Od

1,10 USD

za odczytany TiB

Jak sprawdzić koszt BigQuery?

Jeśli chcesz śledzić na bieżąco koszt użycia narzędzia przejdź do strony Cloud Billing w konsoli Google Cloud i otwórz zakładkę reports.

Po prawej stronie w okienku filtrów wybierz usługę BigQuery. To pozwoli Ci lepiej zrozumieć ile płacisz dziennie za korzystanie z narzędzia.

SPIS TREŚCI
Ikona plików cookies

Ustawienia plików cookies

Używamy plików cookies, aby zapewnić Ci najlepsze wrażenia z korzystania z naszej strony. Możesz wybrać, które pliki cookies chcesz zaakceptować.
Ikona plików cookies

Informacje o plikach cookies

Szanujemy Twoją prywatność

Używamy plików cookies lub podobnych technologii w celu zapewnienia Ci dostępu do serwisu, usprawniania jego działania, profilowania i wyświetlania treści dopasowanych do Twoich potrzeb. W każdej chwili możesz zmienić ustawienia plików cookies lub podobnych technologii poprzez zmianę ustawień prywatności w przeglądarce bądź aplikacji lub zmianę swoich preferencji w zakładce Ustawienia cookies w stopce strony. Pamiętaj, że zmiana ta może spowodować brak dostępu do niektórych funkcji serwisu.
Dane osobowe dotyczące korzystania z serwisu, w tym zapisywane i odczytywane z plików cookies lub podobnych technologii będą przetwarzane w celu zapewnienia dostępu do serwisu, w celach marketingowych, w tym profilowania, w celach wewnętrznych związanych ze świadczeniem usług oraz prowadzeniem działalności gospodarczej, w tym dowodowych, analitycznych i statystycznych, wykrywania i eliminowania nadużyć oraz w celu wykonywania obowiązków wynikających z przepisów prawa.
Przysługuje Ci prawo do dostępu do danych, ich usunięcia, ograniczenia przetwarzania, przenoszenia, sprzeciwu, sprostowania oraz cofnięcia zgód w każdym czasie. Szczegółowe informacje dotyczące przetwarzania danych oraz przysługujących Ci uprawnień, informacje dotyczące plików cookies lub podobnych technologii, w tym dotyczące możliwości zarządzania ustawieniami prywatności, znajdują się w Polityce Prywatności.