W 2009 roku zespół inżynierów Yandex stanął przed wyzwaniem: jak analizować miliardy zdarzeń dziennie w czasie rzeczywistym? Tradycyjne bazy danych nie nadążały. Z tego problemu narodził się ClickHouse – system, który dziś jest wyceniany na 6,35 miliarda dolarów i obsługuje dane w takich firmach jak Uber, Netflix, Sony czy Anthropic (twórcy sztucznej inteligencji Claude).
Co ciekawe, ClickHouse początkowo nie był produktem komercyjnym. Do 2016 roku działał wyłącznie wewnątrz Yandex. Gdy został udostępniony jako projekt open-source, nastąpił gwałtowny wzrost jego popularności. W maju 2025 roku firma pozyskała 350 milionów dolarów finansowania, podwajając wycenę w ciągu roku. Liczba płacących klientów wzrosła o 100% – z 1000 do 2000 firm.
Dlaczego technologia stworzona do analizy ruchu w rosyjskim Google stała się standardem w globalnych korporacjach? I co to oznacza dla polskiego rynku rekrutacyjnego?
ClickHouse to kolumnowa baza danych zaprojektowana do OLAP (Online Analytical Processing – analityczne przetwarzanie online) – czyli do szybkiej analizy ogromnych ilości danych. Różni się to fundamentalnie od tradycyjnych baz transakcyjnych (OLTP), które obsługują codzienne operacje jak zakupy w sklepie internetowym czy przelewy bankowe.
Kluczowa różnica: Jeśli tradycyjna baza to książka, którą czytasz stronę po stronie, to ClickHouse to indeks, który pozwala błyskawicznie znaleźć wszystkie wystąpienia konkretnego słowa w całej bibliotece. (jest to oczywiście duże uproszczenie, w celu lepszego zobrazowania, które mam nadzieję, że osoby techniczne rozumiejące temat doglębnie mi wybaczą)
W praktyce oznacza to:
System Yandex.Metrica – dla którego ClickHouse powstał – przetwarza obecnie ponad 20 miliardów wydarzeń dziennie i przechowuje ponad 20 trylionów rekordów. Większość tradycyjnych baz danych nie poradziłaby sobie z taką skalą.
Uber wybrał ClickHouse jako podstawę swojej platformy do analizy logów, wykorzystywanej codziennie przez setki programistów. System obsługuje wewnętrzne potrzeby logowania w zakresie różnorodnych obciążeń analitycznych.
Zeev Feldbeine, Principal Data Engineer w Vimeo, podsumował doświadczenia firmy następująco: ;W porównaniu do innych rozwiązań, które testowaliśmy i tego co mieliśmy wcześniej, ClickHouse po prostu je miażdży. Jest bardzo, bardzo tani, a jakość jest ekstremalnie wysoka.
Coinhall, platforma do handlu kryptowalutami, pierwotnie używał BigQuery. Problem był taki, że wraz ze wzrostem danych, rosły zarówno koszty jak i problemy z wydajnością. Firma przetestowała kilka alternatyw i ostatecznie wybrała ClickHouse jako wyraźnego zwycięzcę pod względem kosztów i wydajności.
Ankush, CTO LangChain (platformy do budowy aplikacji wykorzystujących duże modele językowe), wyjaśnił: ;Kiedy wchodziliśmy w przestrzeń observability i analityki dla LLM, zdecydowaliśmy się oprzeć LangSmith na ClickHouse zamiast na Postgres.;[^24] Dlaczego? PostgreSQL nie skaluje się dobrze w przypadku obciążeń analitycznych. ClickHouse został stworzony właśnie do tego celu.
1. Prędkość przetwarzania
ClickHouse przetwarza setki milionów wierszy na sekundę na pojedynczym serwerze. Dla porównania, konkurencyjne systemy z 2012 roku osiągały setki tysięcy wierszy na sekundę.
Konkretny przykład: zapytania, które w Snowflake i PostgreSQL trwały ponad minutę lub kończyły się przekroczeniem czasu, w ClickHouse działają w 6 sekund – bez wykorzystania pamięci podręcznej.
2. Kompresja danych
ClickHouse osiąga współczynnik kompresji 16:1 w środowiskach produkcyjnych.
ClickHouse Cloud w Yandex przetwarza ponad 10 petabajtów danych telemetrycznych, które po kompresji zajmują 600 terabajtów.
To nie tylko oszczędność miejsca – to także szybsze zapytania, ponieważ system musi odczytać mniej danych z dysku.
3. Porównanie kosztów: ClickHouse a Snowflake
Według analizy przeprowadzonej przez Vantage, w jednym ze scenariuszy użycia ClickHouse generował oszczędności w wysokości 72,3% na kosztach obliczeń w porównaniu do Snowflake Enterprise.
Dlaczego? Snowflake ma bardziej skomplikowany model cenowy:
ClickHouse ma prostszy model:
Dla obciążenia działającego całodobowo w AWS US-East-1, różnica w kosztach między Snowflake Enterprise a ClickHouse Production może być znacząca przy lepszej wydajności tego drugiego.
4. Skalowalność
Cloudflare, który szeroko wykorzystuje ClickHouse do analityki, zarządzania botami i dashboardów klientów, analizuje logi z trilionów requestów. System pozwala firmie identyfikować złośliwy ruch i dostarczać klientom szczegółowe analizy w czasie rzeczywistym, obsługując miliony logów na sekundę.
Przypadki użycia: Gdzie ClickHouse dominuje?
1. Observability i monitoring
ClickHouse stał się de facto standardem dla systemów observability. Uber, Shopify oraz IBM (w produktach QRadar i Instana) wykorzystują go do:
Dlaczego: Logi to dane szeregów czasowych, dopisywane sekwencyjnie, o wysokiej kompresji – idealne dla ClickHouse.
2. Real-time analytics
Firmy takie jak Instacart wykorzystują ClickHouse do:
Przewaga: Zapytania na miliardach wierszy wykonywane w czasie kliknięcia - to chyba nie prawda, ale gdyby stąd pochodziła nazwa nazwa systemu, gra słowna warta uwagi.
Deutsche Bank zmigrował swój magazyn danych na ClickHouse, obsługując:
Przed wyborem ClickHouse bank testował różne rozwiązania. Ostatecznie pozostał przy kombinacji Spark i ClickHouse.
3. Technologie reklamowe i analityka marketingowa
Tatari, firma zajmująca się analizą reklam telewizyjnych, przeszła z Aurora PostgreSQL na ClickHouse, gdy codzienne przetwarzanie 600 milionów wierszy stało się wąskim gardłem. Plan rozwoju zakładał wzrost do miliarda wierszy dziennie – tylko ClickHouse mógł to obsłużyć.
4. Gaming i analityka produktowa
Character.AI, platforma wykorzystująca sztuczną inteligencję, zmigrował na ClickHouse dla potrzeb observability. Mustafa Yildirim, inżynier SRE w firmie, opisał różnicę: ;Wcześniej zapytanie o ostatnie 10 minut danych trwało 1-2 minuty. Z ClickStack to kwestia mrugnięcia oka. Wydajność jest realna.
Wyzwania techniczne i ograniczenia
Żadna technologia nie jest idealna. ClickHouse ma swoje kompromisy:
1. Wydajność operacji łączenia tabel (JOIN)
ClickHouse nie jest zoptymalizowany pod operacje JOIN tak jak tradycyjne relacyjne bazy danych. Rozwiązanie? Denormalizacja – płaskie tabele zamiast znormalizowanych struktur relacyjnych. Wymaga to jednak przemyślenia architektury przetwarzania danych. Alternatywnie ClickHouse oferuje mechanizm słowników (Dictionaries) – przechowywane w pamięci operacyjnej struktury klucz-wartość, które przyspieszają operacje wyszukiwania przy łączeniu tabel.
2. Operacje UPDATE i DELETE
ClickHouse jest zaprojektowany do modelu, w którym dane są wyłącznie dopisywane. Operacje UPDATE i DELETE są kosztowne, ponieważ wymagają przepisania całych partycji danych.
Nowsze wersje wprowadziły lekkie usuwanie; (lightweight deletes) i ;części poprawek; (patch parts), ale system nadal nie jest przeznaczony do intensywnych modyfikacji danych.
Przypadek użycia: ClickHouse to nie baza dla sklepu internetowego (koszyk, stan magazynowy). To baza do analizy tego, co zostało sprzedane.
3. Stroma krzywa uczenia
ClickHouse ma dośc wysoki próg wejścia i specyficzne koncepty wymagające przyswojenia:
Implikacja dla rekrutacji: Nie każdy inżynier danych zna ClickHouse. To niszowa, choć szybko rosnąca kompetencja.
4. Brak pełnych transakcji ACID
ClickHouse nie obsługuje wieloinstrukcyjnych transakcji jak PostgreSQL. Dla obciążeń analitycznych to często nie stanowi problemu, ale wymaga przemyślenia architektury systemu.
Według danych TheirStack, zainteresowanie ClickHouse w Polsce systematycznie rośnie. Jako Yard Corporate zauważamy to również po prostu w zapytaniach od klientów. Choć to wciąż rozwijający się rynek w porównaniu do zachodnich standardów, globalne trendy wskazują na dynamiczny wzrost adopcji technologii.
Profile firm zatrudniających w Polsce, które pytały nas o specjalistów z ClickHouse:
Globalnie ClickHouse jest wykorzystywany przez ponad 4000 firm, z czego ponad 2000 to płacący klienci ClickHouse Cloud. W ciągu ostatniego roku liczba płacących klientów podwoiła się, co wskazuje na rosnące zaufanie przedsiębiorstw do tej technologii. Przyszłość: Era AI i bazy dla agentów.
ClickHouse pozycjonuje się jako ;baza dla agentów; (agent-facing database) – system zaprojektowany dla aplikacji wykorzystujących sztuczną inteligencję. Logika: AI agents generują zapytania znacznie szybciej niż ludzie. Potrzebna jest baza danych, która obsłuży:
Dlatego klienci skupieni na AI, tacy jak Anthropic (twórcy Claude), LangChain, Sierra czy Poolside, wykorzystują ClickHouse.
Prognoza: W miarę jak sztuczna inteligencja staje się powszechna, zapotrzebowanie na infrastrukturę, która to obsługuje – w tym ClickHouse – będzie rosnąć.
Z perspektywy rekrutacyjnej, w ciągu ostatnich 18 miesięcy zauważyliśmy wyraźny wzrost liczby projektów związanych z ClickHouse. To, co jeszcze dwa lata temu było sporadycznym zapytaniem od klienta z sektora fintech czy adtech, dziś staje się regularnym wymogiem w specyfikacjach stanowisk.
Nie wystarczy również, że inżynier stworzył, gdzieś kiedyś POC opartej o Clickhouse, które nie weszło na produkcję. W znakomitej większości przypadków klienci wymagają dogłębnego zrozumienia problemów dotyczących optymalizacji i skalowania by nie zakopali się w kosztach chmury.
Firmy, które migrują z tradycyjnych rozwiązań jak Snowflake czy BigQuery, potrzebują nie tylko wdrożyć technologię – potrzebują ludzi, którzy rozumieją jej specyfikę. I tu zaczyna się wyzwanie: pula specjalistów z realnym, produkcyjnym doświadczeniem w ClickHouse jest wciąż niewielka. Z perspektywy osoby pracującej przy bazach danych, osobiście wydaję mi się, że duży wyróżnik na rynku.
Patrząc na trajektorię wzrostu, ClickHouse przypomina Elasticsearch sprzed kilku lat.
Elasticsearch również zaczynał jako niszowe narzędzie do wyszukiwania, by stać się de facto standardem w observability i analityce logów. Podobny pattern: open source → gwałtowny wzrost adopcji → enterprise standard.
ClickHouse przechodzi podobną drogę. Od wewnętrznego narzędzia Yandex, przez niszowy projekt open source, do technologii wykorzystywanej przez Netflix, Ubera i Teslę. Wycena w wysokości 6,35 miliarda dolarów i podwojenie liczby klientów rok do roku to sygnały, których nie można ignorować.
Bibliografia: