Tag Archives: Data platforms

A Snowflake 2023-as éve

A vezető adatplatformokról szóló sorozatunkban a Snowflake tavalyi évének legfontosabb eseményeit foglaljuk össze.

A Snowflake az újgenerációs, felhőben született adatplatformok egyik vezető képviselője, amely egy évtized alatt az adatos világ fontos szereplője lett. Működését és belső felépítését tekintve viszonylag hasonló a hagyományos adattárházas adatbáziskezelőkhöz, így a felhő felé forduló szakemberek számára könnyen érthető és kezelhető megoldást kínál.

A cég évente több alkalommal tart olyan rendezvényeket, ahol a platformhoz érkező újdonságokat jelenti be. Az egyik ilyen alkalom a júniusi Data Cloud Summit, ami egyben a cég éves felhasználói konferenciája is, a másik a novemberi Snowday virtuális esemény. A két konferencián összesen több tucatnyi újdonságot jelentettek be főleg a központi adatplatform, a natív alkalmazásfejlesztés és a data science/ML területekre fókuszálva.

Adatplatform újdonságok

Az adatmenedzsment és az adattárházas lekérdezések gyors és költséghatékony kiszolgálása továbbra is fontos cél a Snowflake számára, ennek érdekében folyamatosan fejleszti ezeket a funkciókat is.

Egységesített Iceberg támogatás

A Snowflake alapesetben saját belső, zárt formátumában tárolja az adatokat. Az utóbbi években azonban egyre népszerűbbé váltak a nyílt táblaformátumok, amelyek közül a Snowflake az Iceberget támogatja.

Az idei fejlesztéseknek köszönhetően az Iceberg táblák lekérdezése egységesebb és gyorsabb lesz, a metaadat-kezelésre pedig többféle adatkatalógus is használható lesz. A más technológiákat is használó cégek számára pedig az is fontos, hogy Apache Spark környezetből úgy is el lehet érni a Snowflake által menedzselt Iceberg táblákat, hogy nem kell közben a Snowflake compute erőforrásokért is fizetni.

Dinamikus streaming táblák

A még bétában lévő Dynamic Tables lehetővé teszi majd, hogy egyszerű SQL utasításokkal lehessen dinamikus táblákat definiálni, amelyek adattartalma automatikus frissül a források változása esetén. Megadható az is, hogy az egyes tábláknál mennyi késés (lag) az elfogadható, így szabályozható, hogy milyen sűrűn történjen az automatikus frissítés. A beépített algoritmus arra is figyel, hogy lehetőleg csak a ténylegesen új vagy megváltozott forrásadatok kerüljenek feldolgozásra.

Jobb költségmenedzsment

A Snowflake kritikusai leggyakrabban azt a problémát szokták említeni, hogy a platform költségei könnyen magasra szökhetnek. Ezt a problémát célozza a jelenleg fejlesztés alatt álló új Cost Management Interface, ami majd lehetővé teszi a költségek elemi, akár objektum szintű követését és általános vagy egyedi limitek beállítását, valamint költségcsökkentési ajánlásokat is ad.

Data Governance

A platform Data Governance megoldása a Snowflake Horizon, amely olyan újdonságokkal fog bővülni, mint az érzékeny személyes adatok biztonságosabb elemzését lehetővé tévő Differencial Privacy funkcionalitás. Említésre érdemes még a jelenleg zárt bétában lévő Data Quality Monitoring funkció és az Data Lineage UI is.

AI és ML újdonságok

A Data Science jellegű alkalmazások kiemelten fontosak a Snowflake számára, már csak azért is, mert ezen a területen a legnagyobb vetélytársnak számító Databricks jóval előrébb jár.

Document AI

A júniusi konferencián bejelentett LLM alapú megoldás a szöveges dokumentumok feldolgozásában segít. A Document AI a 2022-ben felvásárolt Applica.ai TILT modelljére épül, amely különösen jól használható üzleti dokumentumok feldolgozására (archív poszt 1 és poszt 2). A szoftver működéséről további érdekes részleteket a Snowflake termékmenedzserének blogposztjában lehet olvasni.

Snowflake Cortex

A novemberi Snowday-en aztán bejelentették a Cortexet, amely egy központi menedzselt szolgáltatás ML és LLM fejlesztésekhez.

A Cortex keretein belül a Document AI mellett a következő szolgáltatások lesznek elérhetőek:

  • Snowflake Copilot: SQL lekérdezések generálása szöveges parancsokkal
  • Universal Search: LLM alapú adat- és metaadat-kereső, amely segít megtalálni az éppen kellő adatbázis objektumokat vagy alkalmazásokat

A fenti LLM-alapú megoldások mellett a Cortex részeként számos önállóan is használható ML funkció is érkezik majd, többek között lesz szövegösszesítés, szentimentdetektálás és fordítás is. A hagyományosabb ML problémák megoldására pedig forecasting és anomáliadetektálási modellek is rendelkezésre állnak.

Data science és ML támogatás

A Snowflake a Cortex mellett számos további data science eszközön is dolgozik:

  • Snowflake Notebooks: A közkedvelt notebook-alapú felhasználó interfész natív változata, amely képes Python és SQL kódokat futtatni.
  • Snowpark ML Modeling API: Lehetővé teszi a népszerű scikit-learn keretrendszerhez hasonló Python ML funkciók rendszeren belüli futtatását, így nem kell az adatokat kliens oldalra áttölteni.
  • Snowpark Model Registry: Az ML modellek adminisztációját segítő, júniusban bejelentett szolgáltatás egyelőre zártkörű bétában van, a részletekről itt lehet olvasni.
  • Snowflake Feature Store: Az ML modellek által használt számított mezők központi tárolására szolgál. A különböző objektumokat SQL nyelvű interfészeken keresztül lehet létrehozni és menedzselni, de emellett Python API is rendelkezésre áll majd.

A fenti komponensek nagy része még fejlesztés alatt áll vagy zártkörű bétában van, de az már látszik, hogy egy valóban teljes körű data science és ML platform van készülőfélben.

Adatnatív alkalmazások

A Snowflake egyik legérdekesebb stratégiai fejlesztési iránya az adatnatív alkalmazások közvetlen támogatása. A 2022-ben élesedett Snowpark már lehetővé tette, hogy a hagyományos SQL mellett Java és Scala vagy akár Python nyelven írt alkalmazások fussanak közvetlenül a Snowflake felhőjében. Ennek a megközelítések nagy előnye, hogy adatokat nem kell mozgatni, így nincsenek ingress/egress költségek, valamint az architektúra egésze a Snowflake központi jogosultságkezelése alá tartozik.

Konténerek támogatása

A 2023-as év nagy dobása ezen a területen a Snowpark Container Services, amely egy Kubernetes alapú, szintén teljesen integrált, "belső" konténerszolgáltatás.

A december vége óta publikus bétában elérhető SPCS segítségével gyakorlatilag bármilyen alkalmazást lehet a Snowflake felhőben futtatni, ideértve például a GPU-kat is használó LLM modelleket.

Az adatplatformba natívan integrált konténerek előnyeiről jó áttekintést ad ez a blogposzt, a mélyebb technikai részletekről pedig itt lehet még olvasni.

További lehetőségek

Szintén az adatplatformba integrált hagyományos alkalmazások fejlesztését fogja segíteni a 2022-ben bejelentett Unistore, amely lehetővé teszi majd a tranzakciós és analitikus adatok egységes kezelését. A még fejlesztés alatt álló hibrid táblák oszlopalapú és soralapú tárolási technikákat is alkalmaznak, így a Snowflake OLTP jellegű feladatokra is használható lesz.

A frontendre fókuszáló fejlesztéseket pedig a két éve akvirált Streamlit könnyíti meg, amely immár a Snowflake platformjába integráltan, natív módon futtatható. Szintén a fejlesztők munkáját segíti majd a hamarosan érkező beépített Git támogatás és a parancssoros működést támogató Snowflake CLI is.

Pénzügyi eredmények és akvizíciók

A Snowflake 2020 őszén nagy port kavart fel nyilvános tőzsdei részvénykibocsátásával (IPO). Az árfolyam az első napokban rendkívül magas volt, de azóta már jóval alacsonyabb tartományokban mozog. A cég folyamatosan növekszik, de továbbra is jelentős éves veszteséget termel.

Felvásárlások

A Snowflake továbbra is nagyon aktív az akvizíciós piacon, csak 2023-ban kilenc kisebb-nagyobb felvásárlást hajtott végre. A bekebelezett cégek listája:

  • Myst AI: Idősoros előrejelzések
  • SnowConvert: Adatmigráció felhős környezetbe
  • LeapYear: Differencial Privacy megoldások
  • Neeva: Generatív AI alapú keresés
  • Touk.pl: Fejlesztői kapacitás Lengyelországban
  • Nxyz: Blockchain technológiák
  • Ponder: Skálázható Python adatfeldolgozás
  • Sisu Data: Automatizált döntéstámogatás
  • Samooha: biztonságos adatmegosztás partnerekkel

Pénzügyi eredmények

A november végén megjelent legfrissebb negyedéves jelentés alapján a főbb pénzügyi mutatók így alakultak az idén:

  • A januárban véget érő pénzügyi év első 9 hónapjában az árbevétel meghaladta a 2 milliárd dollárt, ami jelentős növekedés az előző évhez képest
  • A már szerződött, de még nem teljesített szolgáltatások (RPO, Remaining Performance Obligations) értéke 3.7 milliárd dollár
  • Az intenzív növekedés azonban továbbra is komoly veszteségekkel jár, az első kilenc hónap összesített számviteli (GAAP szerinti) vesztesége 668 millió dollár volt.

A befektetőknek szóló prezentációból az is kiderül, hogy a Snowflake bevételeinek túlnyomó többsége, nagyjából 80 százaléka az amerikai kontinensről származik, Európa aránya pedig csak 15%.