Címke: Snowflake

A Snowflake 2023-as éve

A vezető adatplatformokról szóló sorozatunk első részében a Snowflake tavalyi évének legfontosabb eseményeit foglaljuk össze.

A Snowflake az újgenerációs, felhőben született adatplatformok egyik vezető képviselője, amely egy évtized alatt az adatos világ fontos szereplője lett. Működését és belső felépítését tekintve viszonylag hasonló a hagyományos adattárházas adatbáziskezelőkhöz, így a felhő felé forduló szakemberek számára könnyen érthető és kezelhető megoldást kínál.

A cég évente több alkalommal tart olyan rendezvényeket, ahol a platformhoz érkező újdonságokat jelenti be. Az egyik ilyen alkalom a júniusi Data Cloud Summit, ami egyben a cég éves felhasználói konferenciája is, a másik a novemberi Snowday virtuális esemény. A két konferencián összesen több tucatnyi újdonságot jelentettek be főleg a központi adatplatform, a natív alkalmazásfejlesztés és a data science/ML területekre fókuszálva.

Adatplatform újdonságok

Az adatmenedzsment és az adattárházas lekérdezések gyors és költséghatékony kiszolgálása továbbra is fontos cél a Snowflake számára, ennek érdekében folyamatosan fejleszti ezeket a funkciókat is.

Egységesített Iceberg támogatás

A Snowflake alapesetben saját belső, zárt formátumában tárolja az adatokat. Az utóbbi években azonban egyre népszerűbbé váltak a nyílt táblaformátumok, amelyek közül a Snowflake az Iceberget támogatja.

Az idei fejlesztéseknek köszönhetően az Iceberg táblák lekérdezése egységesebb és gyorsabb lesz, a metaadat-kezelésre pedig többféle adatkatalógus is használható lesz. A más technológiákat is használó cégek számára pedig az is fontos, hogy Apache Spark környezetből úgy is el lehet érni a Snowflake által menedzselt Iceberg táblákat, hogy nem kell közben a Snowflake compute erőforrásokért is fizetni.

Dinamikus streaming táblák

A még bétában lévő Dynamic Tables lehetővé teszi majd, hogy egyszerű SQL utasításokkal lehessen dinamikus táblákat definiálni, amelyek adattartalma automatikus frissül a források változása esetén. Megadható az is, hogy az egyes tábláknál mennyi késés (lag) az elfogadható, így szabályozható, hogy milyen sűrűn történjen az automatikus frissítés. A beépített algoritmus arra is figyel, hogy lehetőleg csak a ténylegesen új vagy megváltozott forrásadatok kerüljenek feldolgozásra.

Jobb költségmenedzsment

A Snowflake kritikusai leggyakrabban azt a problémát szokták említeni, hogy a platform költségei könnyen magasra szökhetnek. Ezt a problémát célozza a jelenleg fejlesztés alatt álló új Cost Management Interface, ami majd lehetővé teszi a költségek elemi, akár objektum szintű követését és általános vagy egyedi limitek beállítását, valamint költségcsökkentési ajánlásokat is ad.

Data Governance

A platform Data Governance megoldása a Snowflake Horizon, amely olyan újdonságokkal fog bővülni, mint az érzékeny személyes adatok biztonságosabb elemzését lehetővé tévő Differencial Privacy funkcionalitás. Említésre érdemes még a jelenleg zárt bétában lévő Data Quality Monitoring funkció és az Data Lineage UI is.

AI és ML újdonságok

A Data Science jellegű alkalmazások kiemelten fontosak a Snowflake számára, már csak azért is, mert ezen a területen a legnagyobb vetélytársnak számító Databricks jóval előrébb jár.

Document AI

A júniusi konferencián bejelentett LLM alapú megoldás a szöveges dokumentumok feldolgozásában segít. A Document AI a 2022-ben felvásárolt Applica.ai TILT modelljére épül, amely különösen jól használható üzleti dokumentumok feldolgozására (archív poszt 1 és poszt 2). A szoftver működéséről további érdekes részleteket a Snowflake termékmenedzserének blogposztjában lehet olvasni.

Snowflake Cortex

A novemberi Snowday-en aztán bejelentették a Cortexet, amely egy központi menedzselt szolgáltatás ML és LLM fejlesztésekhez.

A Cortex keretein belül a Document AI mellett a következő szolgáltatások lesznek elérhetőek:

  • Snowflake Copilot: SQL lekérdezések generálása szöveges parancsokkal
  • Universal Search: LLM alapú adat- és metaadat-kereső, amely segít megtalálni az éppen kellő adatbázis objektumokat vagy alkalmazásokat

A fenti LLM-alapú megoldások mellett a Cortex részeként számos önállóan is használható ML funkció is érkezik majd, többek között lesz szövegösszesítés, szentimentdetektálás és fordítás is. A hagyományosabb ML problémák megoldására pedig forecasting és anomáliadetektálási modellek is rendelkezésre állnak.

Data science és ML támogatás

A Snowflake a Cortex mellett számos további data science eszközön is dolgozik:

  • Snowflake Notebooks: A közkedvelt notebook-alapú felhasználó interfész natív változata, amely képes Python és SQL kódokat futtatni.
  • Snowpark ML Modeling API: Lehetővé teszi a népszerű scikit-learn keretrendszerhez hasonló Python ML funkciók rendszeren belüli futtatását, így nem kell az adatokat kliens oldalra áttölteni.
  • Snowpark Model Registry: Az ML modellek adminisztációját segítő, júniusban bejelentett szolgáltatás egyelőre zártkörű bétában van, a részletekről itt lehet olvasni.
  • Snowflake Feature Store: Az ML modellek által használt számított mezők központi tárolására szolgál. A különböző objektumokat SQL nyelvű interfészeken keresztül lehet létrehozni és menedzselni, de emellett Python API is rendelkezésre áll majd.

A fenti komponensek nagy része még fejlesztés alatt áll vagy zártkörű bétában van, de az már látszik, hogy egy valóban teljes körű data science és ML platform van készülőfélben.

Adatnatív alkalmazások

A Snowflake egyik legérdekesebb stratégiai fejlesztési iránya az adatnatív alkalmazások közvetlen támogatása. A 2022-ben élesedett Snowpark már lehetővé tette, hogy a hagyományos SQL mellett Java és Scala vagy akár Python nyelven írt alkalmazások fussanak közvetlenül a Snowflake felhőjében. Ennek a megközelítések nagy előnye, hogy adatokat nem kell mozgatni, így nincsenek ingress/egress költségek, valamint az architektúra egésze a Snowflake központi jogosultságkezelése alá tartozik.

Konténerek támogatása

A 2023-as év nagy dobása ezen a területen a Snowpark Container Services, amely egy Kubernetes alapú, szintén teljesen integrált, "belső" konténerszolgáltatás.

A december vége óta publikus bétában elérhető SPCS segítségével gyakorlatilag bármilyen alkalmazást lehet a Snowflake felhőben futtatni, ideértve például a GPU-kat is használó LLM modelleket.

Az adatplatformba natívan integrált konténerek előnyeiről jó áttekintést ad ez a blogposzt, a mélyebb technikai részletekről pedig itt lehet még olvasni.

További lehetőségek

Szintén az adatplatformba integrált hagyományos alkalmazások fejlesztését fogja segíteni a 2022-ben bejelentett Unistore, amely lehetővé teszi majd a tranzakciós és analitikus adatok egységes kezelését. A még fejlesztés alatt álló hibrid táblák oszlopalapú és soralapú tárolási technikákat is alkalmaznak, így a Snowflake OLTP jellegű feladatokra is használható lesz.

A frontendre fókuszáló fejlesztéseket pedig a két éve akvirált Streamlit könnyíti meg, amely immár a Snowflake platformjába integráltan, natív módon futtatható. Szintén a fejlesztők munkáját segíti majd a hamarosan érkező beépített Git támogatás és a parancssoros működést támogató Snowflake CLI is.

Pénzügyi eredmények és akvizíciók

A Snowflake 2020 őszén nagy port kavart fel nyilvános tőzsdei részvénykibocsátásával (IPO). Az árfolyam az első napokban rendkívül magas volt, de azóta már jóval alacsonyabb tartományokban mozog. A cég folyamatosan növekszik, de továbbra is jelentős éves veszteséget termel.

Felvásárlások

A Snowflake továbbra is nagyon aktív az akvizíciós piacon, csak 2023-ban kilenc kisebb-nagyobb felvásárlást hajtott végre. A bekebelezett cégek listája:

  • Myst AI: Idősoros előrejelzések
  • SnowConvert: Adatmigráció felhős környezetbe
  • LeapYear: Differencial Privacy megoldások
  • Neeva: Generatív AI alapú keresés
  • Touk.pl: Fejlesztői kapacitás Lengyelországban
  • Nxyz: Blockchain technológiák
  • Ponder: Skálázható Python adatfeldolgozás
  • Sisu Data: Automatizált döntéstámogatás
  • Samooha: biztonságos adatmegosztás partnerekkel

Pénzügyi eredmények

A november végén megjelent legfrissebb negyedéves jelentés alapján a főbb pénzügyi mutatók így alakultak az idén:

  • A januárban véget érő pénzügyi év első 9 hónapjában az árbevétel meghaladta a 2 milliárd dollárt, ami jelentős növekedés az előző évhez képest
  • A már szerződött, de még nem teljesített szolgáltatások (RPO, Remaining Performance Obligations) értéke 3.7 milliárd dollár
  • Az intenzív növekedés azonban továbbra is komoly veszteségekkel jár, az első kilenc hónap összesített számviteli (GAAP szerinti) vesztesége 668 millió dollár volt.

A befektetőknek szóló prezentációból az is kiderül, hogy a Snowflake bevételeinek túlnyomó többsége, nagyjából 80 százaléka az amerikai kontinensről származik, Európa aránya pedig csak 15%.

Snowflake újdonságok Las Vegasból

A héten zajlik a Snowflake nagyszabású felhasználói konferenciája, a Snowflake Summit Las Vegasban.  Az idén újra élőben megrendezett eseményen több mint tízezren vesznek részt az egész világról.

Hagyomány, hogy a cégek az ilyen konferenciákon jelentik be a legfontosabb újdonságokat, fejlesztéseket. A Snowflake is így járt el, íme a legfontosabb hírek listája.

OLTP alkalmazások

A legizgalmasabb a új hibrid táblatípusra épülő Unistore, amelyek segítségével a Snowflake immár tranzakciós adatbázisként is használható lesz. A hibrid táblák az analitikus lekérdezések mellett támogatják az OLTP világban szokásos funkciókat is (soralapú tárolás, elsődleges kulcsok használata, külső kulcshivatkozások stb.)

Az új képességgel a Snowflake már nem csak az adattárházas igényeket tudja majd kiszolgálni, hanem képes lesz egyetlen rendszerben támogatni az analitikus és a tranzakciós feladatokat.

Iceberg  külső táblák 

Szintén az adattárolási képességeket színesi az Iceberg formátumú külső táblák támogatása. Az open source Apache Iceberg a data lake  architektúrák egyik népszerű táblaformátuma, amely hasznos extra adatmenedzsment képességeket nyújt.

A jövőben az Icebergben tárolt adatokat nem kell áttölteni a Snowflake saját belső adattárába, hanem maradhatnak az ügyfelek adattároló rétegében (például S3-on) és onnan közvetlenül lekérdezhetőek lesznek.  Demó videó itt.

Ide kapcsolódó hír még, hogy a külső tábla mechanizmus segítségével hamarosan majd on-premise (azaz nem felhős) adatforrások is elérhetőek lesznek Snowflake alól.

Pythonos fejlesztői környezet

Különösen a data science alkalmazások szempontjából lesz érdekes a Python támogatása a Snowpark fejlesztői környezetben. Az Anacondával kötött szövetségnek köszönhetően sokféle adatfeldolgozó és ML feladat a jövőben Pythonban is elvégezhető lesz.

Natív Snowflake alkalmazások

A Native Application Framework segítségével  olyan alkalmazások készíthetőek, amelyek közvetlenül a Snowflake platformon futnak, kihasználva a platform által nyújtott funkciókat.

A keretrendszer segítségével fejlesztett alkalmazások a Snowflake Marketplace piacterén keresztül értékesíthetőek is lesznek majd.

További hírek és érdekességek

A kiemelt 4 témán felül sok más bejelentés is érkezett: Streamlit integráció, streaming adatbetöltés javítása, materializált táblák, SQL Machine Learning, teljesítményjavító fejlesztések, jobb data governance és auditing.

Szintén érdekesek azok a hírek, amelyek a Snowflake saját befektetési alapja, a Snowflake Ventures tranzakcióról szólnak, például a Matillion és Domino Labs is kapott friss tőkét az alaptól.

Részletesebb információkért ezt a két posztot érdemes még elolvasni:

Továbbra is lendületben a Snowflake

A frissen közzétett harmadik negyedéves eredmények szerint a cég árbevétele több mint duplájára nőtt.

A negyedéves bevétel 312,5 millió dollár volt. A januárban záruló pénzügyi év várható  összbevétele 1,1 milliárd dollár lesz, ami szintén duplázódás tavalyhoz képest.

A Snowflake több mint 5.000 ügyféllel rendelkezik, ebből 148 több mint egymillió dollárt fizet évente a felhős adattárházas szolgáltatásokért.

A cég 2020-es évéről itt írtunk: 2020 Rewind – Snowflake

2020 Rewind – Snowflake

2020 és az utóbbi néhány év talán legérdekesebb adatmenedzsment sztorija az olyan cégek felemelkedése, amelyek már a felhőben születtek és soha nem is rendelkeztek hagyományos adatközpontokban, a céges tűzfal mögött futtatható verzióval. 

A Snowflake története remekül illusztrálja azt, hogy egyáltalán nem lehetetlen sikert elérni olyan területeken sem, ahol már évtizedes múlttal rendelkező szereplők  uralják a piacot.

5 év alatt a csúcsra

A 2012-ben alapított cég csak 2015-ben indult be igazán, tehát mindössze 5 év alatt lett a felhős adattárházak szegmensének egyik meghatározó szereplője. Mindezt úgy érte el, hogy egyszerre versenyzett a hagyományos adattárház szállítókkal (Oracle, Teradata),  és a felhős cégek saját DW megoldásaival is (Amazon Redshift, Google BigQuery).

A sikerhez kellett az, hogy az Oracle-s háttérből érkező alapítók jókor voltak jó helyen,  és kellett egy korszerű technológiai vízió is. A későbbi siker az induláskor azonban még egyáltalán nem volt biztosra vehető, hiszen akkor még messze nem volt egyértelmű, hogy a cégek szívesen tárolják majd értékes adataikat a felhőben, erről érdemes az egyik korai befektető visszaemlékezését olvasni.

Rekorddöntő IPO

A Snowflake idén szeptemberben aztán óriási tűzijátékkal lépett ki a tőzsdére, az elemzők szerint ez volt minden idők legnagyobb szoftveres IPO-ja.

Egy hónappal korábban még 80 dollár körüli kibocsátási árfolyamról volt szó, de a részvények végül 120 dollárért kerültek a piacra. Ez azonban annyira nem vette el a befektetők kedvét, hogy még ehhez képest is több mint kétszeresére verték fel az árakat, sőt, egy időre 300 dollár fölé is ment az árfolyam a kibocsátás napján.

A cég teljes értéke így meghaladta a 70 milliárd dollárt, és jó néhány korai alkalmazott és vezető dollármilliárdos lett, köztük a cég első és a jelenlegi CEO-ja is.

Platformfejlesztések

Technológiai szempontból érdekes, hogy a  novemberi Data Cloud Summit konferencián bejelentetett újdonságok között szerepel a sorszintű jogosultságkezelés, a különböző objektumok címkézése (tagging) és a Python, Java és Scala nyelven írt tárolt eljárások támogatása.  

korábbi fejlesztésekkel (materializált nézetek, oszlopok maszkolása) is együtt nézve látható, hogy a Snowflake tovább dolgozik azon, hogy a hagyományos adattárházak által biztosított teljesítménynövelő, adatvédelmi és kényelmi funkciók minél szélesebb körét kínálja - cloudos környezetben.

Intenzív növekedés, jelentős veszteség

Ez a fejlesztési stratégia  összefügg azzal, hogy a Snowflake vezetői egyre nagyobb és komolyabb adattárházakkal rendelkező cégeket szeretnének a platformon látni. A cég decemberben közzétett negyedéves pénzügyi jelentése szerint már 65 olyan ügyféllel rendelkeznek, akik évi 1 millió dollárnál többet költenek.

A negyedéves árbevétel amúgy 160 millió dollár volt, ami 119%-os éves növekedést jelent.  A gyors növekedés és intenzív fejlesztés persze nincs ingyen, ezt mutatja a negyedév 168 millió dolláros vesztesége is.  Ez azonban egy szokatlanul rossz érték,  a januárban forduló pénzügyi év első 9 hónapja alatt az árbevétel összesen 400 millió dollár körül volt, amihez "mindössze" 340 millió dolláros veszteség társult.

A befektetők mindezt továbbra is jól fogadják, december elején az árfolyam egy időre megközelítette a 400 dollárt is, többre értékelve a céget, mint az IBM vagy az AMD. Az árfolyam kicsit visszaesett azóta, de jelenleg is 300 dollár fölött van, ami 80 milliárd dolláros cégértéket jelent.

Hazai helyzet

A Snowflake iránt itthon is egyre nagyobb az érdeklődés. Igazán nagy, publikus hazai referencia még nem ismert, de több kisebb felhasználója van már a platformnak.

A Snowflake hazai partnere a Meta Consulting, akik többek között a Budapest Data Fórumon tartottak bemutató előadást.

 

 

Közel félmilliárdos Snowflake tőkeemelés, befektet a Salesforce is

A felhőalapú adattárházak emelkedő csillaga, a Snowflake újabb, 479 millió dolláros befektetési kört zárt le.

A befektetés során a céget 12,7 milliárd dollárra értékelték, ami jelentős növekedés a korábbi körökhöz képest. 2018. októberében 450 millió dollárt kaptak jóval szerényebb,  3,5 milliárdos értékelés mellett.

A mostani tranzakció további érdekessége,  hogy megjelent a Salesforce is a befektetők között. Ez akár egy felvásárlás első lépése is lehet, hiszen a Salesforce tavaly már megvette a Tableau-t, így egy esetleges akvizíció után teljesen integrált analitikus platformot tudna kínálni a Snowflake-Tableau-Einstein hármasra építve.