Tag Archives: 2020 Rewind

2020 Rewind – Databricks

2020-es visszatekintő sorozatunk korábbi részei: Adatplatformok, Snowflake

A Snowflake mellett a Databricks a másik olyan adatplatform cég, amely kizárólag a publikus felhőben kínálja szoftverét. A két cég nagyjából egyszerre indult és hasonló pályát is futott be, azonban amíg a Snowflake az adattárházas világból indult, addig a Databricks eredeti fókusza inkább a data science volt.

Sparkos gyökerek

A Databrickset a Sparkot megálmodó csapat hozta létre 2013-ban és eleinte főleg a data science felhasználókat célozta felhőben futó Spark platformjával. Az induláskor ez kizárólag az AWS-t jelentetette, de 2018-ban Azure Databricks néven megjelent a Microsoft-féle verzió is, ami szintén hamar népszerű lett.

Az idő múlásával aztán kezdett megváltozni a Databricks profilja. A cég természetesen továbbra is erősen kötődik a Sparkhoz, és folyamatosan fejleszti azt,  emellett azonban egyre aktívabb más területeken is.

A fontosabb innovációk között szerepel a gépi tanulás és AI projektek életciklusának menedzselését segitő MLflow, amellyel a modellek tanítását és futtatását lehet optimalizálni, valamint a modellkomponeseket újra felhasználhatóan tárolni.

A másik fontos projekt a Delta Lake, ami a data lake jellegű, általában Parquet fájlokra építő adattárolást egészíti ki tranzakciós képességekkel. Mindkét projekt open source, ami azt jelenti, hogy bárki használhatja, nem csak a Databricks ügyfelei használhatják.

Ezekből a  fejlesztésekből is látható, hogy a Databricks egyre inkább szeretne kimozdulni hagyományos területéről, a Sparkhoz kötődő, elosztott adatelemzési és ML feladatok kiszolgálásától, és mind horizontálisan, mint vertikálisan kiterjeszteni termékkínálatát.

2020-es főbb események

Az év elején jelent meg a Data Lakehouse koncepció, amely szerint ideje egyesíteni a hagyományos adattárházak és a Data Lake megoldások előnyeit egy új, közös platformban.

A nagyobb adattárházas projektek jobb kiszolgálását is több fejlesztés célozza. Júniusban bejelentették a nagy teljesítményű  Delta Engine motort , amely C++-ban készült, élesen szakítva a Spark Scala nyelvhez kötődő hagyományaival. Emellett  felvásárolták  az SQL lekérdezések és dashboardok készítését segítő  Redash-t, és erre építve novemberben megjelent az SQL Analytics, amely kifejezetten az SQL-ben dolgozó elemzőknek és fejlesztőknek szól.

Az egyik régi/új célcsoportja a Databricksnek azok a data scientist-ek, akik saját gépeiken futtatnak jellemzően Python scripteket. Számukra jó hír a Koalas könyvtár 1.0 változatának megjelenése, amely lehetővé teszi a Pandas kódok Sparkon történő futtatását. Szintén ennek a rétegnek szól a novemberben bejelentett Single-Node cluster támogatás, így könnyen és olcsón tudnak egyszerűbb feladatokat elvégezni a Databricks környezetben.

Szintén novemberben rendezték meg  a Data+AI Europe online konferenciát, amelynek videóanyaga bárki számára elérhető, jó áttekintést adva az összes újdonságról. A cég vezetői időnként tudományos konferenciákon is előadnak, így tavaly jelent meg többek között részletes technikai publikáció a Delta Lake és a Data Lakehouse kapcsán is.

Szintén sok érdekességet tartalmaz a  cég egyik alapítójának a novemberi Scale at the Bay konferencián készül,  Youtube-n elérhető előadása is.

2021-ben irány a tőzsde

A különböző forrásokból származó hírek szerint a Databricks árbevétele mára elérte az évi 350 millió dollárt, ami igen dinamikus növekedés a 2019-es 200 millió dollár után.

A számok ismeretében nem csoda, hogy a várakozások szerint a cég 2021-ben meg fog jelenni a tőzsdén is. Hogy sikerül-e megismételni majd a Snowflake sikertörténetét, az még elválik, de a két cég ügyfélköre, árbevétele és növekedési potenciálja sokban hasonlít.

2020 Rewind – Snowflake

2020 és az utóbbi néhány év talán legérdekesebb adatmenedzsment sztorija az olyan cégek felemelkedése, amelyek már a felhőben születtek és soha nem is rendelkeztek hagyományos adatközpontokban, a céges tűzfal mögött futtatható verzióval. 

A Snowflake története remekül illusztrálja azt, hogy egyáltalán nem lehetetlen sikert elérni olyan területeken sem, ahol már évtizedes múlttal rendelkező szereplők  uralják a piacot.

5 év alatt a csúcsra

A 2012-ben alapított cég csak 2015-ben indult be igazán, tehát mindössze 5 év alatt lett a felhős adattárházak szegmensének egyik meghatározó szereplője. Mindezt úgy érte el, hogy egyszerre versenyzett a hagyományos adattárház szállítókkal (Oracle, Teradata),  és a felhős cégek saját DW megoldásaival is (Amazon Redshift, Google BigQuery).

A sikerhez kellett az, hogy az Oracle-s háttérből érkező alapítók jókor voltak jó helyen,  és kellett egy korszerű technológiai vízió is. A későbbi siker az induláskor azonban még egyáltalán nem volt biztosra vehető, hiszen akkor még messze nem volt egyértelmű, hogy a cégek szívesen tárolják majd értékes adataikat a felhőben, erről érdemes az egyik korai befektető visszaemlékezését olvasni.

Rekorddöntő IPO

A Snowflake idén szeptemberben aztán óriási tűzijátékkal lépett ki a tőzsdére, az elemzők szerint ez volt minden idők legnagyobb szoftveres IPO-ja.

Egy hónappal korábban még 80 dollár körüli kibocsátási árfolyamról volt szó, de a részvények végül 120 dollárért kerültek a piacra. Ez azonban annyira nem vette el a befektetők kedvét, hogy még ehhez képest is több mint kétszeresére verték fel az árakat, sőt, egy időre 300 dollár fölé is ment az árfolyam a kibocsátás napján.

A cég teljes értéke így meghaladta a 70 milliárd dollárt, és jó néhány korai alkalmazott és vezető dollármilliárdos lett, köztük a cég első és a jelenlegi CEO-ja is.

Platformfejlesztések

Technológiai szempontból érdekes, hogy a  novemberi Data Cloud Summit konferencián bejelentetett újdonságok között szerepel a sorszintű jogosultságkezelés, a különböző objektumok címkézése (tagging) és a Python, Java és Scala nyelven írt tárolt eljárások támogatása.  

korábbi fejlesztésekkel (materializált nézetek, oszlopok maszkolása) is együtt nézve látható, hogy a Snowflake tovább dolgozik azon, hogy a hagyományos adattárházak által biztosított teljesítménynövelő, adatvédelmi és kényelmi funkciók minél szélesebb körét kínálja - cloudos környezetben.

Intenzív növekedés, jelentős veszteség

Ez a fejlesztési stratégia  összefügg azzal, hogy a Snowflake vezetői egyre nagyobb és komolyabb adattárházakkal rendelkező cégeket szeretnének a platformon látni. A cég decemberben közzétett negyedéves pénzügyi jelentése szerint már 65 olyan ügyféllel rendelkeznek, akik évi 1 millió dollárnál többet költenek.

A negyedéves árbevétel amúgy 160 millió dollár volt, ami 119%-os éves növekedést jelent.  A gyors növekedés és intenzív fejlesztés persze nincs ingyen, ezt mutatja a negyedév 168 millió dolláros vesztesége is.  Ez azonban egy szokatlanul rossz érték,  a januárban forduló pénzügyi év első 9 hónapja alatt az árbevétel összesen 400 millió dollár körül volt, amihez "mindössze" 340 millió dolláros veszteség társult.

A befektetők mindezt továbbra is jól fogadják, december elején az árfolyam egy időre megközelítette a 400 dollárt is, többre értékelve a céget, mint az IBM vagy az AMD. Az árfolyam kicsit visszaesett azóta, de jelenleg is 300 dollár fölött van, ami 80 milliárd dolláros cégértéket jelent.

Hazai helyzet

A Snowflake iránt itthon is egyre nagyobb az érdeklődés. Igazán nagy, publikus hazai referencia még nem ismert, de több kisebb felhasználója van már a platformnak.

A Snowflake hazai partnere a Meta Consulting, akik többek között a Budapest Data Fórumon tartottak bemutató előadást.