2020 Rewind – Databricks

2020-es visszatekintő sorozatunk korábbi részei: Adatplatformok, Snowflake

A Snowflake mellett a Databricks a másik olyan adatplatform cég, amely kizárólag a publikus felhőben kínálja szoftverét. A két cég nagyjából egyszerre indult és hasonló pályát is futott be, azonban amíg a Snowflake az adattárházas világból indult, addig a Databricks eredeti fókusza inkább a data science volt.

Sparkos gyökerek

A Databrickset a Sparkot megálmodó csapat hozta létre 2013-ban és eleinte főleg a data science felhasználókat célozta felhőben futó Spark platformjával. Az induláskor ez kizárólag az AWS-t jelentetette, de 2018-ban Azure Databricks néven megjelent a Microsoft-féle verzió is, ami szintén hamar népszerű lett.

Az idő múlásával aztán kezdett megváltozni a Databricks profilja. A cég természetesen továbbra is erősen kötődik a Sparkhoz, és folyamatosan fejleszti azt,  emellett azonban egyre aktívabb más területeken is.

A fontosabb innovációk között szerepel a gépi tanulás és AI projektek életciklusának menedzselését segitő MLflow, amellyel a modellek tanítását és futtatását lehet optimalizálni, valamint a modellkomponeseket újra felhasználhatóan tárolni.

A másik fontos projekt a Delta Lake, ami a data lake jellegű, általában Parquet fájlokra építő adattárolást egészíti ki tranzakciós képességekkel. Mindkét projekt open source, ami azt jelenti, hogy bárki használhatja, nem csak a Databricks ügyfelei használhatják.

Ezekből a  fejlesztésekből is látható, hogy a Databricks egyre inkább szeretne kimozdulni hagyományos területéről, a Sparkhoz kötődő, elosztott adatelemzési és ML feladatok kiszolgálásától, és mind horizontálisan, mint vertikálisan kiterjeszteni termékkínálatát.

2020-es főbb események

Az év elején jelent meg a Data Lakehouse koncepció, amely szerint ideje egyesíteni a hagyományos adattárházak és a Data Lake megoldások előnyeit egy új, közös platformban.

A nagyobb adattárházas projektek jobb kiszolgálását is több fejlesztés célozza. Júniusban bejelentették a nagy teljesítményű  Delta Engine motort , amely C++-ban készült, élesen szakítva a Spark Scala nyelvhez kötődő hagyományaival. Emellett  felvásárolták  az SQL lekérdezések és dashboardok készítését segítő  Redash-t, és erre építve novemberben megjelent az SQL Analytics, amely kifejezetten az SQL-ben dolgozó elemzőknek és fejlesztőknek szól.

Az egyik régi/új célcsoportja a Databricksnek azok a data scientist-ek, akik saját gépeiken futtatnak jellemzően Python scripteket. Számukra jó hír a Koalas könyvtár 1.0 változatának megjelenése, amely lehetővé teszi a Pandas kódok Sparkon történő futtatását. Szintén ennek a rétegnek szól a novemberben bejelentett Single-Node cluster támogatás, így könnyen és olcsón tudnak egyszerűbb feladatokat elvégezni a Databricks környezetben.

Szintén novemberben rendezték meg  a Data+AI Europe online konferenciát, amelynek videóanyaga bárki számára elérhető, jó áttekintést adva az összes újdonságról. A cég vezetői időnként tudományos konferenciákon is előadnak, így tavaly jelent meg többek között részletes technikai publikáció a Delta Lake és a Data Lakehouse kapcsán is.

Szintén sok érdekességet tartalmaz a  cég egyik alapítójának a novemberi Scale at the Bay konferencián készül,  Youtube-n elérhető előadása is.

2021-ben irány a tőzsde

A különböző forrásokból származó hírek szerint a Databricks árbevétele mára elérte az évi 350 millió dollárt, ami igen dinamikus növekedés a 2019-es 200 millió dollár után.

A számok ismeretében nem csoda, hogy a várakozások szerint a cég 2021-ben meg fog jelenni a tőzsdén is. Hogy sikerül-e megismételni majd a Snowflake sikertörténetét, az még elválik, de a két cég ügyfélköre, árbevétele és növekedési potenciálja sokban hasonlít.

Comments are closed.