2020-es visszatekintő sorozatunk korábbi részei: Adatplatformok, Snowflake
A Snowflake mellett a Databricks a másik olyan adatplatform cég, amely kizárólag a publikus felhőben kínálja szoftverét. A két cég nagyjából egyszerre indult és hasonló pályát is futott be, azonban amíg a Snowflake az adattárházas világból indult, addig a Databricks eredeti fókusza inkább a data science volt.
Sparkos gyökerek
A Databrickset a Sparkot megálmodó csapat hozta létre 2013-ban és eleinte főleg a data science felhasználókat célozta felhőben futó Spark platformjával. Az induláskor ez kizárólag az AWS-t jelentetette, de 2018-ban Azure Databricks néven megjelent a Microsoft-féle verzió is, ami szintén hamar népszerű lett.
Az idő múlásával aztán kezdett megváltozni a Databricks profilja. A cég természetesen továbbra is erősen kötődik a Sparkhoz, és folyamatosan fejleszti azt, emellett azonban egyre aktívabb más területeken is.
A fontosabb innovációk között szerepel a gépi tanulás és AI projektek életciklusának menedzselését segitő MLflow, amellyel a modellek tanítását és futtatását lehet optimalizálni, valamint a modellkomponeseket újra felhasználhatóan tárolni.
A másik fontos projekt a Delta Lake, ami a data lake jellegű, általában Parquet fájlokra építő adattárolást egészíti ki tranzakciós képességekkel. Mindkét projekt open source, ami azt jelenti, hogy bárki használhatja, nem csak a Databricks ügyfelei használhatják.
Ezekből a fejlesztésekből is látható, hogy a Databricks egyre inkább szeretne kimozdulni hagyományos területéről, a Sparkhoz kötődő, elosztott adatelemzési és ML feladatok kiszolgálásától, és mind horizontálisan, mint vertikálisan kiterjeszteni termékkínálatát.
2020-es főbb események
Az év elején jelent meg a Data Lakehouse koncepció, amely szerint ideje egyesíteni a hagyományos adattárházak és a Data Lake megoldások előnyeit egy új, közös platformban.
A nagyobb adattárházas projektek jobb kiszolgálását is több fejlesztés célozza. Júniusban bejelentették a nagy teljesítményű Delta Engine motort , amely C++-ban készült, élesen szakítva a Spark Scala nyelvhez kötődő hagyományaival. Emellett felvásárolták az SQL lekérdezések és dashboardok készítését segítő Redash-t, és erre építve novemberben megjelent az SQL Analytics, amely kifejezetten az SQL-ben dolgozó elemzőknek és fejlesztőknek szól.
Az egyik régi/új célcsoportja a Databricksnek azok a data scientist-ek, akik saját gépeiken futtatnak jellemzően Python scripteket. Számukra jó hír a Koalas könyvtár 1.0 változatának megjelenése, amely lehetővé teszi a Pandas kódok Sparkon történő futtatását. Szintén ennek a rétegnek szól a novemberben bejelentett Single-Node cluster támogatás, így könnyen és olcsón tudnak egyszerűbb feladatokat elvégezni a Databricks környezetben.
Szintén novemberben rendezték meg a Data+AI Europe online konferenciát, amelynek videóanyaga bárki számára elérhető, jó áttekintést adva az összes újdonságról. A cég vezetői időnként tudományos konferenciákon is előadnak, így tavaly jelent meg többek között részletes technikai publikáció a Delta Lake és a Data Lakehouse kapcsán is.
Szintén sok érdekességet tartalmaz a cég egyik alapítójának a novemberi Scale at the Bay konferencián készül, Youtube-n elérhető előadása is.
2021-ben irány a tőzsde
A különböző forrásokból származó hírek szerint a Databricks árbevétele mára elérte az évi 350 millió dollárt, ami igen dinamikus növekedés a 2019-es 200 millió dollár után.
A számok ismeretében nem csoda, hogy a várakozások szerint a cég 2021-ben meg fog jelenni a tőzsdén is. Hogy sikerül-e megismételni majd a Snowflake sikertörténetét, az még elválik, de a két cég ügyfélköre, árbevétele és növekedési potenciálja sokban hasonlít.