Tag Archives: Databricks

2020 Rewind – Databricks

2020-es visszatekintő sorozatunk korábbi részei: Adatplatformok, Snowflake

A Snowflake mellett a Databricks a másik olyan adatplatform cég, amely kizárólag a publikus felhőben kínálja szoftverét. A két cég nagyjából egyszerre indult és hasonló pályát is futott be, azonban amíg a Snowflake az adattárházas világból indult, addig a Databricks eredeti fókusza inkább a data science volt.

Sparkos gyökerek

A Databrickset a Sparkot megálmodó csapat hozta létre 2013-ban és eleinte főleg a data science felhasználókat célozta felhőben futó Spark platformjával. Az induláskor ez kizárólag az AWS-t jelentetette, de 2018-ban Azure Databricks néven megjelent a Microsoft-féle verzió is, ami szintén hamar népszerű lett.

Az idő múlásával aztán kezdett megváltozni a Databricks profilja. A cég természetesen továbbra is erősen kötődik a Sparkhoz, és folyamatosan fejleszti azt,  emellett azonban egyre aktívabb más területeken is.

A fontosabb innovációk között szerepel a gépi tanulás és AI projektek életciklusának menedzselését segitő MLflow, amellyel a modellek tanítását és futtatását lehet optimalizálni, valamint a modellkomponeseket újra felhasználhatóan tárolni.

A másik fontos projekt a Delta Lake, ami a data lake jellegű, általában Parquet fájlokra építő adattárolást egészíti ki tranzakciós képességekkel. Mindkét projekt open source, ami azt jelenti, hogy bárki használhatja, nem csak a Databricks ügyfelei használhatják.

Ezekből a  fejlesztésekből is látható, hogy a Databricks egyre inkább szeretne kimozdulni hagyományos területéről, a Sparkhoz kötődő, elosztott adatelemzési és ML feladatok kiszolgálásától, és mind horizontálisan, mint vertikálisan kiterjeszteni termékkínálatát.

2020-es főbb események

Az év elején jelent meg a Data Lakehouse koncepció, amely szerint ideje egyesíteni a hagyományos adattárházak és a Data Lake megoldások előnyeit egy új, közös platformban.

A nagyobb adattárházas projektek jobb kiszolgálását is több fejlesztés célozza. Júniusban bejelentették a nagy teljesítményű  Delta Engine motort , amely C++-ban készült, élesen szakítva a Spark Scala nyelvhez kötődő hagyományaival. Emellett  felvásárolták  az SQL lekérdezések és dashboardok készítését segítő  Redash-t, és erre építve novemberben megjelent az SQL Analytics, amely kifejezetten az SQL-ben dolgozó elemzőknek és fejlesztőknek szól.

Az egyik régi/új célcsoportja a Databricksnek azok a data scientist-ek, akik saját gépeiken futtatnak jellemzően Python scripteket. Számukra jó hír a Koalas könyvtár 1.0 változatának megjelenése, amely lehetővé teszi a Pandas kódok Sparkon történő futtatását. Szintén ennek a rétegnek szól a novemberben bejelentett Single-Node cluster támogatás, így könnyen és olcsón tudnak egyszerűbb feladatokat elvégezni a Databricks környezetben.

Szintén novemberben rendezték meg  a Data+AI Europe online konferenciát, amelynek videóanyaga bárki számára elérhető, jó áttekintést adva az összes újdonságról. A cég vezetői időnként tudományos konferenciákon is előadnak, így tavaly jelent meg többek között részletes technikai publikáció a Delta Lake és a Data Lakehouse kapcsán is.

Szintén sok érdekességet tartalmaz a  cég egyik alapítójának a novemberi Scale at the Bay konferencián készül,  Youtube-n elérhető előadása is.

2021-ben irány a tőzsde

A különböző forrásokból származó hírek szerint a Databricks árbevétele mára elérte az évi 350 millió dollárt, ami igen dinamikus növekedés a 2019-es 200 millió dollár után.

A számok ismeretében nem csoda, hogy a várakozások szerint a cég 2021-ben meg fog jelenni a tőzsdén is. Hogy sikerül-e megismételni majd a Snowflake sikertörténetét, az még elválik, de a két cég ügyfélköre, árbevétele és növekedési potenciálja sokban hasonlít.

Egyetemi programot indít a Databricks

A Databricks University Alliance a felsőoktatásban résztvevők számára kínál különböző ingyenes képzési lehetőségeket.

A programhoz csatlakozó oktatók hozzájutnak a Databricks szakmai anyagaihoz (prezentációk, minta notebookok), valamint kérhetnek ingyenes felhő-erőforrásokat is a különösen számításigényes feladatok tanításához.

A diákok pedig ingyenesen érhetik el a Databricks Academy egyes fizetős kurzusait, amennyiben az egyetemi email címükkel regisztrálnak a programba.

Ingyenes lesz a Spark + AI Summit is

A Databricks is úgy döntött, hogy az eredetileg San Franciso-ba szervezett Spark + AI konferenciáját virtuálissá és ingyenesen nézhetővé teszi.

A kiemelt előadók között olyan nevek szerepelnek, mint Nate Silver, a  FiveThirtyEight.com alapítója,  valamint Adam Paszke, a Pytorch fejlesztője és François Chollet, a Keras kitalálója.

A regisztráció itt található: databricks.com/sparkaisummit/north-america-2020

Hasonló döntést hozott korábban a Qlik is, aki szintén júniusban rendez ingyenes online konferenciát.