Egyéb kategória bejegyzései

Kutatás indul a data literacy hazai helyzetéről

Az adatalapú vállalati működéshez nagyon fontosak a data literacy (nagyjából adat-írástudás) képességek, amelyek kiterjednek az adatok értelmezésére, feldolgozására, elemzésére, vizualizálására és prezentálására.

A  hazai vállalati szektor data literacy érettségének felmérésére indul most kutatás Görcsi Gergely vezetésével, aki a Szent István egyetemen folyó PhD képzés keretében foglalkozik a témával.

A kutatás online kérdőíve itt érhető el, a kitöltők a kutatás lezárulta után megkapják az eredmények összefoglalóját.

 

Ingyenes lesz a Spark + AI Summit is

A Databricks is úgy döntött, hogy az eredetileg San Franciso-ba szervezett Spark + AI konferenciáját virtuálissá és ingyenesen nézhetővé teszi.

A kiemelt előadók között olyan nevek szerepelnek, mint Nate Silver, a  FiveThirtyEight.com alapítója,  valamint Adam Paszke, a Pytorch fejlesztője és François Chollet, a Keras kitalálója.

A regisztráció itt található: databricks.com/sparkaisummit/north-america-2020

Hasonló döntést hozott korábban a Qlik is, aki szintén júniusban rendez ingyenes online konferenciát.

 

Új Data Science eszközök a Neo4j gráf platformjához

Megjelent a Neo4j gráfalapú adatkezelő platformjának legújabb eleme, a hálózati  elemzéseket támogató Neo4j for Graph Data Science keretrendszert.

A keretrendszer lehetővé teszi a különböző hálózati algoritmusok futtatását a Neo4j adatbáziskezelőben tárolt gráfokon. A beépített algoritmusok a következő főbb csoportokba tartoznak:

  • Community Detection - kapcsolódó közösségek keresése
  • Centrality - a legfontosabb csomópontok azonosítása
  • Similarity - hasonló elemek megtalálása
  • Pathfinding - legrövidebb vagy leghatékonyabb utak keresése a gráfon belül
  • Link Prediction -  ismeretlen vagy jövőbeli kapcsolatok előrejelzése

A további részletekről a Neo4j bejelentéséből lehet tájékozódni, valamint április 28-án lesz  egy egész napos online bemutató esemény is.

 

Ingyenes online konferencia lesz idén a QlikWorld

A Qlik nagyszabású éves felhasználói konferenciája online módon kerül megrendezésre, és  szabadon nézhető lesz bárki számára.

A június 24-én kezdődő, kétnapos esemény során a Qlik vezetőinek keynote előadásai mellett több mint száz üzleti és technikai prezentáció szerepel a programban. A szervezők online kiállítást és networking eseményeket is ígérnek.

A regisztráció itt érhető el: qlik.com/QlikWorld-Online

Online nézhető adatos konferenciák

A koronavírussal kapcsolatos korlátozó intézkedések valósággal rendet vágtak a tavaszi adatos konferenciák között.

A teljesség igénye nélkül elmarad a londoni Strata konferencia, a GraphConnect 2020,  a Kafka Summit London, . Más konferenciák új időpont választására kényszerültek, így május helyett október végén lesz a PyData London,  és későbbre kerül az eredetileg júniusi PyData Amsterdam is. Az elhalasztott események közé tartozik a márciusi ML Prague és Kubekon Europa, a svéd Data Innovation Summit, valamint az áprilisi német Data Festival is.

Hasonló a helyzet itthon is, törlésre vagy elhalasztásra került a SAS Analytics Day, az SQL Saturday, a Reinforce AI és az Oracle HOUG konferencia is.

Öröm viszont az ürömben, hogy vannak olyan konferenciák is, amelyek a fizikai esemény elhagyása mellett online módra váltanak, így az előadásokat bárki otthonából követheti, méghozzá általában ingyenesen.

Íme néhány ilyen ingyenes nézhető online rendezvény:

  • Március 17: GraphTour Munich Digital
    A Neo4J rendezvényén  a talán legismertebb gráf adatbáziskezelő újdonságairól és alkalmazási lehetőségeiről lesz szó.
  • Március 18: DomoPalooza 2020 Online
    A Domo a BI szoftverek piacának egyik érdekes szereplője, amely a Gartner idei BI mágikus négyzetében is szerepel.  A programban számos technikai előadás és alkalmazási esettanulmány található.
  • Március 25-től: GPU Technology Conference (GTC) Digital
    A Nvidia kéthetes rendezvénye során a GPU technológiákhoz kapcsolódó oktatások, workshopok és előadások lesznek napirenden.
  • Április 06-08Cloud Next Digital
    A Google online konferenciájának programjában többek között adatfeldolgozás, adatelemzés, mesterséges intelligence és AI témák szerepelnek.

Ezekre az eseményekre akkor is érdemes regisztrálni, ha az adott időpont éppen nem alkalmas valakinek, mert az előadásokat általában utólag is elérhetővé szokták tenni.

A későbbiek várhatóan további események is csatlakoznak majd a fenti listához. Már azt is tudjuk, hogy az idei Microsoft Build, Facebook F8 és  Google I/O fejlesztői megakonferenciák is törlésre kerülnek vagy online módra váltanak.

 

Közel félmilliárdos Snowflake tőkeemelés, befektet a Salesforce is

A felhőalapú adattárházak emelkedő csillaga, a Snowflake újabb, 479 millió dolláros befektetési kört zárt le.

A befektetés során a céget 12,7 milliárd dollárra értékelték, ami jelentős növekedés a korábbi körökhöz képest. 2018. októberében 450 millió dollárt kaptak jóval szerényebb,  3,5 milliárdos értékelés mellett.

A mostani tranzakció további érdekessége,  hogy megjelent a Salesforce is a befektetők között. Ez akár egy felvásárlás első lépése is lehet, hiszen a Salesforce tavaly már megvette a Tableau-t, így egy esetleges akvizíció után teljesen integrált analitikus platformot tudna kínálni a Snowflake-Tableau-Einstein hármasra építve.

Merre tart a gráfok világa?

A  napokban tartott a gráfalapú adatbázisok területén meghatározó szerepet játszó Neo4j egy elemzőknek szóló eseményt, ahol főleg a  piaci trendekről és termékújdonságokról esett szó. Ebből az anyagból válogatunk néhány érdekességet.

Gráfok a vállalati életben

A legtöbb szervezetben az információkat elsősorban valamilyen klasszikus relációs adatbázis-kezelőben menedzselik, de egyre terjednek az adatokat csomópontok és élek hálózataként ábrázoló gráf adatbázisok is.

A gráfok egyik tipikus alkalmazási területe a pénzügyi tranzakciók elemzése és a csalásfelderítés, hiszen egy bank ügyfeleit (a csomópontok) számtalan különböző kapcsolat (az élek) kötik össze. Ilyenek a cégek között küldött és a fogadott utalások, de él lehet egyéb olyan közös adat is, mint az azonos székhely vagy cégvezető.

 

Szintén népszerű gráf alkalmazási terület az ajánlórendszerek, az árazás, vagy a felhasználók és ügyfelek hálózatainak elemzése.

A gráfok előnyei

A gráfok használatának számos előnye lehet, például a hálózatként megjelenő adatmodell elég közel áll a hétköznapi gondolkodáshoz, így könnyebben érthető a felhasználók számára.

Másik nagy előny a sebesség: a különböző hálózatos jellegű lekérdezések sokkal gyorsabbak egy gráf adatbázison futtatva, mintha ugyanazt az információt SQL segítségével szeretnénk kinyerni relációs táblákból.

Gráf és hagyományos adatbázis teljesítménye az adatmennyiség függvényében (forrás: Neo4j)

Különösen igaz ez, ha az adatok mennyisége nagyobb, illetve a bejárandó kapcsolatok száma (a "connectedness") magas.

Gráfos technológiák

A gráf adatbázis piacon elég sok szereplő van jelen, a DB Engines ranglistájában több mint 30 szoftver szerepel, a GraphAware blogon megjelent Graph Technology Landscape 2020 elemzés pedig még ennél is jóval szélesebb kört fed le.

A Neo4j néhány fontosabb mutatója

A legismertebb gráfokra specializált  cég a hasonló nevű adatbáziskezelőt gyártó Neo4j. A cég pénzügyi adatairól viszonylag keveset lehet tudni, mivel magánkézben lévő vállalatról van szó, de az ismert, hogy idáig 160 millió dollár kockázati tőkét kaptak.

A Neo4j újdonságai

A termékportfólió központi eleme a Neo4j natív gráfalapú adatbáziskezelő, amelynek néhány hete jelent meg a legújabb, 4.0-ás változata, amely többek között jobb skálázhatóságot és kifinomult jogosultságkezelési képességeket hozott.

A Neo4j adatbázis két fő változata az ingyenes, open source Community Edition és a vállalati igényeket kiszolgáló,  fizetős Enterprise Edition.

Tavaly november óta a szoftver Neo4j Aura néven elérhető felhőben futó, teljesen menedzselt platformként is. Az online szolgáltatást egy egyszerű előfizetéssel bárki igénybe veheti, így nem kell saját szervert telepíteni, menedzselni és frissíteni.

A porfólió harmadik érdekes eleme a Neo4j Bloom, amely interaktív adatvizualizációs és elemző felületet biztosít az adatbázisban tárolt gráfokhoz.

A Ne4j Bloom interaktív lekérdező és vizualizációs felület

A Bloom használatával könnyen áttekinthetők a nagyobb, bonyolultabb hálózatok is, az adatok közötti eligazodást intelligens kereső és különböző vizuális segédletek támogatják.

Érdekesség még a Neo4j-tól származó, immár open source Cypher lekérdezőnyelv és a jelentős mértékben erre alapuló, ISO standard státuszra törekvő GQL nyelv is.

Gráftalálkozók

A Neo4j áprilisban rendezi meg New Yorkban a GraphConnect 2020 konferenciát, ahol várhatóan újabb fejlesztések és üzleti esettanulmányok kerülnek bemutatásra majd.

A gráfelmélet atyjaként is tisztelt Euler születésnapján, április 15-én pedig világszerte lesznek kisebb-nagyobb gráf témájú események. A Global Graph Celebration Day hazai kiadása a CEU-n lesz, jelentkezni a Facebook vagy Meetup eseményeken lehet.

 

Lezárult a Google-Looker felvásárlás

A két cég tavaly júniusban jelentette be a felvásárlást, amely keretében a Google 2,6 milliárd dollárt ad az új generációs BI szállítók egyik vezetőjének számító Looker-ért.

Az akvizíció célja a Google Cloud analitikai és BI képességeinek megerősítése volt, mert a Google kínálatában korábban csak a vállalati BI feladatokra korlátozottan alkalmas  ingyenes Data Studio szerepelt.

 

Nem ment azonban zökkenőmentesem a tranzakció, mert először a  először az amerikai DOJ kezdte  közelebbről vizsgálni az ügyletet, aztán decemberben az angol versenyfelügyeleti hatóságok is vizsgálatot indítottak. Így végül közel 9 hónapba telt, mire a Looker hivatalosan is a Google része lett.

A cég vezetője friss blogposztjában kiemelte, hogy a stratégiában természetesen továbbra is az összes fontos hagyományos és cloud adattárház (Amazon Redshift, Azure SQL, Snowflake, Oracle, Microsoft SQL Server, Teradata) támogatása szerepel. Arról viszont nem árultak el még részleteket, hogy a Google Cloud platformmal milyen mélyebb integrációt terveznek, és mi lesz a termékfejlesztés jövőbeli iránya.

A Gartner mindenesetre pozitívan ítéli meg a felvásárlást, az idei BI mágikus négyzetben  a Looker már a kihívók szegmensébe került.

A vezető Data Science és ML platformok

Megjelent a Gartner piacelemző sorozatának második tagja, amely a data science és gépi tanulási képességeket biztosító szoftverplatformokkal foglalkozik.

Ez a szegmens nagyon érdekes és komplex, hiszen fej-fej mellett versenyeznek az olyan sok évtizedes múlttal rendelkező óriások, mint a SAS vagy IBM és a néhány évvel ezelőtt még nem is létező, sokszor  open source technológiákra koncentráló cégek.

A Data Science felhasználók is több nagy csoportra oszthatóak, az egyik tábor jobban szereti a modelleket R vagy Python kódként fejleszteni, míg mások előnyben részesítik a vizuális, előre elkészített komponensekre alapuló modellezést.

Nem volt könnyű dolga így a Gartner elemzőinek, akik körülbelül 70 szállítót vizsgáltak meg, akik közül végül 16 került be a mágikus négyzetbe.

Gartner Magic Quadrant for Data Science and Machine Learning Platforms, February 2020

Érdekesség, hogy az ábra alapján a  szállítók nagy része kifejezetten erős vízióval rendelkezik, hiszen a 6 vezető mellett 7-en szerepelnek a vizionárius szegmensben, míg az ábra bal oldalán összesen 3 cég található. Ez jól mutatja, hogy mennyire új még ez a piac, szemben például a BI szoftverekével.

Vezetők

Az Alteryx sokáig az önkiszolgáló adatelőkészítés (data prep) specialistája volt, nagyon kényelmes és hatékony vizuális eszközöket kínálva az adatok tisztogatásához. A szoftver szélesebb körű elterjedésének fő gátja a relatíve magas árazás volt. Az utóbbi években egyre erősebben fókuszál a cég az általános data science feladatokra is, több akvizíciót is végrehajtva (Feature Labs, Clear Story, Yhat) ezen a területen.

A Databricks elsősorban Apache Spark-alapú, felhőben futó adatmenedzsment platformjáról ismert, amely nagyon népszerű mind az Amazon, mind a Microsoft ügyfelei körében. A data science területén külön érdekesség a 2018-ban bemutatott, a gépi tanulás teljes életciklusát támogató nyílt forráskódú Mlflow keretrendszer.

A francia hátterű Dataiku a kisebb szállítók közé tartozik, jelenleg nagyjából 300 ügyféllel rendelkezik. A cég egyre erősebben fókuszál az USA piacra, ahonnan most már a bevételének fele származik. A termékfejlesztésben hangsúlyos a kollaboráció, a könnyű tanulhatóság és a data governance támogatása.

A Mathworks hazánkban is jól ismert  MATLAB szoftveréről, különösen a tudományos és műszaki területen. A cég idén került be a vezetők közé, többek között a modern ML technológiák egyre jobb támogatásával.

A SAS hagyományosan erős az innovációs és R&D terén, amelynek köszönhetően az elmúlt években teljesen megújította termékportfólióját, többek között a SAS Viya in-memory adatkezelő platform és a Visual Data Mining and Machine Learning szoftver révén.

A TIBCO hazánkban inkább a Spotfire adatvizualizációs szoftverről ismert, azonban a cég Data Science platformja is egyre erősebb, többek között stratégiai felvásárlásoknak (Alpine Data, Statistica) köszönhetőn.

A teljes elemzés több cég weboldaláról is letölthető, általában rövid ingyenes regisztráció után:
Databricks, Dataiku, SAS

Megjelent a Gartner 2020-as BI mágikus négyzete

Az év elején mindig fontos szakmai esemény a Gartner BI platformokat bemutató Magic Quadrant elemzésének megjelenése.

A mágikus négyzet 4 szegmensbe sorolja a BI szállítókat: Vezetők, Kihívók, Vizionáriusok, és a Többiek,  azaz az olyan szállítók, akik bekerültek az MQ-ba (ami önmagában is nagy eredmény), de egyik tengely mentén sem kaptak kiemelkedő értékelést.

Gartner Magic Quadrant for Analytics and Business Intelligence Platforms, February 2020

Vezetők

A vezetők szegmensében ugyanazzal a négyessel találkozunk, mint tavaly. Az élen továbbra is a Microsoft és Tableau kettőse áll, ami a hazai alkalmazási gyakorlatban is jól tükröződik.

A Microsoft folyamatosan fejleszti az egyéni felhasználóknak továbbra is ingyenesen elérhető Power BI szoftverét, amelyhez egyre több felhőalapú adatelőkészítő és mesterséges intelligencia szolgáltatást is kapcsol.

A Tableau-t tavaly nyáron felvásárolta a Salesforce, azonban versenyfelügyeleti eljárások miatt a két cég érdemi integrációja csak mostanában kezdődik majd el, így az MQ-ban is külön szerepelnek még.

Továbbra is őrzi a helyét a vezetők között a portfólióját az utóbbi időben számos akvizícióval szélesítő Qlik (Attunity, Podium Data, CrunchBot, Rox AI),  valamint az előkelő társaságba tavaly bekerült, kereséscentrikus BI-t kínáló  ThoughtSpot is.

Kihívók 

A MicroStrategy ismét ebben a szegmensben kapott helyett, ami kifejezetten erős, innovatív termékkínálatának köszönhető, azonban a piaci ismertsége és lendülete nem éri el a legjobbakét.

Hasonló a helyzet a Spotfire-ról ismert, tavaly még a vizionáriusok között szereplő  TIBCO esetében, ahol a szoftver képességei első osztályúak, azonban hiányzik a vezetőkre jellemző momentum.

Teljesen új szereplő a kvadránsban a Looker,  amelyet tavaly vett meg a Google, és bár a felvásárlás lezárása itt is nagyon sokáig húzódott, de a jövőben sokat fog javítani a cég ismertségén és piaci elérésén az új tulajdonos.

Vizionáriusok

Ebben a szegmensben megtalálhatóak mind kisebb (Yellowfin, Sisense), mind nagyobb cégek (SAP, SAS, Oracle, Salesforce).

Említésre méltó a szegmensbe először bekerülő, főleg lokálisan ismert  ausztrál Yellowfin, amely kis méretét erős innovációval egyensúlyozza és az Oracle, amely tavaly nyáron teljesen új BI stratégiát jelentett be, alaposan átalakítva termékportfólióját és árazását is.

A teljes elemzés több szállító honlapjáról is letölthető, általában rövid ingyenes regisztráció után: Microsoft, Tableau, Qlik, ToughtSpot, Looker