Come Apache Kafka sta unendo le ruote per i big data

2024

Meet Apache Kafka : data streaming nelle tue mani

L'analisi viene spesso descritta come una delle maggiori sfide associate ai big data, ma anche prima che questo passo possa accadere, i dati devono essere ingeriti e resi disponibili agli utenti aziendali. È qui che entra in gioco Apache Kafka.

Originariamente sviluppato su LinkedIn, Kafka è un sistema open source per la gestione di flussi di dati in tempo reale da siti Web, applicazioni e sensori.

Essenzialmente, agisce come una specie di impresa " sistema nervoso centrale "che raccoglie dati ad alto volume su cose come attività dell'utente, registri, metriche dell'applicazione, titoli azionari e strumentazione del dispositivo, ad esempio, e lo rende disponibile come flusso in tempo reale per il consumo da parte degli utenti aziendali.

[ Ulteriori letture: le migliori lampadine a LED bianche

Kafka viene spesso confrontato con tecnologie come ActiveMQ o RabbitMQ per implementazioni locali o con Kinesis di Amazon Web Services per i clienti cloud, ha affermato Stephen O'Grady, un co-fondatore e principale analista di RedMonk.

"Sta diventando più visibile perché è un progetto open source di alta qualità, ma anche perché la sua capacità di gestire flussi di informazioni ad alta velocità è sempre più richiesta per l'utilizzo in carichi di lavoro come IoT, tra gli altri, "ha aggiunto O'Grady.

Da quando è stato concepito su LinkedIn, Kafka ha ottenuto un supporto di alto profilo da società come Netflix, Uber, Cisco e Goldman Sachs. Venerdì, ha ricevuto un nuovo impulso da IBM, che ha annunciato la disponibilità di due nuovi servizi basati su Kafka attraverso la sua piattaforma Bluemix.

Il nuovo servizio di Streaming Analytics di IBM mira ad analizzare milioni di eventi al secondo per tempi di risposta inferiori al millisecondo e processo decisionale immediato. IBM Message Hub, ora in versione beta, fornisce funzionalità di messaggistica asincrona scalabile, distribuita, ad alto throughput per applicazioni cloud, con la possibilità di utilizzare una API REST o Apache Kafka (interfaccia di programmazione dell'applicazione) per comunicare con altre applicazioni.

Kafka era open source nel 2011. L'anno scorso, tre dei creatori di Kafka hanno lanciato Confluent, una startup dedicata ad aiutare le imprese ad utilizzarla nella produzione su scala.

"Durante la nostra fase di crescita esplosiva su LinkedIn, non siamo riusciti a tenere il passo con l'utente in crescita base e dati che potrebbero essere utilizzati per migliorare l'esperienza dell'utente ", ha dichiarato Neha Narkhede, uno dei creatori di Kafka e co-fondatori di Confluent.

" Ciò che Kafka ti consente di fare è spostare i dati all'interno dell'azienda e renderli disponibile come flusso continuo a flusso libero in pochi secondi per le persone che hanno bisogno di farne uso ", ha spiegato Narkhede. "E lo fa su larga scala".

L'impatto su LinkedIn è stato "trasformazionale", ha detto. Oggi, LinkedIn rimane il più grande sviluppo di Kafka nella produzione; supera i 1,1 trilioni di messaggi al giorno.

Confluent, nel frattempo, offre un software di gestione avanzato in abbonamento per aiutare le grandi aziende a gestire Kafka per i sistemi di produzione. Tra i suoi clienti ci sono un importante rivenditore big-box e "uno dei più grandi emittenti di carte di credito negli Stati Uniti", ha detto Narkhede.

Quest'ultimo utilizza la tecnologia per la protezione dalle frodi in tempo reale, ha detto.

Kafka è "un bus di messaggistica incredibilmente veloce" che aiuta a integrare rapidamente diversi tipi di dati, ha dichiarato Jason Stamper, analista di 451 Research. "Ecco perché sta emergendo come una delle scelte più popolari."

Oltre ad ActiveMQ e RabbitMQ, un altro prodotto che offre funzionalità simili è Apache Flume, ha osservato; Storm & Spark Streaming sono simili in molti modi.

Nello spazio commerciale, i concorrenti di Confluent includono IBM InfoSphere Streams, Ultra Messaging Streaming Edition di Informatica e Event Stream Processing Engine (ESP) di SAS insieme a Apama di Software AG, StreamBase di Tibco e Aleri di SAP, Stamper aggiunto. I concorrenti più piccoli includono DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic e Glassbeam.

Nel cloud, il servizio di elaborazione dei flussi Kinesis di AWS "ha l'ulteriore vantaggio dell'integrazione con il data warehouse di Redshift e la piattaforma di storage S3", ha affermato.

Il listener appena annunciato da Teradata è un altro contendente ed è basato su Kafka inoltre, ha osservato Brian Hopkins, vicepresidente e principale analista di Forrester Research.

In generale, c'è una marcata tendenza verso i dati in tempo reale, ha detto Hopkins.

Fino al 2013 o giù di lì, "i big data erano tutti su enormi quantità di dati inseriti in Hadoop ", ha detto. "Ora, se non lo fai, sei già dietro la curva di alimentazione."

Oggi, i dati provenienti da smartphone e altre fonti stanno dando alle imprese l'opportunità di interagire con i consumatori in tempo reale e fornire esperienze contestuali, disse. Questo, a sua volta, si basa sulla capacità di comprendere i dati più velocemente.

"L'Internet delle cose è come una seconda ondata di dispositivi mobili", ha spiegato Hopkins. "Ogni venditore si sta posizionando per una valanga di dati."

Di conseguenza, la tecnologia si sta adattando di conseguenza.

"Fino al 2014 era tutto su Hadoop, poi era Spark", ha detto. "Ora sono Hadoop, Spark e Kafka: sono tre pari pari nella pipeline di ingestione dei dati in questa moderna architettura analitica."