StreamSets Data Collector
Definição O StreamSets Data Collector é uma infraestrutura de ingestão contínua de big data de nível empresarial, de código aberto. Ele possui uma interface de usuário avançada e fácil de usar que permite que cientistas de dados, desenvolvedores e equipes de infraestrutura de dados criem facilmente pipelines de dados em uma pequena fração do tempo. Pronto para usar, o StreamSets Data Collector lê e grava em um grande número de terminais, incluindo S3, JDBC, Hadoop, Kafka, Cassandra e muitos outros. Você pode usar Python, Javascript e Java Expression Language, além de um grande número de estágios pré-construídos para transformar e processar os dados em tempo real. Para tolerância a falhas e escalabilidade horizontal, você pode configurar pipelines de dados no modo cluster e executar monitoramento de baixa granularidade em cada estágio do pipeline. Prova de conceito O objetivo deste tutorial é reunir arquivos de log do Apache e enviá-los ao Elasticsearch. Ao longo do caminho, vamos...