Apache

Новости

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в…

Подробнее »
Новости

Apache Flink и потоковая обработка данных для решения задач IoT

К 2021 году прогнозируется, что около 16 млрд из приблизительно 28 млрд подключенных устройств по всему миру, будут так или…

Подробнее »
Новости

Как я запускал классификацию изображений на домашнем кластере Apache Ignite ML

Я — студент университета, знаком с машинным обучением в рамках пройденного курса, есть интерес к современным кластерным технологиям, конкретно —…

Подробнее »
Новости

[Перевод] Как в Datalake объединить слишком большое количество небольших файлов в несколько больших с помощью Apache Spark

Повышаем производительность ваших запросов чтения на больших датасетах Один из современных способов хранения большущего объема данных для платформ обработки и…

Подробнее »
Новости

[Перевод] Apache Ozone и узлы хранения данных высокой плотности

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей,…

Подробнее »
Новости

Делаем свой десктопный GUI к Apache Kafka или Conduktor для обездоленных

— Я духов вызывать могу из бездны! — И я могу, и всякий это может. Вопрос лишь, явятся ль они…

Подробнее »
Новости

Потоковый захват изменений из PostgreSQL/MySQL с помощью Apache Flink

Часть 1: Вводно-теоретическая (лирическая) Привет! Сегодня мы поговорим и попробуем на практике реализацию паттерна Change Data Capture (далее – CDC)…

Подробнее »
Новости

Apache Ignite 3: распределённая БД своими руками, next level

«В теории нет разницы между теорией и практикой. А на практике есть»Йоги Берра Распределённые системы — это вообще интересная и…

Подробнее »
Новости

[Перевод] Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Я учусь иллюстрировать сложные процессы с помощью комиксов. Нашла себе в копилку крутой кейс: как с помощью комиксов про милых…

Подробнее »
Новости

[Перевод] Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Практически в каждом секторе, работающем со сложными данными, Spark «де-факто» быстро стал средой распределенных вычислений для команд на всех этапах…

Подробнее »
Новости

[Перевод] Apache Camel и Spring Boot

В этой статье рассмотрена интеграция Apache Camel со средой Spring Boot. 1. Введение Apache Camel — это фреймворк для интеграции приложений…

Подробнее »
Новости

[Перевод] Apache Spark 3.1: Spark on Kubernetes теперь общедоступен

С выходом Apache Spark 3.1 в марте 2021-го проект Spark on Kubernetes официально перешел в статус общедоступного и готового к…

Подробнее »
Новости

[Перевод] Apache Kafka — скоро без ZooKeeper

В основе Apache Kafka находится лог — простая структура данных, которая использует последовательные операции, работающие в симбиозе с оборудованием. Эффективное…

Подробнее »
Новости

Как и зачем разворачивать приложение на Apache Spark в Kubernetes

Для частого запуска Spark-приложений, особенно в промышленной эксплуатации, необходимо максимально упростить процесс запуска задач, а также уметь гибко настраивать их…

Подробнее »
Новости

[Перевод] Что будет, если изменить количество виртуальных нод в Apache Cassandra

В Apache Cassandra 4.0 будет новое значение по умолчанию для num_tokens! Звучит как незначительное изменение в CHANGES.txt, но по факту…

Подробнее »
Новости

[Перевод] Как Apache Kafka поддерживает 200К партиций в кластере?

В Kafka топик может содержать множество партиций, между которыми распределяются записи. Партиции — это единицы параллелизма. В целом, чем больше…

Подробнее »
Новости

Доступны бесплатные уроки видеокурса по Apache Kafka

Мы открыли доступ к базовым темам курса по Apache Kafka, начать учиться можно уже сейчас. В программе две теоретические темы…

Подробнее »
Новости

[Перевод] Apache Spark на Kubernetes: чем полезен Apache YuniKorn

 Сунил Говиндан, Вэйвэй Янг, Вангда Tан, Уилфред Шпигельбург Предпосылки Почему для Apache Spark выбирают K8s  Apache Spark унифицирует в рамках…

Подробнее »
Новости

[Перевод] Apache Cassandra 4.0: бенчмарки

Apache Cassandra 4.0 приближается к бете (прим. переводчика: на текущий момент уже доступна бета 4, выпущенная в конце декабря 2020),…

Подробнее »
Новости

Импорт ЕГРЮЛ ФНС средствами Apache NiFi. Шаг 3 — преобразование JSON с помощью JOLT

В одном из проектов возникла необходимость перевести процессы импорта данных сторонних систем на микросервисную архитектуру. В качестве инструмента выбран Apache…

Подробнее »
Новости

Как мы пытались с NoSQL работать как с SQL с помощью Hibernate и Apache Phoenix

TL;DR; Мы хотели реализовать пагинацию, и для этого нам пришлось форкнуть диалект для Hibernate. В тот день ничего не предвещало…

Подробнее »
Новости

Анонс, предзаказ и бесплатные уроки видеокурса по Apache Kafka

Открываем предзаказ продвинутого курса по Apache Kafka. Видеокурс о том, как настроить и оптимизировать Apache Kafka — брокер сообщений для…

Подробнее »
Новости

Асинхронное взаимодействие. Брокеры сообщений. Apache Kafka

Данная публикация предназначена для тех, кто интересуется устройством распределенных систем, брокерами сообщений и Apache Kafka. Здесь вы не найдете эксклюзивного…

Подробнее »
Новости

Управление признаками сущностей в Apache Kafka

Введение Во время работы над задачами машинного обучения с онлайн-данными есть необходимость собирать различные сущности в одну для дальнейшего анализа…

Подробнее »
Новости

[Перевод] Как создать приложение для потоковой обработки данных при помощи Apache Flink

Привет, Хабр! Среди рассматриваемых нами фреймворков для сложной обработки данных на Java есть и Apache Flink. Хотим предложить вам перевод…

Подробнее »
Новости

Практические методы оптимизации запросов в Apache Spark

После вводной статьи про Spark Shell мне хотелось бы рассмотреть некоторые приемы оптимизации запросов в Spark и Hive, и сравнить…

Подробнее »
Новости

Мониторинг распределенной системы с помощью Zabbix на примере Apache Ignite

Вступление Мониторинг сложных распределенных систем может стать настоящей головной болью как с точки зрения первичной настройки метрик и поддержания их…

Подробнее »
Новости

Импорт ЕГРЮЛ ФНС средствами Apache NiFi. Шаг 2 — преобразование XML в JSON

В одном из проектов возникла необходимость перевести процессы импорта данных сторонних систем на микросервисную архитектуру. В качестве инструмента выбран Apache…

Подробнее »
Новости

[Перевод] Экономичная конфигурация исполнителей Apache Spark

Привет, Хабр! В преддверии старта курса «Экосистема Hadoop, Spark, Hive» подготовили для вас перевод полезной статьи. А также предлагаем посмотреть…

Подробнее »
Новости

Архитектура транзакций в Apache Ignite

В этой статье мы рассмотрим, как устроены транзакции в Apache Ignite. Не будем останавливаться на концепции Key-Value хранилища, а перейдем…

Подробнее »
Новости

Приглашаем на митап «Apache Kafka в вопросах и ответах» 17 ноября в 19:00

17 ноября в 19:00 мск проведем митап по Apache Kafka. Приглашаем экспертов и слушателей. Ключевые темы: Kafka VS RabbitMQ, Что…

Подробнее »
Новости

Автоматизация аналитики Jira средствами Apache NiFi

Приветствую, господа. Я Маша, мне 23, и я уже полгода изучаю и внедряю на практике Apache NiFi. Должна отметить, что…

Подробнее »
Новости

[Из песочницы] Краткий обзор системы Apache NlpCraft

В данной статье я бы хотел познакомить читателей с одним из проектов Apache Software Foundation сообщества — NlpCraft. NlpCraft —…

Подробнее »
Новости

Создаём установщик веб-приложения Python, включающий Apache, Django и PostgreSQL для ОС Windows

Данный пост является продолжением первой части статьи на Хабре, где было подробно рассказано о развертывании Django стека на MS Windows.…

Подробнее »
Новости

[Перевод] Обзор нового UI для Structured Streaming в Apache Spark™ 3.0

Перевод статьи подготовлен в преддверии старта курса «Data Engineer». Structured Streaming был впервые представлен ​​в Apache Spark 2.0. Эта платформа…

Подробнее »
Новости

Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0

Apache Software Foundation выпустила свежий релиз своей платформы — Apache Hadoop 3.3.0. С момента последнего обновления прошло полтора года. Сама…

Подробнее »
Новости

Apache Airflow: делаем ETL проще

Привет, я Дмитрий Логвиненко — Data Engineer отдела аналитики группы компаний «Везёт». Я расскажу вам о замечательном инструменте для разработки…

Подробнее »
Новости

[Перевод] Распределенное обучение с Apache MXNet и Horovod

Перевод статьи подготовлен в преддверии старта курса «Промышленный ML на больших данных» Распределенное обучение на нескольких высокопроизводительных вычислительных экземплярах может…

Подробнее »
Кнопка «Наверх»