Hortonworks и HPE вместе работают над повышением производительности Apache Spark
Проект уже принес первые плоды: усовершенствованный механизм перестановок, ускорение сортировок и вычислений в оперативной памяти, более оптимальное использование доступной памяти и улучшение масштабируемости.
Компания Hortonworks, создатель дистрибутива Hadoop, и исследовательское подразделение компании Hewlett Packard Enterprise осуществляют совместный проект, направленный на кардинальное повышение быстродействия фреймворка распределенной обработки данных Apache Spark.
Проект уже принес первые плоды: усовершенствованный механизм перестановок, ускорение сортировок и вычислений в оперативной памяти, более оптимальное использование доступной памяти и улучшение масштабируемости.
Как сообщили в HP Labs, исследователи переписали на C++ механизм перестановок, изначально реализованный на Java, переработали ряд алгоритмов с расчетом на более эффективное использование памяти и обеспечили возможность использования большей емкости памяти. По словам разработчиков, заказчики, попробовавшие результаты работы HP Labs, отметили повышение скорости выполнения некоторых задач в 5-15 раз.
Все доработки от HP Labs будут выпущены в открытых кодах.
В Hortonworks в свою очередь отметили, что продолжат работать над улучшением быстродействия и функциональности Spark, интеграцией с платформой управления ресурсами Apache YARN, а также реализацией возможности использования с новыми приложениями вроде Apache Zeppelin (проект в инкубаторе Apache, "веб-блокнот" для интерактивного анализа данных).