Перейти к основному содержимому
Перейти к основному содержимому

Интеграция Apache Spark с ClickHouse


Apache Spark — это многоязычный движок для выполнения задач по обработке данных, аналитике данных и машинному обучению на одноузловых машинах или кластерах.

Существует два основных способа подключения Apache Spark и ClickHouse:

  1. Spark Connector - Коннектор Spark реализует DataSourceV2 и имеет собственное управление каталогом. На сегодняшний день это рекомендованный способ интеграции ClickHouse и Spark.
  2. Spark JDBC - Интеграция Spark и ClickHouse с использованием JDBC data source.


Обе решения были успешно протестированы и полностью совместимы с различными API, включая Java, Scala, PySpark и Spark SQL.