Spark JDBC
JDBC является одним из самых часто используемых источников данных в Spark. В этом разделе мы предоставим информацию о том, как использовать официальный JDBC-коннектор ClickHouse с Spark.
Чтение данных
- Java
- Scala
- Python
- Spark SQL
Запись данных
- Java
- Scala
- Python
- Spark SQL
Параллелизм
При использовании Spark JDBC Spark считывает данные, используя одну партицию. Для достижения более высокой параллельности необходимо указать
partitionColumn
, lowerBound
, upperBound
и numPartitions
, которые описывают, как партиционировать таблицу при
чтении параллельно из нескольких рабочих узлов.
Пожалуйста, посетите официальную документацию Apache Spark для получения дополнительной информации
о конфигурациях JDBC.
Ограничения JDBC
- На сегодняшний день вы можете вставлять данные через JDBC только в существующие таблицы (в настоящее время нет способа автоматически создавать таблицу при вставке DF, как это делает Spark с другими коннекторами).