DataFusion 52 migration

comphead · comphead · commit 30c57ced2fcd · 2026-01-26T08:15:11.000-08:00
diff --git a/native/Cargo.toml b/native/Cargo.toml
@@ -38,9 +38,9 @@ arrow = { version = "57.2.0", features = ["prettyprint", "ffi", "chrono-tz"] }
 async-trait = { version = "0.1" }
 bytes = { version = "1.10.0" }
 parquet = { version = "57.2.0", default-features = false, features = ["experimental"] }
-datafusion = { version = "51.0.0", default-features = false, features = ["unicode_expressions", "crypto_expressions", "nested_expressions", "parquet"] }
-datafusion-datasource = { version = "51.0.0" }
-datafusion-spark = { version = "51.0.0" }
+datafusion = { git = "https://github.com/apache/datafusion", branch = "branch-52", default-features = false, features = ["unicode_expressions", "crypto_expressions", "nested_expressions", "parquet"] }
+datafusion-datasource = { git = "https://github.com/apache/datafusion", branch = "branch-52" }
+datafusion-spark = { git = "https://github.com/apache/datafusion", branch = "branch-52" }
 datafusion-comet-spark-expr = { path = "spark-expr" }
 datafusion-comet-proto = { path = "proto" }
 chrono = { version = "0.4", default-features = false, features = ["clock"] }
diff --git a/native/core/Cargo.toml b/native/core/Cargo.toml
@@ -95,7 +95,7 @@ jni = { version = "0.21", features = ["invocation"] }
 lazy_static = "1.4"
 assertables = "9"
 hex = "0.4.3"
-datafusion-functions-nested = { version = "51.0.0" }
+datafusion-functions-nested = { git = "https://github.com/apache/datafusion", branch = "branch-52" }
 
 [features]
 backtrace = ["datafusion/backtrace"]
diff --git a/native/core/src/execution/planner.rs b/native/core/src/execution/planner.rs
@@ -3420,6 +3420,7 @@ mod tests {
     use arrow::array::{Array, DictionaryArray, Int32Array, ListArray, RecordBatch, StringArray};
     use arrow::datatypes::{DataType, Field, FieldRef, Fields, Schema};
     use datafusion::catalog::memory::DataSourceExec;
+    use datafusion::config::TableParquetOptions;
     use datafusion::datasource::listing::PartitionedFile;
     use datafusion::datasource::object_store::ObjectStoreUrl;
     use datafusion::datasource::physical_plan::{
@@ -4039,16 +4040,14 @@ mod tests {
             }
         }
 
-        let source = ParquetSource::default().with_schema_adapter_factory(Arc::new(
-            SparkSchemaAdapterFactory::new(
-                SparkParquetOptions::new(EvalMode::Ansi, "", false),
-                None,
-            ),
-        ))?;
+        let source = Arc::new(
+            ParquetSource::new(Arc::new(read_schema.clone()))
+                .with_table_parquet_options(TableParquetOptions::new())
+        ) as Arc<dyn FileSource>;
 
         let object_store_url = ObjectStoreUrl::local_filesystem();
         let file_scan_config =
-            FileScanConfigBuilder::new(object_store_url, read_schema.into(), source)
+            FileScanConfigBuilder::new(object_store_url, source)
                 .with_file_groups(file_groups)
                 .build();
 
diff --git a/native/core/src/parquet/parquet_exec.rs b/native/core/src/parquet/parquet_exec.rs
@@ -32,6 +32,7 @@ use datafusion::physical_expr::PhysicalExpr;
 use datafusion::prelude::SessionContext;
 use datafusion::scalar::ScalarValue;
 use datafusion_comet_spark_expr::EvalMode;
+use datafusion_datasource::TableSchema;
 use itertools::Itertools;
 use std::collections::HashMap;
 use std::sync::Arc;
@@ -78,7 +79,24 @@ pub(crate) fn init_datasource_exec(
         encryption_enabled,
     );
 
-    let mut parquet_source = ParquetSource::new(table_parquet_options);
+    // Determine the schema to use for ParquetSource
+    let table_schema = if let Some(ref data_schema) = data_schema {
+        if let Some(ref partition_schema) = partition_schema {
+            let partition_fields: Vec<_> = partition_schema
+                .fields()
+                .iter()
+                .map(|f| Arc::new(Field::new(f.name(), f.data_type().clone(), f.is_nullable())) as _)
+                .collect();
+            TableSchema::new(Arc::clone(data_schema), partition_fields)
+        } else {
+            TableSchema::from_file_schema(Arc::clone(data_schema))
+        }
+    } else {
+        TableSchema::from_file_schema(Arc::clone(&required_schema))
+    };
+
+    let mut parquet_source = ParquetSource::new(table_schema)
+        .with_table_parquet_options(table_parquet_options);
 
     // Create a conjunctive form of the vector because ParquetExecBuilder takes
     // a single expression
@@ -104,37 +122,21 @@ pub(crate) fn init_datasource_exec(
         );
     }
 
-    let file_source = parquet_source.with_schema_adapter_factory(Arc::new(
-        SparkSchemaAdapterFactory::new(spark_parquet_options, default_values),
-    ))?;
+    let file_source = Arc::new(parquet_source) as Arc<dyn FileSource>;
 
     let file_groups = file_groups
         .iter()
         .map(|files| FileGroup::new(files.clone()))
         .collect();
 
-    let file_scan_config = match (data_schema, projection_vector, partition_fields) {
-        (Some(data_schema), Some(projection_vector), Some(partition_fields)) => {
-            get_file_config_builder(
-                data_schema,
-                partition_schema,
-                file_groups,
-                object_store_url,
-                file_source,
-            )
-            .with_projection_indices(Some(projection_vector))
-            .with_table_partition_cols(partition_fields)
-            .build()
-        }
-        _ => get_file_config_builder(
-            required_schema,
-            partition_schema,
-            file_groups,
-            object_store_url,
-            file_source,
-        )
-        .build(),
-    };
+    let mut file_scan_config_builder = FileScanConfigBuilder::new(object_store_url, file_source)
+        .with_file_groups(file_groups);
+    
+    if let Some(projection_vector) = projection_vector {
+        file_scan_config_builder = file_scan_config_builder.with_projection_indices(Some(projection_vector))?;
+    }
+    
+    let file_scan_config = file_scan_config_builder.build();
 
     Ok(Arc::new(DataSourceExec::new(Arc::new(file_scan_config))))
 }
@@ -165,28 +167,3 @@ fn get_options(
 
     (table_parquet_options, spark_parquet_options)
 }
-
-fn get_file_config_builder(
-    schema: SchemaRef,
-    partition_schema: Option<SchemaRef>,
-    file_groups: Vec<FileGroup>,
-    object_store_url: ObjectStoreUrl,
-    file_source: Arc<dyn FileSource>,
-) -> FileScanConfigBuilder {
-    match partition_schema {
-        Some(partition_schema) => {
-            let partition_fields: Vec<Field> = partition_schema
-                .fields()
-                .iter()
-                .map(|field| {
-                    Field::new(field.name(), field.data_type().clone(), field.is_nullable())
-                })
-                .collect_vec();
-            FileScanConfigBuilder::new(object_store_url, Arc::clone(&schema), file_source)
-                .with_file_groups(file_groups)
-                .with_table_partition_cols(partition_fields)
-        }
-        _ => FileScanConfigBuilder::new(object_store_url, Arc::clone(&schema), file_source)
-            .with_file_groups(file_groups),
-    }
-}
diff --git a/native/core/src/parquet/schema_adapter.rs b/native/core/src/parquet/schema_adapter.rs
@@ -344,14 +344,14 @@ mod test {
         let mut spark_parquet_options = SparkParquetOptions::new(EvalMode::Legacy, "UTC", false);
         spark_parquet_options.allow_cast_unsigned_ints = true;
 
-        let parquet_source =
-            ParquetSource::new(TableParquetOptions::new()).with_schema_adapter_factory(
-                Arc::new(SparkSchemaAdapterFactory::new(spark_parquet_options, None)),
-            )?;
+        let parquet_source = Arc::new(
+            ParquetSource::new(Arc::clone(&required_schema))
+                .with_table_parquet_options(TableParquetOptions::new())
+        ) as Arc<dyn FileSource>;
 
         let files = FileGroup::new(vec![PartitionedFile::from_path(filename.to_string())?]);
         let file_scan_config =
-            FileScanConfigBuilder::new(object_store_url, required_schema, parquet_source)
+            FileScanConfigBuilder::new(object_store_url, parquet_source)
                 .with_file_groups(vec![files])
                 .build();
 
diff --git a/native/spark-expr/src/agg_funcs/covariance.rs b/native/spark-expr/src/agg_funcs/covariance.rs
@@ -24,7 +24,7 @@ use arrow::{
     datatypes::{DataType, Field},
 };
 use datafusion::common::{
-    downcast_value, unwrap_or_internal_err, DataFusionError, Result, ScalarValue,
+    downcast_value, unwrap_or_internal_err, Result, ScalarValue,
 };
 use datafusion::logical_expr::function::{AccumulatorArgs, StateFieldsArgs};
 use datafusion::logical_expr::type_coercion::aggregates::NUMERICS;
diff --git a/native/spark-expr/src/math_funcs/round.rs b/native/spark-expr/src/math_funcs/round.rs
@@ -19,10 +19,13 @@ use crate::arithmetic_overflow_error;
 use crate::math_funcs::utils::{get_precision_scale, make_decimal_array, make_decimal_scalar};
 use arrow::array::{Array, ArrowNativeTypeOp};
 use arrow::array::{Int16Array, Int32Array, Int64Array, Int8Array};
-use arrow::datatypes::DataType;
+use arrow::datatypes::{DataType, Field};
 use arrow::error::ArrowError;
 use datafusion::common::{exec_err, internal_err, DataFusionError, ScalarValue};
-use datafusion::{functions::math::round::round, physical_plan::ColumnarValue};
+use datafusion::common::config::ConfigOptions;
+use datafusion::physical_plan::ColumnarValue;
+use datafusion::functions::math::round::RoundFunc;
+use datafusion::logical_expr::{ScalarUDFImpl, ScalarFunctionArgs};
 use std::{cmp::min, sync::Arc};
 
 macro_rules! integer_round {
@@ -126,10 +129,21 @@ pub fn spark_round(
                 let (precision, scale) = get_precision_scale(data_type);
                 make_decimal_array(array, precision, scale, &f)
             }
-            DataType::Float32 | DataType::Float64 => Ok(ColumnarValue::Array(round(&[
-                Arc::clone(array),
-                args[1].to_array(array.len())?,
-            ])?)),
+            DataType::Float32 | DataType::Float64 => {
+                let round_udf = RoundFunc::new();
+                let return_field = Arc::new(Field::new("round", array.data_type().clone(), true));
+                let args_for_round = ScalarFunctionArgs {
+                    args: vec![
+                        ColumnarValue::Array(Arc::clone(array)),
+                        args[1].clone(),
+                    ],
+                    number_rows: array.len(),
+                    return_field,
+                    arg_fields: vec![],
+                    config_options: Arc::new(ConfigOptions::default()),
+                };
+                round_udf.invoke_with_args(args_for_round)
+            }
             dt => exec_err!("Not supported datatype for ROUND: {dt}"),
         },
         ColumnarValue::Scalar(a) => match a {
@@ -150,9 +164,22 @@ pub fn spark_round(
                 let (precision, scale) = get_precision_scale(data_type);
                 make_decimal_scalar(a, precision, scale, &f)
             }
-            ScalarValue::Float32(_) | ScalarValue::Float64(_) => Ok(ColumnarValue::Scalar(
-                ScalarValue::try_from_array(&round(&[a.to_array()?, args[1].to_array(1)?])?, 0)?,
-            )),
+            ScalarValue::Float32(_) | ScalarValue::Float64(_) => {
+                let round_udf = RoundFunc::new();
+                let data_type = a.data_type();
+                let return_field = Arc::new(Field::new("round", data_type, true));
+                let args_for_round = ScalarFunctionArgs {
+                    args: vec![
+                        ColumnarValue::Scalar(a.clone()),
+                        args[1].clone(),
+                    ],
+                    number_rows: 1,
+                    return_field,
+                    arg_fields: vec![],
+                    config_options: Arc::new(ConfigOptions::default()),
+                };
+                round_udf.invoke_with_args(args_for_round)
+            }
             dt => exec_err!("Not supported datatype for ROUND: {dt}"),
         },
     }