feat: support collect_set

comphead · comphead · commit 6d7dae910a21 · 2026-04-15T16:45:35.000-07:00
diff --git a/docs/spark_expressions_support.md b/docs/spark_expressions_support.md
@@ -33,7 +33,7 @@
 - [x] bool_and
 - [x] bool_or
 - [ ] collect_list
-- [ ] collect_set
+- [x] collect_set
 - [ ] corr
 - [x] count
 - [x] count_if
diff --git a/native/Cargo.lock b/native/Cargo.lock
diff --git a/native/core/src/execution/planner.rs b/native/core/src/execution/planner.rs
@@ -70,6 +70,7 @@ use datafusion_comet_spark_expr::{
     create_comet_physical_fun, create_comet_physical_fun_with_eval_mode, BinaryOutputStyle,
     BloomFilterAgg, BloomFilterMightContain, CsvWriteOptions, EvalMode, SumInteger, ToCsv,
 };
+use datafusion_spark::function::aggregate::collect::SparkCollectSet;
 use iceberg::expr::Bind;
 
 use crate::execution::operators::ExecutionError::GeneralError;
@@ -2266,6 +2267,11 @@ impl PhysicalPlanner {
                 ));
                 Self::create_aggr_func_expr("bloom_filter_agg", schema, vec![child], func)
             }
+            AggExprStruct::CollectSet(expr) => {
+                let child = self.create_expr(expr.child.as_ref().unwrap(), Arc::clone(&schema))?;
+                let func = AggregateUDF::new_from_impl(SparkCollectSet::new());
+                Self::create_aggr_func_expr("collect_set", schema, vec![child], func)
+            }
         }
     }
 
diff --git a/native/proto/src/proto/expr.proto b/native/proto/src/proto/expr.proto
@@ -139,6 +139,7 @@ message AggExpr {
     Stddev stddev = 14;
     Correlation correlation = 15;
     BloomFilterAgg bloomFilterAgg = 16;
+    CollectSet collectSet = 17;
   }
 
   // Optional filter expression for SQL FILTER (WHERE ...) clause.
@@ -247,6 +248,11 @@ message BloomFilterAgg {
   DataType datatype = 4;
 }
 
+message CollectSet {
+  Expr child = 1;
+  DataType datatype = 2;
+}
+
 enum EvalMode {
   LEGACY = 0;
   TRY = 1;
diff --git a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
@@ -258,6 +258,7 @@ object QueryPlanSerde extends Logging with CometExprShim {
     classOf[BitOrAgg] -> CometBitOrAgg,
     classOf[BitXorAgg] -> CometBitXOrAgg,
     classOf[BloomFilterAggregate] -> CometBloomFilterAggregate,
+    classOf[CollectSet] -> CometCollectSet,
     classOf[Corr] -> CometCorr,
     classOf[Count] -> CometCount,
     classOf[CovPopulation] -> CometCovPopulation,
diff --git a/spark/src/main/scala/org/apache/comet/serde/aggregates.scala b/spark/src/main/scala/org/apache/comet/serde/aggregates.scala
@@ -22,7 +22,7 @@ package org.apache.comet.serde
 import scala.jdk.CollectionConverters._
 
 import org.apache.spark.sql.catalyst.expressions.Attribute
-import org.apache.spark.sql.catalyst.expressions.aggregate.{AggregateExpression, Average, BitAndAgg, BitOrAgg, BitXorAgg, BloomFilterAggregate, CentralMomentAgg, Corr, Count, Covariance, CovPopulation, CovSample, First, Last, Max, Min, StddevPop, StddevSamp, Sum, VariancePop, VarianceSamp}
+import org.apache.spark.sql.catalyst.expressions.aggregate.{AggregateExpression, Average, BitAndAgg, BitOrAgg, BitXorAgg, BloomFilterAggregate, CentralMomentAgg, CollectSet, Corr, Count, Covariance, CovPopulation, CovSample, First, Last, Max, Min, StddevPop, StddevSamp, Sum, VariancePop, VarianceSamp}
 import org.apache.spark.sql.internal.SQLConf
 import org.apache.spark.sql.types.{ByteType, DataTypes, DecimalType, IntegerType, LongType, ShortType, StringType}
 
@@ -671,6 +671,37 @@ object CometBloomFilterAggregate extends CometAggregateExpressionSerde[BloomFilt
   }
 }
 
+object CometCollectSet extends CometAggregateExpressionSerde[CollectSet] {
+  override def convert(
+      aggExpr: AggregateExpression,
+      expr: CollectSet,
+      inputs: Seq[Attribute],
+      binding: Boolean,
+      conf: SQLConf): Option[ExprOuterClass.AggExpr] = {
+    val child = expr.children.head
+    val childExpr = exprToProto(child, inputs, binding)
+    val dataType = serializeDataType(expr.dataType)
+
+    if (childExpr.isDefined && dataType.isDefined) {
+      val builder = ExprOuterClass.CollectSet.newBuilder()
+      builder.setChild(childExpr.get)
+      builder.setDatatype(dataType.get)
+
+      Some(
+        ExprOuterClass.AggExpr
+          .newBuilder()
+          .setCollectSet(builder)
+          .build())
+    } else if (dataType.isEmpty) {
+      withInfo(aggExpr, s"datatype ${expr.dataType} is not supported", child)
+      None
+    } else {
+      withInfo(aggExpr, child)
+      None
+    }
+  }
+}
+
 object AggSerde {
   import org.apache.spark.sql.types._
 
diff --git a/spark/src/test/resources/sql-tests/expressions/aggregate/collect_set.sql b/spark/src/test/resources/sql-tests/expressions/aggregate/collect_set.sql
@@ -0,0 +1,212 @@
+-- Licensed to the Apache Software Foundation (ASF) under one
+-- or more contributor license agreements.  See the NOTICE file
+-- distributed with this work for additional information
+-- regarding copyright ownership.  The ASF licenses this file
+-- to you under the Apache License, Version 2.0 (the
+-- "License"); you may not use this file except in compliance
+-- with the License.  You may obtain a copy of the License at
+--
+--   http://www.apache.org/licenses/LICENSE-2.0
+--
+-- Unless required by applicable law or agreed to in writing,
+-- software distributed under the License is distributed on an
+-- "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+-- KIND, either express or implied.  See the License for the
+-- specific language governing permissions and limitations
+-- under the License.
+
+-- Config: spark.comet.expression.CollectSet.allowIncompatible=true
+-- ConfigMatrix: parquet.enable.dictionary=false,true
+
+-- ============================================================
+-- Setup: tables
+-- ============================================================
+
+statement
+CREATE TABLE test_collect_set_int(i int, grp string) USING parquet
+
+statement
+INSERT INTO test_collect_set_int VALUES
+  (1, 'a'), (2, 'a'), (1, 'a'), (3, 'a'),
+  (4, 'b'), (4, 'b'), (NULL, 'b'), (5, 'b')
+
+statement
+CREATE TABLE test_collect_set_types(
+  b boolean, bi bigint, d double, s string, dc decimal(10,2), dt date, grp string
+) USING parquet
+
+statement
+INSERT INTO test_collect_set_types VALUES
+  (true,  10, 1.1, 'x', 1.50, DATE '2024-01-01', 'a'),
+  (false, 20, 2.2, 'y', 2.50, DATE '2024-01-02', 'a'),
+  (true,  10, 1.1, 'x', 1.50, DATE '2024-01-01', 'a'),
+  (NULL,  30, 3.3, 'z', 3.50, DATE '2024-01-03', 'b'),
+  (true,  30, 3.3, 'z', 3.50, DATE '2024-01-03', 'b')
+
+statement
+CREATE TABLE test_collect_set_nulls(val int, grp string) USING parquet
+
+statement
+INSERT INTO test_collect_set_nulls VALUES
+  (NULL, 'a'), (NULL, 'a'), (NULL, 'b'), (1, 'b')
+
+statement
+CREATE TABLE test_collect_set_empty(val int) USING parquet
+
+statement
+CREATE TABLE test_collect_set_single(val int) USING parquet
+
+statement
+INSERT INTO test_collect_set_single VALUES (42)
+
+-- ============================================================
+-- Note: collect_set result ordering is non-deterministic.
+-- We materialize aggregate results via CTAS and then sort
+-- the arrays in a separate query to avoid sort_array in the
+-- aggregate result expressions (which would cause the Final
+-- aggregate to fall back to Spark).
+-- ============================================================
+
+-- ============================================================
+-- Operator coverage: verify collect_set runs natively
+-- (use size() which is supported, avoids array ordering issues)
+-- ============================================================
+
+query
+SELECT grp, size(collect_set(i)) FROM test_collect_set_int GROUP BY grp ORDER BY grp
+
+-- ============================================================
+-- Basic: integer dedup
+-- ============================================================
+
+statement
+CREATE TABLE cs_basic USING parquet AS
+SELECT collect_set(i) as cs FROM test_collect_set_int
+
+query spark_answer_only
+SELECT sort_array(cs) FROM cs_basic
+
+-- ============================================================
+-- GROUP BY: integer dedup per group
+-- ============================================================
+
+statement
+CREATE TABLE cs_grp_int USING parquet AS
+SELECT grp, collect_set(i) as cs FROM test_collect_set_int GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_grp_int ORDER BY grp
+
+-- ============================================================
+-- NULLs: all NULLs in a group returns empty array
+-- ============================================================
+
+statement
+CREATE TABLE cs_nulls USING parquet AS
+SELECT grp, collect_set(val) as cs FROM test_collect_set_nulls GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_nulls ORDER BY grp
+
+-- ============================================================
+-- Empty table: returns empty array
+-- ============================================================
+
+statement
+CREATE TABLE cs_empty USING parquet AS
+SELECT collect_set(val) as cs FROM test_collect_set_empty
+
+query spark_answer_only
+SELECT sort_array(cs) FROM cs_empty
+
+-- ============================================================
+-- Single value
+-- ============================================================
+
+statement
+CREATE TABLE cs_single USING parquet AS
+SELECT collect_set(val) as cs FROM test_collect_set_single
+
+query spark_answer_only
+SELECT sort_array(cs) FROM cs_single
+
+-- ============================================================
+-- Multiple data types
+-- ============================================================
+
+-- boolean
+statement
+CREATE TABLE cs_bool USING parquet AS
+SELECT grp, collect_set(b) as cs FROM test_collect_set_types GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_bool ORDER BY grp
+
+-- bigint
+statement
+CREATE TABLE cs_bigint USING parquet AS
+SELECT grp, collect_set(bi) as cs FROM test_collect_set_types GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_bigint ORDER BY grp
+
+-- double
+statement
+CREATE TABLE cs_double USING parquet AS
+SELECT grp, collect_set(d) as cs FROM test_collect_set_types GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_double ORDER BY grp
+
+-- string
+statement
+CREATE TABLE cs_string USING parquet AS
+SELECT grp, collect_set(s) as cs FROM test_collect_set_types GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_string ORDER BY grp
+
+-- decimal
+statement
+CREATE TABLE cs_decimal USING parquet AS
+SELECT grp, collect_set(dc) as cs FROM test_collect_set_types GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_decimal ORDER BY grp
+
+-- date
+statement
+CREATE TABLE cs_date USING parquet AS
+SELECT grp, collect_set(dt) as cs FROM test_collect_set_types GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_date ORDER BY grp
+
+-- ============================================================
+-- Mixed with other aggregates
+-- ============================================================
+
+statement
+CREATE TABLE cs_mixed USING parquet AS
+SELECT grp, collect_set(i) as cs, count(*) as cnt, sum(i) as total
+FROM test_collect_set_int GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs), cnt, total FROM cs_mixed ORDER BY grp
+
+-- ============================================================
+-- All duplicates in a group
+-- ============================================================
+
+statement
+CREATE TABLE test_collect_set_dupes(val int, grp string) USING parquet
+
+statement
+INSERT INTO test_collect_set_dupes VALUES (7, 'a'), (7, 'a'), (7, 'a'), (8, 'b'), (9, 'b')
+
+statement
+CREATE TABLE cs_dupes USING parquet AS
+SELECT grp, collect_set(val) as cs FROM test_collect_set_dupes GROUP BY grp
+
+query spark_answer_only
+SELECT grp, sort_array(cs) FROM cs_dupes ORDER BY grp

Original file line number	Diff line number	Diff line change
`@@ -70,6 +70,7 @@ use datafusion_comet_spark_expr::{`
`70`	`70`	`create_comet_physical_fun, create_comet_physical_fun_with_eval_mode, BinaryOutputStyle,`
`71`	`71`	`BloomFilterAgg, BloomFilterMightContain, CsvWriteOptions, EvalMode, SumInteger, ToCsv,`
`72`	`72`	`};`
	`73`	`+use datafusion_spark::function::aggregate::collect::SparkCollectSet;`
`73`	`74`	`use iceberg::expr::Bind;`
`74`	`75`
`75`	`76`	`use crate::execution::operators::ExecutionError::GeneralError;`
`@@ -2266,6 +2267,11 @@ impl PhysicalPlanner {`
`2266`	`2267`	`));`
`2267`	`2268`	`Self::create_aggr_func_expr("bloom_filter_agg", schema, vec![child], func)`
`2268`	`2269`	`}`
	`2270`	`+ AggExprStruct::CollectSet(expr) => {`
	`2271`	`+ let child = self.create_expr(expr.child.as_ref().unwrap(), Arc::clone(&schema))?;`
	`2272`	`+ let func = AggregateUDF::new_from_impl(SparkCollectSet::new());`
	`2273`	`+ Self::create_aggr_func_expr("collect_set", schema, vec![child], func)`
	`2274`	`+ }`
`2269`	`2275`	`}`
`2270`	`2276`	`}`
`2271`	`2277`