[MINOR] Added safety-net check to catch any potential issue to deduce parallelism from the incoming `Dataset` appropriately (#7873)

commit: b711e39c9400c8595733d57e889eecb0e88a4b99 [log] [tgz]
author: Alexey Kudinkin <alexey.kudinkin@gmail.com> Tue Feb 07 07:41:28 2023 -0800
committer: Y Ethan Guo <yihua@apache.org> Tue Feb 07 09:58:06 2023 -0800
tree: 09bfccd7a9c59888fd2b0f0f63aed4a068f9a662
parent: 721b91304ca04d7123c72329ce8d1d003ff0a665 [diff]
diff --git a/hudi-client/hudi-spark-client/src/main/scala/org/apache/hudi/HoodieDatasetBulkInsertHelper.scala b/hudi-client/hudi-spark-client/src/main/scala/org/apache/hudi/HoodieDatasetBulkInsertHelper.scala
index a6488b0..e239db1 100644
--- a/hudi-client/hudi-spark-client/src/main/scala/org/apache/hudi/HoodieDatasetBulkInsertHelper.scala
+++ b/hudi-client/hudi-spark-client/src/main/scala/org/apache/hudi/HoodieDatasetBulkInsertHelper.scala

@@ -203,6 +203,17 @@
       .values
   }
 
+  override protected def deduceShuffleParallelism(input: DataFrame, configuredParallelism: Int): Int = {
+    val deduceParallelism = super.deduceShuffleParallelism(input, configuredParallelism)
+    // NOTE: In case parallelism deduction failed to accurately deduce parallelism level of the
+    //       incoming dataset we fallback to default parallelism level set for this Spark session
+    if (deduceParallelism > 0) {
+      deduceParallelism
+    } else {
+      input.sparkSession.sparkContext.defaultParallelism
+    }
+  }
+
   private def dropPartitionColumns(df: DataFrame, config: HoodieWriteConfig): DataFrame = {
     val partitionPathFields = getPartitionPathFields(config).toSet
     val nestedPartitionPathFields = partitionPathFields.filter(f => f.contains('.'))
commit	b711e39c9400c8595733d57e889eecb0e88a4b99	[log] [tgz]
author	Alexey Kudinkin <alexey.kudinkin@gmail.com>	Tue Feb 07 07:41:28 2023 -0800
committer	Y Ethan Guo <yihua@apache.org>	Tue Feb 07 09:58:06 2023 -0800
tree	09bfccd7a9c59888fd2b0f0f63aed4a068f9a662
parent	721b91304ca04d7123c72329ce8d1d003ff0a665 [diff]