Spark: Remove common module, iceberg-spark (apache#3313)

This also fixes some instances of source incompatibility in Spark 3
jia3857 · Oct 19, 2021 · f3e6770 · f3e6770
1 parent edc6985
commit f3e6770
Show file tree

Hide file tree

Showing 342 changed files with 32,809 additions and 79 deletions.
diff --git a/jmh.gradle b/jmh.gradle
@@ -45,14 +45,6 @@ configure(jmhProjects) {
     zip64 true
   }
 
-  // Path is relative to either spark2 or spark3 folder, depending on project being tested
-  sourceSets {
-    jmh {
-      java.srcDirs = ['src/jmh/java', '../../../spark/src/jmh/java']
-      compileClasspath += sourceSets.main.runtimeClasspath
-    }
-  }
-
   jmhCompileGeneratedClasses {
     pluginManager.withPlugin('com.palantir.baseline-error-prone') {
       options.errorprone.enabled = false

diff --git a/spark/build.gradle b/spark/build.gradle
@@ -17,71 +17,6 @@
  * under the License.
  */
 
-project(':iceberg-spark') {
-  configurations.all {
-    resolutionStrategy {
-      // Spark 2.4.4 can only use the below datanucleus version, the versions introduced
-      // by Hive 2.3.6 will meet lots of unexpected issues, so here force to use the versions
-      // introduced by Hive 1.2.1.
-      force 'org.datanucleus:datanucleus-api-jdo:3.2.6'
-      force 'org.datanucleus:datanucleus-core:3.2.10'
-      force 'org.datanucleus:datanucleus-rdbms:3.2.9'
-    }
-  }
-
-  dependencies {
-    implementation project(path: ':iceberg-bundled-guava', configuration: 'shadow')
-    api project(':iceberg-api')
-    implementation project(':iceberg-common')
-    implementation project(':iceberg-core')
-    api project(':iceberg-data')
-    implementation project(':iceberg-orc')
-    implementation project(':iceberg-parquet')
-    implementation project(':iceberg-arrow')
-    implementation project(':iceberg-hive-metastore')
-
-    compileOnly "com.google.errorprone:error_prone_annotations"
-    compileOnly "org.apache.avro:avro"
-    compileOnly("org.apache.spark:spark-hive_2.11") {
-      exclude group: 'org.apache.avro', module: 'avro'
-    }
-
-    implementation("org.apache.orc:orc-core::nohive") {
-      exclude group: 'org.apache.hadoop'
-      exclude group: 'commons-lang'
-      // These artifacts are shaded and included in the orc-core fat jar
-      exclude group: 'com.google.protobuf', module: 'protobuf-java'
-      exclude group: 'org.apache.hive', module: 'hive-storage-api'
-    }
-
-    implementation("org.apache.arrow:arrow-vector") {
-      exclude group: 'io.netty', module: 'netty-buffer'
-      exclude group: 'io.netty', module: 'netty-common'
-      exclude group: 'com.google.code.findbugs', module: 'jsr305'
-    }
-
-    testImplementation("org.apache.hadoop:hadoop-minicluster") {
-      exclude group: 'org.apache.avro', module: 'avro'
-    }
-    testImplementation project(path: ':iceberg-hive-metastore', configuration: 'testArtifacts')
-    testImplementation project(path: ':iceberg-api', configuration: 'testArtifacts')
-    testImplementation project(path: ':iceberg-core', configuration: 'testArtifacts')
-    testImplementation project(path: ':iceberg-data', configuration: 'testArtifacts')
-  }
-
-  test {
-    // For vectorized reads
-    // Allow unsafe memory access to avoid the costly check arrow does to check if index is within bounds
-    systemProperty("arrow.enable_unsafe_memory_access", "true")
-    // Disable expensive null check for every get(index) call.
-    // Iceberg manages nullability checks itself instead of relying on arrow.
-    systemProperty("arrow.enable_null_check_for_get", "false")
-
-    // Vectorized reads need more memory
-    maxHeapSize '2500m'
-  }
-}
-
 // add enabled Spark version modules to the build
 def sparkVersions = (System.getProperty("sparkVersions") != null ? System.getProperty("sparkVersions") : System.getProperty("defaultSparkVersions")).split(",")
 
@@ -92,4 +27,3 @@ if (jdkVersion == '8' && sparkVersions.contains("2.4")) {
 if (sparkVersions.contains("3.0")) {
   apply from: file("$projectDir/v3.0/build.gradle")
 }
-
diff --git a/spark/v2.4/build.gradle b/spark/v2.4/build.gradle
@@ -43,21 +43,34 @@ project(':iceberg-spark:iceberg-spark2') {
     implementation project(':iceberg-parquet')
     implementation project(':iceberg-arrow')
     implementation project(':iceberg-hive-metastore')
-    implementation project(':iceberg-spark')
     implementation "com.github.ben-manes.caffeine:caffeine"
 
+    compileOnly "com.google.errorprone:error_prone_annotations"
     compileOnly "org.apache.avro:avro"
     compileOnly("org.apache.spark:spark-hive_2.11") {
       exclude group: 'org.apache.avro', module: 'avro'
     }
 
-    testImplementation project(path: ':iceberg-spark', configuration: 'testArtifacts')
+    implementation("org.apache.orc:orc-core::nohive") {
+      exclude group: 'org.apache.hadoop'
+      exclude group: 'commons-lang'
+      // These artifacts are shaded and included in the orc-core fat jar
+      exclude group: 'com.google.protobuf', module: 'protobuf-java'
+      exclude group: 'org.apache.hive', module: 'hive-storage-api'
+    }
+
+    implementation("org.apache.arrow:arrow-vector") {
+      exclude group: 'io.netty', module: 'netty-buffer'
+      exclude group: 'io.netty', module: 'netty-common'
+      exclude group: 'com.google.code.findbugs', module: 'jsr305'
+    }
 
     testImplementation("org.apache.hadoop:hadoop-minicluster") {
       exclude group: 'org.apache.avro', module: 'avro'
     }
     testImplementation project(path: ':iceberg-hive-metastore', configuration: 'testArtifacts')
     testImplementation project(path: ':iceberg-api', configuration: 'testArtifacts')
+    testImplementation project(path: ':iceberg-core', configuration: 'testArtifacts')
     testImplementation project(path: ':iceberg-data', configuration: 'testArtifacts')
   }
 

diff --git a/...che/iceberg/spark/SparkBenchmarkUtil.java → ...che/iceberg/spark/SparkBenchmarkUtil.java b/...che/iceberg/spark/SparkBenchmarkUtil.java → ...che/iceberg/spark/SparkBenchmarkUtil.java
diff --git a/...SparkParquetReadersFlatDataBenchmark.java → ...SparkParquetReadersFlatDataBenchmark.java b/...SparkParquetReadersFlatDataBenchmark.java → ...SparkParquetReadersFlatDataBenchmark.java
diff --git a/...arkParquetReadersNestedDataBenchmark.java → ...arkParquetReadersNestedDataBenchmark.java b/...arkParquetReadersNestedDataBenchmark.java → ...arkParquetReadersNestedDataBenchmark.java
diff --git a/...SparkParquetWritersFlatDataBenchmark.java → ...SparkParquetWritersFlatDataBenchmark.java b/...SparkParquetWritersFlatDataBenchmark.java → ...SparkParquetWritersFlatDataBenchmark.java
diff --git a/...arkParquetWritersNestedDataBenchmark.java → ...arkParquetWritersNestedDataBenchmark.java b/...arkParquetWritersNestedDataBenchmark.java → ...arkParquetWritersNestedDataBenchmark.java
diff --git a/...g/apache/iceberg/spark/source/Action.java → ...g/apache/iceberg/spark/source/Action.java b/...g/apache/iceberg/spark/source/Action.java → ...g/apache/iceberg/spark/source/Action.java
diff --git a/.../spark/source/IcebergSourceBenchmark.java → .../spark/source/IcebergSourceBenchmark.java b/.../spark/source/IcebergSourceBenchmark.java → .../spark/source/IcebergSourceBenchmark.java
diff --git a/...ource/IcebergSourceFlatDataBenchmark.java → ...ource/IcebergSourceFlatDataBenchmark.java b/...ource/IcebergSourceFlatDataBenchmark.java → ...ource/IcebergSourceFlatDataBenchmark.java
diff --git a/...rce/IcebergSourceNestedDataBenchmark.java → ...rce/IcebergSourceNestedDataBenchmark.java b/...rce/IcebergSourceNestedDataBenchmark.java → ...rce/IcebergSourceNestedDataBenchmark.java
diff --git a/...IcebergSourceNestedListDataBenchmark.java → ...IcebergSourceNestedListDataBenchmark.java b/...IcebergSourceNestedListDataBenchmark.java → ...IcebergSourceNestedListDataBenchmark.java
diff --git a/...ceberg/spark/source/WritersBenchmark.java → ...ceberg/spark/source/WritersBenchmark.java b/...ceberg/spark/source/WritersBenchmark.java → ...ceberg/spark/source/WritersBenchmark.java
diff --git a/...ark/source/avro/AvroWritersBenchmark.java → ...ark/source/avro/AvroWritersBenchmark.java b/...ark/source/avro/AvroWritersBenchmark.java → ...ark/source/avro/AvroWritersBenchmark.java
diff --git a/...ebergSourceFlatAvroDataReadBenchmark.java → ...ebergSourceFlatAvroDataReadBenchmark.java b/...ebergSourceFlatAvroDataReadBenchmark.java → ...ebergSourceFlatAvroDataReadBenchmark.java
diff --git a/...ergSourceNestedAvroDataReadBenchmark.java → ...ergSourceNestedAvroDataReadBenchmark.java b/...ergSourceNestedAvroDataReadBenchmark.java → ...ergSourceNestedAvroDataReadBenchmark.java
diff --git a/...rc/IcebergSourceFlatORCDataBenchmark.java → ...rc/IcebergSourceFlatORCDataBenchmark.java b/...rc/IcebergSourceFlatORCDataBenchmark.java → ...rc/IcebergSourceFlatORCDataBenchmark.java
diff --git a/...cebergSourceFlatORCDataReadBenchmark.java → ...cebergSourceFlatORCDataReadBenchmark.java b/...cebergSourceFlatORCDataReadBenchmark.java → ...cebergSourceFlatORCDataReadBenchmark.java
diff --git a/...ourceNestedListORCDataWriteBenchmark.java → ...ourceNestedListORCDataWriteBenchmark.java b/...ourceNestedListORCDataWriteBenchmark.java → ...ourceNestedListORCDataWriteBenchmark.java
diff --git a/...bergSourceNestedORCDataReadBenchmark.java → ...bergSourceNestedORCDataReadBenchmark.java b/...bergSourceNestedORCDataReadBenchmark.java → ...bergSourceNestedORCDataReadBenchmark.java
diff --git a/...SourceFlatParquetDataFilterBenchmark.java → ...SourceFlatParquetDataFilterBenchmark.java b/...SourceFlatParquetDataFilterBenchmark.java → ...SourceFlatParquetDataFilterBenchmark.java
diff --git a/...rgSourceFlatParquetDataReadBenchmark.java → ...rgSourceFlatParquetDataReadBenchmark.java b/...rgSourceFlatParquetDataReadBenchmark.java → ...rgSourceFlatParquetDataReadBenchmark.java
diff --git a/...gSourceFlatParquetDataWriteBenchmark.java → ...gSourceFlatParquetDataWriteBenchmark.java b/...gSourceFlatParquetDataWriteBenchmark.java → ...gSourceFlatParquetDataWriteBenchmark.java
diff --git a/...eNestedListParquetDataWriteBenchmark.java → ...eNestedListParquetDataWriteBenchmark.java b/...eNestedListParquetDataWriteBenchmark.java → ...eNestedListParquetDataWriteBenchmark.java
diff --git a/...urceNestedParquetDataFilterBenchmark.java → ...urceNestedParquetDataFilterBenchmark.java b/...urceNestedParquetDataFilterBenchmark.java → ...urceNestedParquetDataFilterBenchmark.java
diff --git a/...SourceNestedParquetDataReadBenchmark.java → ...SourceNestedParquetDataReadBenchmark.java b/...SourceNestedParquetDataReadBenchmark.java → ...SourceNestedParquetDataReadBenchmark.java
diff --git a/...ourceNestedParquetDataWriteBenchmark.java → ...ourceNestedParquetDataWriteBenchmark.java b/...ourceNestedParquetDataWriteBenchmark.java → ...ourceNestedParquetDataWriteBenchmark.java
diff --git a/...urce/parquet/ParquetWritersBenchmark.java → ...urce/parquet/ParquetWritersBenchmark.java b/...urce/parquet/ParquetWritersBenchmark.java → ...urce/parquet/ParquetWritersBenchmark.java
diff --git a/...onaryEncodedFlatParquetDataBenchmark.java → ...onaryEncodedFlatParquetDataBenchmark.java b/...onaryEncodedFlatParquetDataBenchmark.java → ...onaryEncodedFlatParquetDataBenchmark.java
diff --git a/...ctorizedReadFlatParquetDataBenchmark.java → ...ctorizedReadFlatParquetDataBenchmark.java b/...ctorizedReadFlatParquetDataBenchmark.java → ...ctorizedReadFlatParquetDataBenchmark.java
diff --git a/...a/org/apache/iceberg/actions/Actions.java → ...a/org/apache/iceberg/actions/Actions.java b/...a/org/apache/iceberg/actions/Actions.java → ...a/org/apache/iceberg/actions/Actions.java
diff --git a/.../apache/iceberg/actions/CreateAction.java → .../apache/iceberg/actions/CreateAction.java b/.../apache/iceberg/actions/CreateAction.java → .../apache/iceberg/actions/CreateAction.java
diff --git a/...ceberg/actions/ExpireSnapshotsAction.java → ...ceberg/actions/ExpireSnapshotsAction.java b/...ceberg/actions/ExpireSnapshotsAction.java → ...ceberg/actions/ExpireSnapshotsAction.java
diff --git a/.../actions/ExpireSnapshotsActionResult.java → .../actions/ExpireSnapshotsActionResult.java b/.../actions/ExpireSnapshotsActionResult.java → .../actions/ExpireSnapshotsActionResult.java
diff --git a/...che/iceberg/actions/ManifestFileBean.java → ...che/iceberg/actions/ManifestFileBean.java b/...che/iceberg/actions/ManifestFileBean.java → ...che/iceberg/actions/ManifestFileBean.java
diff --git a/...berg/actions/RemoveOrphanFilesAction.java → ...berg/actions/RemoveOrphanFilesAction.java b/...berg/actions/RemoveOrphanFilesAction.java → ...berg/actions/RemoveOrphanFilesAction.java
diff --git a/...eberg/actions/RewriteDataFilesAction.java → ...eberg/actions/RewriteDataFilesAction.java b/...eberg/actions/RewriteDataFilesAction.java → ...eberg/actions/RewriteDataFilesAction.java
diff --git a/...eberg/actions/RewriteManifestsAction.java → ...eberg/actions/RewriteManifestsAction.java b/...eberg/actions/RewriteManifestsAction.java → ...eberg/actions/RewriteManifestsAction.java
diff --git a/...actions/RewriteManifestsActionResult.java → ...actions/RewriteManifestsActionResult.java b/...actions/RewriteManifestsActionResult.java → ...actions/RewriteManifestsActionResult.java
diff --git a/...pache/iceberg/actions/SnapshotAction.java → ...pache/iceberg/actions/SnapshotAction.java b/...pache/iceberg/actions/SnapshotAction.java → ...pache/iceberg/actions/SnapshotAction.java
diff --git a/...rg/apache/iceberg/spark/IcebergSpark.java → ...rg/apache/iceberg/spark/IcebergSpark.java b/...rg/apache/iceberg/spark/IcebergSpark.java → ...rg/apache/iceberg/spark/IcebergSpark.java
diff --git a/...rg/apache/iceberg/spark/JobGroupInfo.java → ...rg/apache/iceberg/spark/JobGroupInfo.java b/...rg/apache/iceberg/spark/JobGroupInfo.java → ...rg/apache/iceberg/spark/JobGroupInfo.java
diff --git a/...g/apache/iceberg/spark/JobGroupUtils.java → ...g/apache/iceberg/spark/JobGroupUtils.java b/...g/apache/iceberg/spark/JobGroupUtils.java → ...g/apache/iceberg/spark/JobGroupUtils.java
diff --git a/...erg/spark/PruneColumnsWithReordering.java → ...erg/spark/PruneColumnsWithReordering.java b/...erg/spark/PruneColumnsWithReordering.java → ...erg/spark/PruneColumnsWithReordering.java
diff --git a/.../spark/PruneColumnsWithoutReordering.java → .../spark/PruneColumnsWithoutReordering.java b/.../spark/PruneColumnsWithoutReordering.java → .../spark/PruneColumnsWithoutReordering.java
diff --git a/...apache/iceberg/spark/SparkConfParser.java → ...apache/iceberg/spark/SparkConfParser.java b/...apache/iceberg/spark/SparkConfParser.java → ...apache/iceberg/spark/SparkConfParser.java
diff --git a/...g/apache/iceberg/spark/SparkDataFile.java → ...g/apache/iceberg/spark/SparkDataFile.java b/...g/apache/iceberg/spark/SparkDataFile.java → ...g/apache/iceberg/spark/SparkDataFile.java
diff --git a/...che/iceberg/spark/SparkExceptionUtil.java → ...che/iceberg/spark/SparkExceptionUtil.java b/...che/iceberg/spark/SparkExceptionUtil.java → ...che/iceberg/spark/SparkExceptionUtil.java
diff --git a/...ceberg/spark/SparkFixupTimestampType.java → ...ceberg/spark/SparkFixupTimestampType.java b/...ceberg/spark/SparkFixupTimestampType.java → ...ceberg/spark/SparkFixupTimestampType.java
diff --git a/...apache/iceberg/spark/SparkFixupTypes.java → ...apache/iceberg/spark/SparkFixupTypes.java b/...apache/iceberg/spark/SparkFixupTypes.java → ...apache/iceberg/spark/SparkFixupTypes.java
diff --git a/...g/apache/iceberg/spark/SparkReadConf.java → ...g/apache/iceberg/spark/SparkReadConf.java b/...g/apache/iceberg/spark/SparkReadConf.java → ...g/apache/iceberg/spark/SparkReadConf.java
diff --git a/...pache/iceberg/spark/SparkReadOptions.java → ...pache/iceberg/spark/SparkReadOptions.java b/...pache/iceberg/spark/SparkReadOptions.java → ...pache/iceberg/spark/SparkReadOptions.java
diff --git a/...che/iceberg/spark/SparkSQLProperties.java → ...che/iceberg/spark/SparkSQLProperties.java b/...che/iceberg/spark/SparkSQLProperties.java → ...che/iceberg/spark/SparkSQLProperties.java
diff --git a/...apache/iceberg/spark/SparkSchemaUtil.java → ...apache/iceberg/spark/SparkSchemaUtil.java b/...apache/iceberg/spark/SparkSchemaUtil.java → ...apache/iceberg/spark/SparkSchemaUtil.java
diff --git a/...apache/iceberg/spark/SparkStructLike.java → ...apache/iceberg/spark/SparkStructLike.java b/...apache/iceberg/spark/SparkStructLike.java → ...apache/iceberg/spark/SparkStructLike.java
diff --git a/.../apache/iceberg/spark/SparkTableUtil.java → .../apache/iceberg/spark/SparkTableUtil.java b/.../apache/iceberg/spark/SparkTableUtil.java → .../apache/iceberg/spark/SparkTableUtil.java
diff --git a/...apache/iceberg/spark/SparkTypeToType.java → ...apache/iceberg/spark/SparkTypeToType.java b/...apache/iceberg/spark/SparkTypeToType.java → ...apache/iceberg/spark/SparkTypeToType.java
diff --git a/...pache/iceberg/spark/SparkTypeVisitor.java → ...pache/iceberg/spark/SparkTypeVisitor.java b/...pache/iceberg/spark/SparkTypeVisitor.java → ...pache/iceberg/spark/SparkTypeVisitor.java
diff --git a/...a/org/apache/iceberg/spark/SparkUtil.java → ...a/org/apache/iceberg/spark/SparkUtil.java b/...a/org/apache/iceberg/spark/SparkUtil.java → ...a/org/apache/iceberg/spark/SparkUtil.java
diff --git a/...he/iceberg/spark/SparkValueConverter.java → ...he/iceberg/spark/SparkValueConverter.java b/...he/iceberg/spark/SparkValueConverter.java → ...he/iceberg/spark/SparkValueConverter.java
diff --git a/.../apache/iceberg/spark/SparkWriteConf.java → .../apache/iceberg/spark/SparkWriteConf.java b/.../apache/iceberg/spark/SparkWriteConf.java → .../apache/iceberg/spark/SparkWriteConf.java
diff --git a/...ache/iceberg/spark/SparkWriteOptions.java → ...ache/iceberg/spark/SparkWriteOptions.java b/...ache/iceberg/spark/SparkWriteOptions.java → ...ache/iceberg/spark/SparkWriteOptions.java
diff --git a/...apache/iceberg/spark/TypeToSparkType.java → ...apache/iceberg/spark/TypeToSparkType.java b/...apache/iceberg/spark/TypeToSparkType.java → ...apache/iceberg/spark/TypeToSparkType.java
diff --git a/...ons/BaseDeleteOrphanFilesSparkAction.java → ...ons/BaseDeleteOrphanFilesSparkAction.java b/...ons/BaseDeleteOrphanFilesSparkAction.java → ...ons/BaseDeleteOrphanFilesSparkAction.java
diff --git a/.../BaseDeleteReachableFilesSparkAction.java → .../BaseDeleteReachableFilesSparkAction.java b/.../BaseDeleteReachableFilesSparkAction.java → .../BaseDeleteReachableFilesSparkAction.java
diff --git a/...tions/BaseExpireSnapshotsSparkAction.java → ...tions/BaseExpireSnapshotsSparkAction.java b/...tions/BaseExpireSnapshotsSparkAction.java → ...tions/BaseExpireSnapshotsSparkAction.java
diff --git a/...ions/BaseRewriteDataFilesSparkAction.java → ...ions/BaseRewriteDataFilesSparkAction.java b/...ions/BaseRewriteDataFilesSparkAction.java → ...ions/BaseRewriteDataFilesSparkAction.java
diff --git a/...ions/BaseRewriteManifestsSparkAction.java → ...ions/BaseRewriteManifestsSparkAction.java b/...ions/BaseRewriteManifestsSparkAction.java → ...ions/BaseRewriteManifestsSparkAction.java
diff --git a/...ctions/BaseSnapshotUpdateSparkAction.java → ...ctions/BaseSnapshotUpdateSparkAction.java b/...ctions/BaseSnapshotUpdateSparkAction.java → ...ctions/BaseSnapshotUpdateSparkAction.java
diff --git a/...ceberg/spark/actions/BaseSparkAction.java → ...ceberg/spark/actions/BaseSparkAction.java b/...ceberg/spark/actions/BaseSparkAction.java → ...ceberg/spark/actions/BaseSparkAction.java
diff --git a/...eberg/spark/actions/BaseSparkActions.java → ...eberg/spark/actions/BaseSparkActions.java b/...eberg/spark/actions/BaseSparkActions.java → ...eberg/spark/actions/BaseSparkActions.java
diff --git a/...park/data/AvroWithSparkSchemaVisitor.java → ...park/data/AvroWithSparkSchemaVisitor.java b/...park/data/AvroWithSparkSchemaVisitor.java → ...park/data/AvroWithSparkSchemaVisitor.java
diff --git a/...k/data/ParquetWithSparkSchemaVisitor.java → ...k/data/ParquetWithSparkSchemaVisitor.java b/...k/data/ParquetWithSparkSchemaVisitor.java → ...k/data/ParquetWithSparkSchemaVisitor.java
diff --git a/...e/iceberg/spark/data/SparkAvroReader.java → ...e/iceberg/spark/data/SparkAvroReader.java b/...e/iceberg/spark/data/SparkAvroReader.java → ...e/iceberg/spark/data/SparkAvroReader.java
diff --git a/...e/iceberg/spark/data/SparkAvroWriter.java → ...e/iceberg/spark/data/SparkAvroWriter.java b/...e/iceberg/spark/data/SparkAvroWriter.java → ...e/iceberg/spark/data/SparkAvroWriter.java
diff --git a/...he/iceberg/spark/data/SparkOrcReader.java → ...he/iceberg/spark/data/SparkOrcReader.java b/...he/iceberg/spark/data/SparkOrcReader.java → ...he/iceberg/spark/data/SparkOrcReader.java
diff --git a/...berg/spark/data/SparkOrcValueReaders.java → ...berg/spark/data/SparkOrcValueReaders.java b/...berg/spark/data/SparkOrcValueReaders.java → ...berg/spark/data/SparkOrcValueReaders.java
diff --git a/...berg/spark/data/SparkOrcValueWriters.java → ...berg/spark/data/SparkOrcValueWriters.java b/...berg/spark/data/SparkOrcValueWriters.java → ...berg/spark/data/SparkOrcValueWriters.java
diff --git a/...he/iceberg/spark/data/SparkOrcWriter.java → ...he/iceberg/spark/data/SparkOrcWriter.java b/...he/iceberg/spark/data/SparkOrcWriter.java → ...he/iceberg/spark/data/SparkOrcWriter.java
diff --git a/...eberg/spark/data/SparkParquetReaders.java → ...eberg/spark/data/SparkParquetReaders.java b/...eberg/spark/data/SparkParquetReaders.java → ...eberg/spark/data/SparkParquetReaders.java
diff --git a/...eberg/spark/data/SparkParquetWriters.java → ...eberg/spark/data/SparkParquetWriters.java b/...eberg/spark/data/SparkParquetWriters.java → ...eberg/spark/data/SparkParquetWriters.java
diff --git a/...iceberg/spark/data/SparkValueReaders.java → ...iceberg/spark/data/SparkValueReaders.java b/...iceberg/spark/data/SparkValueReaders.java → ...iceberg/spark/data/SparkValueReaders.java
diff --git a/...iceberg/spark/data/SparkValueWriters.java → ...iceberg/spark/data/SparkValueWriters.java b/...iceberg/spark/data/SparkValueWriters.java → ...iceberg/spark/data/SparkValueWriters.java
diff --git a/...ectorized/ArrowVectorAccessorFactory.java → ...ectorized/ArrowVectorAccessorFactory.java b/...ectorized/ArrowVectorAccessorFactory.java → ...ectorized/ArrowVectorAccessorFactory.java
diff --git a/...data/vectorized/ArrowVectorAccessors.java → ...data/vectorized/ArrowVectorAccessors.java b/...data/vectorized/ArrowVectorAccessors.java → ...data/vectorized/ArrowVectorAccessors.java
diff --git a/.../data/vectorized/ColumnarBatchReader.java → .../data/vectorized/ColumnarBatchReader.java b/.../data/vectorized/ColumnarBatchReader.java → .../data/vectorized/ColumnarBatchReader.java
diff --git a/...data/vectorized/ConstantColumnVector.java → ...data/vectorized/ConstantColumnVector.java b/...data/vectorized/ConstantColumnVector.java → ...data/vectorized/ConstantColumnVector.java
diff --git a/.../vectorized/IcebergArrowColumnVector.java → .../vectorized/IcebergArrowColumnVector.java b/.../vectorized/IcebergArrowColumnVector.java → .../vectorized/IcebergArrowColumnVector.java
diff --git a/...a/vectorized/RowPositionColumnVector.java → ...a/vectorized/RowPositionColumnVector.java b/...a/vectorized/RowPositionColumnVector.java → ...a/vectorized/RowPositionColumnVector.java
diff --git a/...vectorized/VectorizedSparkOrcReaders.java → ...vectorized/VectorizedSparkOrcReaders.java b/...vectorized/VectorizedSparkOrcReaders.java → ...vectorized/VectorizedSparkOrcReaders.java
diff --git a/...orized/VectorizedSparkParquetReaders.java → ...orized/VectorizedSparkParquetReaders.java b/...orized/VectorizedSparkParquetReaders.java → ...orized/VectorizedSparkParquetReaders.java
diff --git a/.../iceberg/spark/source/BaseDataReader.java → .../iceberg/spark/source/BaseDataReader.java b/.../iceberg/spark/source/BaseDataReader.java → .../iceberg/spark/source/BaseDataReader.java
diff --git a/...iceberg/spark/source/BatchDataReader.java → ...iceberg/spark/source/BatchDataReader.java b/...iceberg/spark/source/BatchDataReader.java → ...iceberg/spark/source/BatchDataReader.java
diff --git a/...spark/source/EqualityDeleteRowReader.java → ...spark/source/EqualityDeleteRowReader.java b/...spark/source/EqualityDeleteRowReader.java → ...spark/source/EqualityDeleteRowReader.java
diff --git a/...berg/spark/source/InternalRowWrapper.java → ...berg/spark/source/InternalRowWrapper.java b/...berg/spark/source/InternalRowWrapper.java → ...berg/spark/source/InternalRowWrapper.java
diff --git a/...e/iceberg/spark/source/RowDataReader.java → ...e/iceberg/spark/source/RowDataReader.java b/...e/iceberg/spark/source/RowDataReader.java → ...e/iceberg/spark/source/RowDataReader.java
diff --git a/...iceberg/spark/source/RowDataRewriter.java → ...iceberg/spark/source/RowDataRewriter.java b/...iceberg/spark/source/RowDataRewriter.java → ...iceberg/spark/source/RowDataRewriter.java
diff --git a/...rg/spark/source/SparkAppenderFactory.java → ...rg/spark/source/SparkAppenderFactory.java b/...rg/spark/source/SparkAppenderFactory.java → ...rg/spark/source/SparkAppenderFactory.java
diff --git a/.../spark/source/SparkFileWriterFactory.java → .../spark/source/SparkFileWriterFactory.java b/.../spark/source/SparkFileWriterFactory.java → .../spark/source/SparkFileWriterFactory.java
diff --git a/.../source/SparkPartitionedFanoutWriter.java → .../source/SparkPartitionedFanoutWriter.java b/.../source/SparkPartitionedFanoutWriter.java → .../source/SparkPartitionedFanoutWriter.java
diff --git a/.../spark/source/SparkPartitionedWriter.java → .../spark/source/SparkPartitionedWriter.java b/.../spark/source/SparkPartitionedWriter.java → .../spark/source/SparkPartitionedWriter.java
diff --git a/...eberg/spark/source/StructInternalRow.java → ...eberg/spark/source/StructInternalRow.java b/...eberg/spark/source/StructInternalRow.java → ...eberg/spark/source/StructInternalRow.java
diff --git a/.../java/org/apache/iceberg/KryoHelpers.java → .../java/org/apache/iceberg/KryoHelpers.java b/.../java/org/apache/iceberg/KryoHelpers.java → .../java/org/apache/iceberg/KryoHelpers.java
diff --git a/...a/org/apache/iceberg/TaskCheckHelper.java → ...a/org/apache/iceberg/TaskCheckHelper.java b/...a/org/apache/iceberg/TaskCheckHelper.java → ...a/org/apache/iceberg/TaskCheckHelper.java
diff --git a/...he/iceberg/TestDataFileSerialization.java → ...he/iceberg/TestDataFileSerialization.java b/...he/iceberg/TestDataFileSerialization.java → ...he/iceberg/TestDataFileSerialization.java
diff --git a/...ache/iceberg/TestFileIOSerialization.java → ...ache/iceberg/TestFileIOSerialization.java b/...ache/iceberg/TestFileIOSerialization.java → ...ache/iceberg/TestFileIOSerialization.java
diff --git a/...ceberg/TestManifestFileSerialization.java → ...ceberg/TestManifestFileSerialization.java b/...ceberg/TestManifestFileSerialization.java → ...ceberg/TestManifestFileSerialization.java
diff --git a/...he/iceberg/TestScanTaskSerialization.java → ...he/iceberg/TestScanTaskSerialization.java b/...he/iceberg/TestScanTaskSerialization.java → ...he/iceberg/TestScanTaskSerialization.java
diff --git a/...pache/iceberg/TestTableSerialization.java → ...pache/iceberg/TestTableSerialization.java b/...pache/iceberg/TestTableSerialization.java → ...pache/iceberg/TestTableSerialization.java
diff --git a/...tions/TestDeleteReachableFilesAction.java → ...tions/TestDeleteReachableFilesAction.java b/...tions/TestDeleteReachableFilesAction.java → ...tions/TestDeleteReachableFilesAction.java
diff --git a/...rg/actions/TestExpireSnapshotsAction.java → ...rg/actions/TestExpireSnapshotsAction.java b/...rg/actions/TestExpireSnapshotsAction.java → ...rg/actions/TestExpireSnapshotsAction.java
diff --git a/.../actions/TestRemoveOrphanFilesAction.java → .../actions/TestRemoveOrphanFilesAction.java b/.../actions/TestRemoveOrphanFilesAction.java → .../actions/TestRemoveOrphanFilesAction.java
diff --git a/...g/actions/TestRewriteDataFilesAction.java → ...g/actions/TestRewriteDataFilesAction.java b/...g/actions/TestRewriteDataFilesAction.java → ...g/actions/TestRewriteDataFilesAction.java
diff --git a/...g/actions/TestRewriteManifestsAction.java → ...g/actions/TestRewriteManifestsAction.java b/...g/actions/TestRewriteManifestsAction.java → ...g/actions/TestRewriteManifestsAction.java
diff --git a/...g/apache/iceberg/spark/SparkTestBase.java → ...g/apache/iceberg/spark/SparkTestBase.java b/...g/apache/iceberg/spark/SparkTestBase.java → ...g/apache/iceberg/spark/SparkTestBase.java
diff --git a/...he/iceberg/spark/TestSparkSchemaUtil.java → ...he/iceberg/spark/TestSparkSchemaUtil.java b/...he/iceberg/spark/TestSparkSchemaUtil.java → ...he/iceberg/spark/TestSparkSchemaUtil.java
diff --git a/...ctions/TestNewRewriteDataFilesAction.java → ...ctions/TestNewRewriteDataFilesAction.java b/...ctions/TestNewRewriteDataFilesAction.java → ...ctions/TestNewRewriteDataFilesAction.java
diff --git a/...ache/iceberg/spark/data/AvroDataTest.java → ...ache/iceberg/spark/data/AvroDataTest.java b/...ache/iceberg/spark/data/AvroDataTest.java → ...ache/iceberg/spark/data/AvroDataTest.java
diff --git a/...e/iceberg/spark/data/GenericsHelpers.java → ...e/iceberg/spark/data/GenericsHelpers.java b/...e/iceberg/spark/data/GenericsHelpers.java → ...e/iceberg/spark/data/GenericsHelpers.java
diff --git a/...apache/iceberg/spark/data/RandomData.java → ...apache/iceberg/spark/data/RandomData.java b/...apache/iceberg/spark/data/RandomData.java → ...apache/iceberg/spark/data/RandomData.java
diff --git a/...pache/iceberg/spark/data/TestHelpers.java → ...pache/iceberg/spark/data/TestHelpers.java b/...pache/iceberg/spark/data/TestHelpers.java → ...pache/iceberg/spark/data/TestHelpers.java
diff --git a/...ache/iceberg/spark/data/TestOrcWrite.java → ...ache/iceberg/spark/data/TestOrcWrite.java b/...ache/iceberg/spark/data/TestOrcWrite.java → ...ache/iceberg/spark/data/TestOrcWrite.java
diff --git a/...erg/spark/data/TestParquetAvroReader.java → ...erg/spark/data/TestParquetAvroReader.java b/...erg/spark/data/TestParquetAvroReader.java → ...erg/spark/data/TestParquetAvroReader.java
diff --git a/...erg/spark/data/TestParquetAvroWriter.java → ...erg/spark/data/TestParquetAvroWriter.java b/...erg/spark/data/TestParquetAvroWriter.java → ...erg/spark/data/TestParquetAvroWriter.java
diff --git a/...ceberg/spark/data/TestSparkAvroEnums.java → ...ceberg/spark/data/TestSparkAvroEnums.java b/...ceberg/spark/data/TestSparkAvroEnums.java → ...ceberg/spark/data/TestSparkAvroEnums.java
diff --git a/...eberg/spark/data/TestSparkAvroReader.java → ...eberg/spark/data/TestSparkAvroReader.java b/...eberg/spark/data/TestSparkAvroReader.java → ...eberg/spark/data/TestSparkAvroReader.java
diff --git a/...ceberg/spark/data/TestSparkDateTimes.java → ...ceberg/spark/data/TestSparkDateTimes.java b/...ceberg/spark/data/TestSparkDateTimes.java → ...ceberg/spark/data/TestSparkDateTimes.java
diff --git a/...data/TestSparkOrcReadMetadataColumns.java → ...data/TestSparkOrcReadMetadataColumns.java b/...data/TestSparkOrcReadMetadataColumns.java → ...data/TestSparkOrcReadMetadataColumns.java
diff --git a/...ceberg/spark/data/TestSparkOrcReader.java → ...ceberg/spark/data/TestSparkOrcReader.java b/...ceberg/spark/data/TestSparkOrcReader.java → ...ceberg/spark/data/TestSparkOrcReader.java
diff --git a/.../TestSparkParquetReadMetadataColumns.java → .../TestSparkParquetReadMetadataColumns.java b/.../TestSparkParquetReadMetadataColumns.java → .../TestSparkParquetReadMetadataColumns.java
diff --git a/...rg/spark/data/TestSparkParquetReader.java → ...rg/spark/data/TestSparkParquetReader.java b/...rg/spark/data/TestSparkParquetReader.java → ...rg/spark/data/TestSparkParquetReader.java
diff --git a/...rg/spark/data/TestSparkParquetWriter.java → ...rg/spark/data/TestSparkParquetWriter.java b/...rg/spark/data/TestSparkParquetWriter.java → ...rg/spark/data/TestSparkParquetWriter.java
diff --git a/.../data/TestSparkRecordOrcReaderWriter.java → .../data/TestSparkRecordOrcReaderWriter.java b/.../data/TestSparkRecordOrcReaderWriter.java → .../data/TestSparkRecordOrcReaderWriter.java
diff --git a/...quetDictionaryEncodedVectorizedReads.java → ...quetDictionaryEncodedVectorizedReads.java b/...quetDictionaryEncodedVectorizedReads.java → ...quetDictionaryEncodedVectorizedReads.java
diff --git a/...llbackToPlainEncodingVectorizedReads.java → ...llbackToPlainEncodingVectorizedReads.java b/...llbackToPlainEncodingVectorizedReads.java → ...llbackToPlainEncodingVectorizedReads.java
diff --git a/...ectorized/TestParquetVectorizedReads.java → ...ectorized/TestParquetVectorizedReads.java b/...ectorized/TestParquetVectorizedReads.java → ...ectorized/TestParquetVectorizedReads.java
diff --git a/...ache/iceberg/spark/source/LogMessage.java → ...ache/iceberg/spark/source/LogMessage.java b/...ache/iceberg/spark/source/LogMessage.java → ...ache/iceberg/spark/source/LogMessage.java
diff --git a/...he/iceberg/spark/source/SimpleRecord.java → ...he/iceberg/spark/source/SimpleRecord.java b/...he/iceberg/spark/source/SimpleRecord.java → ...he/iceberg/spark/source/SimpleRecord.java
diff --git a/...he/iceberg/spark/source/TestAvroScan.java → ...he/iceberg/spark/source/TestAvroScan.java b/...he/iceberg/spark/source/TestAvroScan.java → ...he/iceberg/spark/source/TestAvroScan.java
diff --git a/...erg/spark/source/TestDataFrameWrites.java → ...erg/spark/source/TestDataFrameWrites.java b/...erg/spark/source/TestDataFrameWrites.java → ...erg/spark/source/TestDataFrameWrites.java
diff --git a/...g/spark/source/TestDataSourceOptions.java → ...g/spark/source/TestDataSourceOptions.java b/...g/spark/source/TestDataSourceOptions.java → ...g/spark/source/TestDataSourceOptions.java
diff --git a/...park/source/TestForwardCompatibility.java → ...park/source/TestForwardCompatibility.java b/...park/source/TestForwardCompatibility.java → ...park/source/TestForwardCompatibility.java
diff --git a/...source/TestIcebergSourceHadoopTables.java → ...source/TestIcebergSourceHadoopTables.java b/...source/TestIcebergSourceHadoopTables.java → ...source/TestIcebergSourceHadoopTables.java
diff --git a/...k/source/TestIcebergSourceHiveTables.java → ...k/source/TestIcebergSourceHiveTables.java b/...k/source/TestIcebergSourceHiveTables.java → ...k/source/TestIcebergSourceHiveTables.java
diff --git a/...k/source/TestIcebergSourceTablesBase.java → ...k/source/TestIcebergSourceTablesBase.java b/...k/source/TestIcebergSourceTablesBase.java → ...k/source/TestIcebergSourceTablesBase.java
diff --git a/...ceberg/spark/source/TestIcebergSpark.java → ...ceberg/spark/source/TestIcebergSpark.java b/...ceberg/spark/source/TestIcebergSpark.java → ...ceberg/spark/source/TestIcebergSpark.java
diff --git a/...ark/source/TestIdentityPartitionData.java → ...ark/source/TestIdentityPartitionData.java b/...ark/source/TestIdentityPartitionData.java → ...ark/source/TestIdentityPartitionData.java
diff --git a/.../spark/source/TestInternalRowWrapper.java → .../spark/source/TestInternalRowWrapper.java b/.../spark/source/TestInternalRowWrapper.java → .../spark/source/TestInternalRowWrapper.java
diff --git a/...iceberg/spark/source/TestParquetScan.java → ...iceberg/spark/source/TestParquetScan.java b/...iceberg/spark/source/TestParquetScan.java → ...iceberg/spark/source/TestParquetScan.java
diff --git a/...rg/spark/source/TestPartitionPruning.java → ...rg/spark/source/TestPartitionPruning.java b/...rg/spark/source/TestPartitionPruning.java → ...rg/spark/source/TestPartitionPruning.java
diff --git a/...erg/spark/source/TestPartitionValues.java → ...erg/spark/source/TestPartitionValues.java b/...erg/spark/source/TestPartitionValues.java → ...erg/spark/source/TestPartitionValues.java
diff --git a/...berg/spark/source/TestReadProjection.java → ...berg/spark/source/TestReadProjection.java b/...berg/spark/source/TestReadProjection.java → ...berg/spark/source/TestReadProjection.java
diff --git a/...g/spark/source/TestSnapshotSelection.java → ...g/spark/source/TestSnapshotSelection.java b/...g/spark/source/TestSnapshotSelection.java → ...g/spark/source/TestSnapshotSelection.java
diff --git a/...park/source/TestSparkAppenderFactory.java → ...park/source/TestSparkAppenderFactory.java b/...park/source/TestSparkAppenderFactory.java → ...park/source/TestSparkAppenderFactory.java
diff --git a/...spark/source/TestSparkBaseDataReader.java → ...spark/source/TestSparkBaseDataReader.java b/...spark/source/TestSparkBaseDataReader.java → ...spark/source/TestSparkBaseDataReader.java
diff --git a/...eberg/spark/source/TestSparkDataFile.java → ...eberg/spark/source/TestSparkDataFile.java b/...eberg/spark/source/TestSparkDataFile.java → ...eberg/spark/source/TestSparkDataFile.java
diff --git a/...berg/spark/source/TestSparkDataWrite.java → ...berg/spark/source/TestSparkDataWrite.java b/...berg/spark/source/TestSparkDataWrite.java → ...berg/spark/source/TestSparkDataWrite.java
diff --git a/...rk/source/TestSparkFileWriterFactory.java → ...rk/source/TestSparkFileWriterFactory.java b/...rk/source/TestSparkFileWriterFactory.java → ...rk/source/TestSparkFileWriterFactory.java
diff --git a/...spark/source/TestSparkMergingMetrics.java → ...spark/source/TestSparkMergingMetrics.java b/...spark/source/TestSparkMergingMetrics.java → ...spark/source/TestSparkMergingMetrics.java
diff --git a/.../source/TestSparkPartitioningWriters.java → .../source/TestSparkPartitioningWriters.java b/.../source/TestSparkPartitioningWriters.java → .../source/TestSparkPartitioningWriters.java
diff --git a/...source/TestSparkPositionDeltaWriters.java → ...source/TestSparkPositionDeltaWriters.java b/...source/TestSparkPositionDeltaWriters.java → ...source/TestSparkPositionDeltaWriters.java
diff --git a/...spark/source/TestSparkReadProjection.java → ...spark/source/TestSparkReadProjection.java b/...spark/source/TestSparkReadProjection.java → ...spark/source/TestSparkReadProjection.java
diff --git a/.../spark/source/TestSparkReaderDeletes.java → .../spark/source/TestSparkReaderDeletes.java b/.../spark/source/TestSparkReaderDeletes.java → .../spark/source/TestSparkReaderDeletes.java
diff --git a/...k/source/TestSparkRollingFileWriters.java → ...k/source/TestSparkRollingFileWriters.java b/...k/source/TestSparkRollingFileWriters.java → ...k/source/TestSparkRollingFileWriters.java
diff --git a/...iceberg/spark/source/TestSparkSchema.java → ...iceberg/spark/source/TestSparkSchema.java b/...iceberg/spark/source/TestSparkSchema.java → ...iceberg/spark/source/TestSparkSchema.java
diff --git a/.../spark/source/TestSparkWriterMetrics.java → .../spark/source/TestSparkWriterMetrics.java b/.../spark/source/TestSparkWriterMetrics.java → .../spark/source/TestSparkWriterMetrics.java
diff --git a/...spark/source/TestStructuredStreaming.java → ...spark/source/TestStructuredStreaming.java b/...spark/source/TestStructuredStreaming.java → ...spark/source/TestStructuredStreaming.java
diff --git a/...ache/iceberg/spark/source/TestTables.java → ...ache/iceberg/spark/source/TestTables.java b/...ache/iceberg/spark/source/TestTables.java → ...ache/iceberg/spark/source/TestTables.java
diff --git a/...park/source/TestTimestampWithoutZone.java → ...park/source/TestTimestampWithoutZone.java b/...park/source/TestTimestampWithoutZone.java → ...park/source/TestTimestampWithoutZone.java
diff --git a/.../spark/source/TestWriteMetricsConfig.java → .../spark/source/TestWriteMetricsConfig.java b/.../spark/source/TestWriteMetricsConfig.java → .../spark/source/TestWriteMetricsConfig.java
diff --git a/...eberg/spark/source/ThreeColumnRecord.java → ...eberg/spark/source/ThreeColumnRecord.java b/...eberg/spark/source/ThreeColumnRecord.java → ...eberg/spark/source/ThreeColumnRecord.java
diff --git a/spark/v3.0/build.gradle b/spark/v3.0/build.gradle
@@ -37,27 +37,34 @@ project(':iceberg-spark:iceberg-spark3') {
     implementation project(':iceberg-parquet')
     implementation project(':iceberg-arrow')
     implementation project(':iceberg-hive-metastore')
-    implementation project(':iceberg-spark')
 
+    compileOnly "com.google.errorprone:error_prone_annotations"
     compileOnly "org.apache.avro:avro"
     compileOnly("org.apache.spark:spark-hive_2.12:${project.ext.Spark30Version}") {
       exclude group: 'org.apache.avro', module: 'avro'
       exclude group: 'org.apache.arrow'
     }
 
+    implementation("org.apache.orc:orc-core::nohive") {
+      exclude group: 'org.apache.hadoop'
+      exclude group: 'commons-lang'
+      // These artifacts are shaded and included in the orc-core fat jar
+      exclude group: 'com.google.protobuf', module: 'protobuf-java'
+      exclude group: 'org.apache.hive', module: 'hive-storage-api'
+    }
+
     implementation("org.apache.arrow:arrow-vector") {
       exclude group: 'io.netty', module: 'netty-buffer'
       exclude group: 'io.netty', module: 'netty-common'
       exclude group: 'com.google.code.findbugs', module: 'jsr305'
     }
 
-    testImplementation project(path: ':iceberg-spark', configuration: 'testArtifacts')
-
     testImplementation("org.apache.hadoop:hadoop-minicluster") {
       exclude group: 'org.apache.avro', module: 'avro'
     }
     testImplementation project(path: ':iceberg-hive-metastore', configuration: 'testArtifacts')
     testImplementation project(path: ':iceberg-api', configuration: 'testArtifacts')
+    testImplementation project(path: ':iceberg-core', configuration: 'testArtifacts')
     testImplementation project(path: ':iceberg-data', configuration: 'testArtifacts')
     testImplementation "org.xerial:sqlite-jdbc"
   }

diff --git a/spark/v3.0/spark3/src/jmh/java/org/apache/iceberg/spark/SparkBenchmarkUtil.java b/spark/v3.0/spark3/src/jmh/java/org/apache/iceberg/spark/SparkBenchmarkUtil.java
@@ -0,0 +1,58 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.spark;
+
+import java.util.List;
+import org.apache.iceberg.Schema;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.iceberg.types.Types;
+import org.apache.spark.sql.catalyst.expressions.Attribute;
+import org.apache.spark.sql.catalyst.expressions.AttributeReference;
+import org.apache.spark.sql.catalyst.expressions.Expression;
+import org.apache.spark.sql.catalyst.expressions.UnsafeProjection;
+import org.apache.spark.sql.types.StructType;
+import scala.collection.JavaConverters;
+
+public class SparkBenchmarkUtil {
+
+  private SparkBenchmarkUtil() {
+  }
+
+  public static UnsafeProjection projection(Schema expectedSchema, Schema actualSchema) {
+    StructType struct = SparkSchemaUtil.convert(actualSchema);
+
+    List<AttributeReference> refs = JavaConverters.seqAsJavaListConverter(struct.toAttributes()).asJava();
+    List<Attribute> attrs = Lists.newArrayListWithExpectedSize(struct.fields().length);
+    List<Expression> exprs = Lists.newArrayListWithExpectedSize(struct.fields().length);
+
+    for (AttributeReference ref : refs) {
+      attrs.add(ref.toAttribute());
+    }
+
+    for (Types.NestedField field : expectedSchema.columns()) {
+      int indexInIterSchema = struct.fieldIndex(field.name());
+      exprs.add(refs.get(indexInIterSchema));
+    }
+
+    return UnsafeProjection.create(
+        JavaConverters.asScalaBufferConverter(exprs).asScala().toSeq(),
+        JavaConverters.asScalaBufferConverter(attrs).asScala().toSeq());
+  }
+}