sparkSQL1.1入门之二：sparkSQL运行架构

时间：2022-03-14 00:46

在介绍sparkSQL之前，我们首先来看看，传统的关系型数据库是怎么运行的。当我们提交了一个很简单的查询：

SELECT  a1,a2,a3  FROM  tableA  Where  condition

可以看得出来，该语句是由Projection（a1，a2，a3）、Data Source（tableA）、Filter（condition）组成，分别对应sql查询过程中的Result、Data Source、Operation，也就是说SQL语句按Result-->Data Source-->Operation的次序来描述的。那么，SQL语句在实际的运行过程中是怎么处理的呢？一般的数据库系统先将读入的SQL语句（Query）先进行解析（Parse），分辨出SQL语句中哪些词是关键词（如SELECT、FROM、WHERE），哪些是表达式、哪些是Projection、哪些是Data Source等等。这一步就可以判断SQL语句是否规范，不规范就报错，规范就继续下一步过程绑定（Bind），这个过程将SQL语句和数据库的数据字典（列、表、视图等等）进行绑定，如果相关的Projection、Data Source等等都是存在的话，就表示这个SQL语句是可以执行的；而在执行前，一般的数据库会提供几个执行计划，这些计划一般都有运行统计数据，数据库会在这些计划中选择一个最优计划（Optimize），最终执行该计划（Execute），并返回结果。当然在实际的执行过程中，是按Operation-->Data Source-->Result的次序来进行的，和SQL语句的次序刚好相反；在执行过程有时候甚至不需要读取物理表就可以返回结果，比如重新运行刚运行过的SQL语句，可能直接从数据库的缓冲池中获取返回结果。以上过程看上去非常简单，但实际上会包含很多复杂的操作细节在里面。而这些操作细节都和Tree有关，在数据库解析（Parse）SQL语句的时候，会将SQL语句转换成一个树型结构来进行处理，如下面一个查询，会形成一个含有多个节点（TreeNode）的Tree，然后在后续的处理过程中对该Tree进行一系列的操作。 gxlsystem.com,布布扣

下图给出了对Tree的一些可能的操作细节，对于Tree的处理过程中所涉及更多的细节，可以查看相关的数据库论文。 gxlsystem.com,布布扣

OK，上面简单介绍了关系型数据库的运行过程，那么，sparkSQL是不是也采用类似的方式处理呢？答案是肯定的。下面我们先来看看sparkSQL中的两个重要概念Tree和Rule、然后再介绍一下sparkSQL的两个分支sqlContext和hiveContext、最后再综合看看sparkSQL的优化器Catalyst。
1：Tree和Rule sparkSQL对SQL语句的处理和关系型数据库对SQL语句的处理采用了类似的方法，首先会将SQL语句进行解析（Parse），然后形成一个Tree，在后续的如绑定、优化等处理过程都是对Tree的操作，而操作的方法是采用Rule，通过模式匹配，对不同类型的节点采用不同的操作。 A：Tree

/**源自sql/core/src/main/scala/org/apache/spark/sql/SQLContext.scala  */
  def sql(sqlText: String): SchemaRDD = {
    if (dialect == "sql") {
      new SchemaRDD(this, parseSql(sqlText))   //parseSql(sqlText)对sql语句进行语法解析
    } else {
      sys.error(s"Unsupported SQL dialect: $dialect")
    }
  }

/**源自sql/core/src/main/scala/org/apache/spark/sql/SQLContext.scala  */
  protected[sql] val parser = new catalyst.SqlParser
  protected[sql] def parseSql(sql: String): LogicalPlan = parser(sql)

/**源自sql/core/src/main/scala/org/apache/spark/sql/SchemaRDD.scala  */
class SchemaRDD(
    @transient val sqlContext: SQLContext,
    @transient val baseLogicalPlan: LogicalPlan)
  extends RDD[Row](sqlContext.sparkContext, Nil) with SchemaRDDLike

/**源自sql/core/src/main/scala/org/apache/spark/sql/SchemaRDDLike.scala  */
private[sql] trait SchemaRDDLike {
  @transient val sqlContext: SQLContext
  @transient val baseLogicalPlan: LogicalPlan
  private[sql] def baseSchemaRDD: SchemaRDD

  lazy val queryExecution = sqlContext.executePlan(baseLogicalPlan)

/**源自sql/core/src/main/scala/org/apache/spark/sql/SQLContext.scala  */
protected[sql] def executePlan(plan: LogicalPlan): this.QueryExecution =
    new this.QueryExecution { val logical = plan }

/**源自sql/core/src/main/scala/org/apache/spark/sql/SQLContext.scala  */
protected abstract class QueryExecution {
    def logical: LogicalPlan
   
    //对Unresolved LogicalPlan进行analyzer，生成resolved LogicalPlan
    lazy val analyzed = ExtractPythonUdfs(analyzer(logical))    
    //对resolved LogicalPlan进行optimizer，生成optimized LogicalPlan
    lazy val optimizedPlan = optimizer(analyzed)  
    // 将optimized LogicalPlan转换成PhysicalPlan
    lazy val sparkPlan = {
      SparkPlan.currentContext.set(self)
      planner(optimizedPlan).next()
    }
    // PhysicalPlan执行前的准备工作，生成可执行的物理计划
    lazy val executedPlan: SparkPlan = prepareForExecution(sparkPlan)

    //执行可执行物理计划
    lazy val toRdd: RDD[Row] = executedPlan.execute()

    ......
  }

/**源自sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveContext.scala  */
override def sql(sqlText: String): SchemaRDD = {
    // 使用spark.sql.dialect定义采用的语法解析器
    if (dialect == "sql") {
      super.sql(sqlText)    //如果使用sql解析器，则使用sqlContext的sql方法
    } else if (dialect == "hiveql") {     //如果使用和hiveql解析器，则使用HiveQl.parseSql
      new SchemaRDD(this, HiveQl.parseSql(sqlText))
    }  else {
      sys.error(s"Unsupported SQL dialect: $dialect.  Try 'sql' or 'hiveql'")
    }
  }

/**源自src/main/scala/org/apache/spark/sql/hive/HiveQl.scala  */
  /** Returns a LogicalPlan for a given HiveQL string. */
  def parseSql(sql: String): LogicalPlan = {
    try {
      if (条件)   {
      //非hive命令的处理，如set、cache table、add jar等直接转化成command类型的LogicalPlan
      .....  
      } else {
        val tree = getAst(sql)
        if (nativeCommands contains tree.getText) {
          NativeCommand(sql)
        } else {
          nodeToPlan(tree) match {
            case NativePlaceholder => NativeCommand(sql)
            case other => other
          }
        }
      }
    } catch {
      //异常处理
      ......
    }
  }

/**源自sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveContext.scala  */ 
override protected[sql] def executePlan(plan: LogicalPlan): this.QueryExecution =
    new this.QueryExecution { val logical = plan }

/**源自sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveContext.scala  */
 protected[sql] abstract class QueryExecution extends super.QueryExecution {
    // TODO: Create mixin for the analyzer instead of overriding things here.
    override lazy val optimizedPlan =
      optimizer(ExtractPythonUdfs(catalog.PreInsertionCasts(catalog.CreateTables(analyzed))))

    override lazy val toRdd: RDD[Row] = executedPlan.execute().map(_.copy())
    ......
  }

/**源自sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveContext.scala  */
/* A catalyst metadata catalog that points to the Hive Metastore. */
  @transient
  override protected[sql] lazy val catalog = new HiveMetastoreCatalog(this) with OverrideCatalog {
    override def lookupRelation(
      databaseName: Option[String],
      tableName: String,
      alias: Option[String] = None): LogicalPlan = {

      LowerCaseSchema(super.lookupRelation(databaseName, tableName, alias))
    }
  }

/**源自sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveContext.scala  */
  /* An analyzer that uses the Hive metastore. */
  @transient
  override protected[sql] lazy val analyzer =
    new Analyzer(catalog, functionRegistry, caseSensitive = false)

/**源自sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveContext.scala  */
  @transient
  override protected[sql] val planner = hivePlanner

sqlParse，完成sql语句的语法解析功能，目前只提供了一个简单的sql解析器；
Analyzer，主要完成绑定工作，将不同来源的UnresolvedLogicalPlan 和数据元数据（如hive metastore、Schema catalog）进行绑定，生成resolvedLogicalPlan；
optimizer对resolvedLogicalPlan进行优化，生成optimizedLogicalPlan；
Planner将LogicalPlan转换成PhysicalPlan；
CostModel，主要根据过去的性能统计数据，选择最佳的物理执行计划

先将sql语句通过解析生成Tree，然后在不同阶段使用不同的Rule应用到Tree上，通过转换完成各个组件的功能。
Analyzer使用Analysis Rules，配合数据元数据（如hive metastore、Schema catalog），完善UnresolvedLogicalPlan的属性而转换成resolvedLogicalPlan；
optimizer使用Optimization Rules，对resolvedLogicalPlan进行合并、列裁剪、过滤器下推等优化作业而转换成optimizedLogicalPlan；
Planner使用Planning Strategies，对optimizedLogicalPlan