• A+

Scala实现Spark计算文件中行数的例子

package we.com.service

import org.apache.spark.sql.SparkSession

/***
* @author yangxin_Ryan
* Spark计算文件中行数的例子
*/
object SimpleApp {
def main(args: Array[String]) {
val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
// 生成Spark运行任务环境
val spark = SparkSession.builder.appName("Simple Application").getOrCreate()
// 持久化到内存
val logData = spark.read.textFile(logFile).cache()
// 统计其中数据行中包含a字符的行数
val numAs = logData.filter(line => line.contains("a")).count()
// 统计其中数据行中包含b字符的行数
val numBs = logData.filter(line => line.contains("b")).count()
println(s"Lines with a: $numAs, Lines with b: $numBs")
// 停止Spark任务
spark.stop()
}
}
 

 

所属分类:后台

 0 条回应

我有话说:
    ×