samza是新兴的流式处理框架,相比storm,samza是基于hadoop,使用自家的kafka实现分布式消息系统,任务提交到yarn集群进行调度,粒度更细。下面就结合一个案例来说下samza程序的开发。
当刚开始使用samza,想要了解如何开发samza程序时,可参考官网的hello-samza例子。麻雀虽小五脏俱全,搞懂这个例子后就可以自己开始用samza处理实时数据了。
6.执行job
SUCC
到这就完成了hello-samza的编译、运行
samza的每个job对应一个properties文件,文件定义了输入、输出、输入格式、输出格式、窗口时间、本地存储等等信息,所以这个properties文件是关键,也是重点要介绍的一块。
未完待续....困了。