• news_banner

Servis

Mechanismus čištění dat Spark Streaming
(I) DStream a RDD
Jak víme, výpočty ve Spark Streamingu jsou založeny na Spark Core a jádrem Spark Core je RDD, takže Spark Streaming musí být také spojen s RDD. Spark Streaming však neumožňuje uživatelům používat RDD přímo, ale abstrahuje sadu konceptů DStream. DStream a RDD jsou inkluzivní vztahy, které lze chápat jako dekorační vzor v Javě, tj. DStream je vylepšení RDD, ale chování je podobné RDD.
DStream i RDD mají několik podmínek.
(1) mají podobné transformační akce, jako například map, reduceByKey atd., ale také některé unikátní, jako například Window, mapWithStated atd.
(2) všechny mají akce typu Action, jako například foreachRDD, count atd.
Programovací model je konzistentní.
(B) Úvod do DStreamu ve streamování Spark
DStream obsahuje několik tříd.
(1) Třídy zdrojů dat, jako například InputDStream, specifické pro DirectKafkaInputStream atd.
(2) Konverzní třídy, typicky MappedDStream, ShuffledDStream
(3) výstupní třídy, typicky například ForEachDStream
Z výše uvedeného vyplývá, že data od začátku (vstup) do konce (výstup) zpracovává systém DStream, což znamená, že uživatel obvykle nemůže přímo generovat a manipulovat s RDD, což znamená, že DStream má možnost a povinnost nést odpovědnost za životní cyklus RDD.
Jinými slovy, Spark Streaming máautomatické čištěnífunkce.
(iii) Proces generování RDD ve Spark Streamingu
Životní tok RDD ve Spark Streamingu je zhruba následující.
(1) V InputDStream jsou přijatá data transformována do RDD, například DirectKafkaInputStream, který generuje KafkaRDD.
(2) pak prostřednictvím MappedDStream a dalších datových konverzí se tento čas přímo nazývá RDD odpovídající metodě mapování pro konverzi
(3) V operaci výstupní třídy, pouze když je RDD vystaveno, můžete uživateli umožnit provedení odpovídajícího ukládání, dalších výpočtů a dalších operací.