Für die zweite Nebenversion der 2.x-Reihe haben sich die Spark-Entwickler vor allem mit der Perfektionierung des Structured Streaming und dem Ausbau der Machine-Learning-Library MLlib beschäftigt.
Das mittlerweile unter dem Dach der Apache Foundation entwickelte Framework zum Cluster Computing Spark liegt nach der Abarbeitung von über 1100 Tickets nun in Version 2.2 vor. Als eine der größten Neuerungen lässt sich wohl die Produktionsreife des in Spark 2.0 eingeführten Structured Streaming ausmachen. Die Programmierschnittstelle war 2016 als Hilfe zum Erstellen von nahtlosen Streaming-Anwendungen vorgestellt worden, um unter anderem besser mit Aufgaben wie Storage, Auslieferung und Batch Jobs umgehen zu können. Nach dem Update ist sie unter anderem besser in der Lage, mit der Kafka-Plattform für verteiltes Streaming umzugehen, verfügt über neue Stateful APIs und einen Run-Once-Trigger, der durch einmalige Abfragen die Kosten des Clusterbetriebs senken soll.
Darüber hinaus haben sich die Spark-Entwickler für das aktuelle Release der Machine-Learning-Bibliothek MLlib sowie dem R-Frontend SparkR gewidmet. Dadurch sind nun unter anderem ein linearer SVM-Classifier (für Scala, Java, Python und R; siehe Support Vector Machine), ein Implementierung des Chi-Quadrat-Tests und eine Option zum Berechnen von Korrelationen (jeweils mit Scala, Java oder Python zu nutzen) vorhanden. R- und Python-Nutzer können nun außerdem wie ihre Scala- und Java-nutzenden Kollegen auf Gradient Boosted Trees und Bisecting K-Means zurückgreifen.
Eine vollständige Liste aller in Version 2.2 eingegangenen Änderungen ist in den Release Notes zu finden. (jul)
weitere empfehlenswerte Artikel News im Internet