Learning Spark

Lightning-Fast Big Data Analysis
Author: Holden Karau,Andy Konwinski,Patrick Wendell,Matei Zaharia
Publisher: "O'Reilly Media, Inc."
ISBN: 1449359051
Category: Computers
Page: 276
View: 9430

Continue Reading →

Data in all domains is getting bigger. How can you work with it efficiently? Recently updated for Spark 1.3, this book introduces Apache Spark, the open source cluster computing system that makes data analytics fast to write and fast to run. With Spark, you can tackle big datasets quickly through simple APIs in Python, Java, and Scala. This edition includes new information on Spark SQL, Spark Streaming, setup, and Maven coordinates. Written by the developers of Spark, this book will have data scientists and engineers up and running in no time. You’ll learn how to express parallel jobs with just a few lines of code, and cover applications from simple batch jobs to stream processing and machine learning. Quickly dive into Spark capabilities such as distributed datasets, in-memory caching, and the interactive shell Leverage Spark’s powerful built-in libraries, including Spark SQL, Spark Streaming, and MLlib Use one programming paradigm instead of mixing and matching tools like Hive, Hadoop, Mahout, and Storm Learn how to deploy interactive, batch, and streaming applications Connect to data sources including HDFS, Hive, JSON, and S3 Master advanced topics like data partitioning and shared variables

Python von Kopf bis Fuß

Aktuell zu Python 3
Author: Paul Barry
Publisher: O'Reilly
ISBN: 3960101368
Category: Computers
Page: 620
View: 3717

Continue Reading →

Was lernen Sie in diesem Buch? Haben Sie sich schon einmal gewünscht, Sie könnten mit nur einem Buch Python richtig lernen? Mit Python von Kopf bis Fuß schaffen Sie es! Durch die ausgefeilte Von-Kopf-bis-Fuß-Didaktik, die viel mehr als die bloße Syntax und typische How-to-Erklärungen bietet, wird es sogar zum Vergnügen. Python-Grundlagen wie Datenstrukturen und Funktionen verstehen Sie hier schnell, und dann geht es auch schon weiter: Sie programmieren Ihre eigene Web-App, erkunden Datenbank-Management, Ausnahmebehandlung und die Verarbeitung von Daten. Da Python häufig im Data-Science-Umfeld eingesetzt wird, haben in der 2. Auflage diejenigen Techniken ein stärkeres Gewicht bekommen, die in der Welt der Big Data genutzt werden. Wieso sieht dieses Buch so anders aus? In diesem Buch sind die neuesten Erkenntnisse der Kognitionswissenschaft und der Lerntheorie eingeflossen, um Ihnen das Lernen so einfach wie möglich zu machen. Statt einschläfernder Bleiwüsten verwendet dieses Buch eine Vielzahl von Abbildungen und Textstilen, die Ihnen das Wissen direkt ins Hirn spielen – und zwar so, dass es sitzt.

Big Data in der Praxis

Beispiellösungen mit Hadoop und NoSQL. Daten speichern, aufbereiten, visualisieren
Author: Jonas Freiknecht
Publisher: Carl Hanser Verlag GmbH Co KG
ISBN: 3446441778
Category: Computers
Page: 448
View: 9162

Continue Reading →

BIG DATA IN DER PRAXIS // - Für Analysten, BI-Verantwortliche, Data-Scientists, Consultants - Auf der DVD finden Sie: 18 fertige Projekte, die im Buch Schritt für Schritt entwickelt werden; Videotutorials u.a. zur Installation von Hadoop, Hive, HBase (Gesamtdauer: 80 Min.); Testdatensätze für die Wissensdatenbank Dieses Buch bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und bekommen aufgezeigt, wie Sie bestehende Systeme vorausschauend auf die mit dem Big Data-Trend einhergehenden Herausforderungen vorbereiten. Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu behandeln. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung. Gemeinsam mit dem Autor werden Sie ganz konkret Schritt für Schritt viele kleinere Projekte aufbauen bis hin zu einer fertigen und funktionstüchtigen Implementierung. Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen. AUS DEM INHALT // Einführung rund um Big Data // Hadoop installieren, konfigurieren & bedienen // HDFS, Map-Reduce & YARN: Daten speichern und verarbeiten // Hadoop-Ecosystem: Überblick über dessen Komponenten // Einführung in NoSQL // HBase installieren, einrichten & auf Daten zugreifen // Data-Warehousing mit Apache Hive // HiveQL als Abfragesprache, Hive Security, Hive & JDBC // Datenimport aus relationalen Datenbanken mit Sqoop // Big Data-Visualisierung: Diagrammarten, Tipps & Trends // Visualisierungs-Frameworks im Vergleich // D3.js: Entwicklung einiger Beispieldiagramme // Entwicklung einer abschließenden Big Data-Analyse-Lösung // Troubleshooting für die Arbeit mit Hadoop, Hive & HBase

Computational Intelligence in Data Mining

Proceedings of the International Conference on CIDM, 10-11 December 2016
Author: Himansu Sekhar Behera,Durga Prasad Mohapatra
Publisher: Springer
ISBN: 9811038740
Category: Computers
Page: 847
View: 9298

Continue Reading →

The book presents high quality papers presented at the International Conference on Computational Intelligence in Data Mining (ICCIDM 2016) organized by School of Computer Engineering, Kalinga Institute of Industrial Technology (KIIT), Bhubaneswar, Odisha, India during December 10 – 11, 2016. The book disseminates the knowledge about innovative, active research directions in the field of data mining, machine and computational intelligence, along with current issues and applications of related topics. The volume aims to explicate and address the difficulties and challenges that of seamless integration of the two core disciplines of computer science.

Big Data

Die Revolution, die unser Leben verändern wird
Author: Viktor Mayer-Schönberger,Viktor; Cukier Mayer-Schönberger
Publisher: Redline Wirtschaft
ISBN: 3864144590
Category: Political Science
Page: 288
View: 4617

Continue Reading →

Ob Kaufverhalten, Grippewellen oder welche Farbe am ehesten verrät, ob ein Gebrauchtwagen in einem guten Zustand ist – noch nie gab es eine solche Menge an Daten und noch nie bot sich die Chance, durch Recherche und Kombination in der Daten¬flut blitzschnell Zusammenhänge zu entschlüsseln. Big Data bedeutet nichts weniger als eine Revolution für Gesellschaft, Wirtschaft und Politik. Es wird die Weise, wie wir über Gesundheit, Erziehung, Innovation und vieles mehr denken, völlig umkrempeln. Und Vorhersagen möglich machen, die bisher undenkbar waren. Die Experten Viktor Mayer-Schönberger und Kenneth Cukier beschreiben in ihrem Buch, was Big Data ist, welche Möglichkeiten sich eröffnen, vor welchen Umwälzungen wir alle stehen – und verschweigen auch die dunkle Seite wie das Ausspähen von persönlichen Daten und den drohenden Verlust der Privatsphäre nicht.

big data @ work

Chancen erkennen, Risiken verstehen
Author: Thomas H. Davenport
Publisher: Vahlen
ISBN: 3800648156
Category: Fiction
Page: 214
View: 9506

Continue Reading →

Big Data in Unternehmen. Dieses neue Buch gibt Managern ein umfassendes Verständnis dafür, welche Bedeutung Big Data für Unternehmen zukünftig haben wird und wie Big Data tatsächlich genutzt werden kann. Am Ende jedes Kapitels aktivieren Fragen, selbst nach Lösungen für eine erfolgreiche Implementierung und Nutzung von Big Data im eigenen Unternehmen zu suchen. Die Schwerpunkte - Warum Big Data für Sie und Ihr Unternehmen wichtig ist - Wie Big Data Ihre Arbeit, Ihr Unternehmen und Ihre Branche verändern - - wird - Entwicklung einer Big Data-Strategie - Der menschliche Aspekt von Big Data - Technologien für Big Data - Wie Sie erfolgreich mit Big Data arbeiten - Was Sie von Start-ups und Online-Unternehmen lernen können - Was Sie von großen Unternehmen lernen können: Big Data und Analytics 3.0 Der Experte Thomas H. Davenport ist Professor für Informationstechnologie und -management am Babson College und Forschungswissenschaftler am MIT Center for Digital Business. Zudem ist er Mitbegründer und Forschungsdirektor am International Institute for Analytics und Senior Berater von Deloitte Analytics.

Data Science für Dummies


Author: Lillian Pierson
Publisher: John Wiley & Sons
ISBN: 352780675X
Category: Mathematics
Page: 382
View: 8324

Continue Reading →

Daten, Daten, Daten? Sie haben schon Kenntnisse in Excel und Statistik, wissen aber noch nicht, wie all die Datensätze helfen sollen, bessere Entscheidungen zu treffen? Von Lillian Pierson bekommen Sie das dafür notwendige Handwerkszeug: Bauen Sie Ihre Kenntnisse in Statistik, Programmierung und Visualisierung aus. Nutzen Sie Python, R, SQL, Excel und KNIME. Zahlreiche Beispiele veranschaulichen die vorgestellten Methoden und Techniken. So können Sie die Erkenntnisse dieses Buches auf Ihre Daten übertragen und aus deren Analyse unmittelbare Schlüsse und Konsequenzen ziehen.

Data Mining and Big Data

Second International Conference, DMBD 2017, Fukuoka, Japan, July 27 – August 1, 2017, Proceedings
Author: Ying Tan,Hideyuki Takagi,Yuhui Shi
Publisher: Springer
ISBN: 3319618458
Category: Computers
Page: 546
View: 1210

Continue Reading →

This book constitutes the refereed proceedings of the Second International Conference on Data Mining and Big Data, DMBD 2017, held in Fukuoka, Japan, in July/August 2017. The 53 papers presented in this volume were carefully reviewed and selected from 96 submissions. They were organized in topical sections named: association analysis; clustering; prediction; classification; schedule and sequence analysis; big data; data analysis; data mining; text mining; deep learning; high performance computing; knowledge base and its framework; and fuzzy control.

Mobile Big Data

A Roadmap from Models to Technologies
Author: Georgios Skourletopoulos,George Mastorakis,Constandinos X. Mavromoustakis,Ciprian Dobre,Evangelos Pallis
Publisher: Springer
ISBN: 3319679252
Category: Computers
Page: 347
View: 6180

Continue Reading →

This book reports on the latest advances in mobile technologies for collecting, storing and processing mobile big data in connection with wireless communications. It presents novel approaches and applications in which mobile big data is being applied from an engineering standpoint and addresses future theoretical and practical challenges related to the big data field from a mobility perspective. Further, it provides an overview of new methodologies designed to take mobile big data to the Cloud, enable the processing of real-time streaming events on-the-move and enhance the integration of resource availability through the ‘Anywhere, Anything, Anytime’ paradigm. By providing both academia and industry researchers and professionals with a timely snapshot of emerging mobile big data-centric systems and highlighting related pitfalls, as well as potential solutions, the book fills an important gap in the literature and fosters the further development in the area of mobile technologies for exploiting mobile big data.

Abfragen Von Microsoft SQL Server 2012 - Original Microsoft Training Fur Examen 70-461


Author: Itzik Ben-Gan,Dejan Sarka,Ron Talmage
Publisher: Microsoft Press Deutschland
ISBN: 9783866459618
Category: Electronic books
Page: 745
View: 6727

Continue Reading →

Erlernen Sie das Abfragen von Microsoft SQL Server 2012 und bereiten Sie sich gleichzeitig auf das Examen 70-461 vor. Das vorliegende Buch bietet Ihnen einen umfassenden Lehrbuchteil, mit dem Sie selbstandig lernen und anhand praktischer Ubungen die prufu

Programmieren mit Scala


Author: Dean Wampler,Alex Payne
Publisher: O'Reilly Germany
ISBN: 3897216485
Category: Computers
Page: 480
View: 8397

Continue Reading →

Sie ist elegant, schlank, modern und flexibel: Die Rede ist von Scala, der neuen Programmiersprache für die Java Virtual Machine (JVM). Sie vereint die Vorzüge funktionaler und objektorientierter Programmierung, ist typsicherer als Java, lässt sich nahtlos in die Java-Welt integrieren – und eine in Scala entwickelte Anwendung benötigt oft nur einen Bruchteil der Codezeilen ihres Java-Pendants. Kein Wunder, dass immer mehr Firmen, deren große, geschäftskritische Anwendungen auf Java basieren, auf Scala umsteigen, um ihre Produktivität und die Skalierbarkeit ihrer Software zu erhöhen. Das wollen Sie auch? Dann lassen Sie sich von den Scala-Profis Dean Wampler und Alex Payne zeigen, wie es geht. Ihre Werkzeugkiste: Schon bevor Sie loslegen, sind Sie weiter, als Sie denken: Sie können Ihre Java-Programme weiter verwenden, Java-Bibliotheken nutzen, Java von Scala aus aufrufen und Scala von Java aus. Auch Ihre bevorzugten Entwicklungswerkzeuge wie NetBeans, IntelliJ IDEA oder Eclipse stehen Ihnen weiter zur Verfügung, dazu Kommandozeilen-Tools, Plugins für Editoren, Werkzeuge von Drittanbietern – und natürlich Ihre Programmiererfahrung. In Programmieren mit Scala erfahren Sie, wie Sie sich all das zunutze machen. Das Hybridmodell: Die Paradigmen "funktional" und "objektorientiert" sind keine Gegensätze, sondern ergänzen sich unter dem Scala-Dach zu einem sehr produktiven Ganzen. Nutzen Sie die Vorteile funktionaler Programmierung, wann immer sich das anbietet – und seien Sie so frei, auf die guten alten Seiteneffekte zu bauen, wenn Sie das für nötig halten. Futter für die Profis: Skalierbare Nebenläufigkeit mit Aktoren, Aufzucht und Pflege von XML mit Scala, Domainspezifische Sprachen, Tipps zum richtigen Anwendungsdesign – das sind nur ein paar der fortgeschrittenen Themen, in die Sie mit den beiden Autoren eintauchen. Danach sind Sie auch Profi im Programmieren mit Scala.

Statistik-Workshop für Programmierer


Author: Allen B. Downey
Publisher: O'Reilly Germany
ISBN: 3868993436
Category: Computers
Page: 160
View: 3754

Continue Reading →

Wenn Sie programmieren können, beherrschen Sie bereits Techniken, um aus Daten Wissen zu extrahieren. Diese kompakte Einführung in die Statistik zeigt Ihnen, wie Sie rechnergestützt, anstatt auf mathematischem Weg Datenanalysen mit Python durchführen können. Praktischer Programmier-Workshop statt grauer Theorie: Das Buch führt Sie anhand eines durchgängigen Fallbeispiels durch eine vollständige Datenanalyse -- von der Datensammlung über die Berechnung statistischer Kennwerte und Identifikation von Mustern bis hin zum Testen statistischer Hypothesen. Gleichzeitig werden Sie mit statistischen Verteilungen, den Regeln der Wahrscheinlichkeitsrechnung, Visualisierungsmöglichkeiten und vielen anderen Arbeitstechniken und Konzepten vertraut gemacht. Statistik-Konzepte zum Ausprobieren: Entwickeln Sie über das Schreiben und Testen von Code ein Verständnis für die Grundlagen von Wahrscheinlichkeitsrechnung und Statistik: Überprüfen Sie das Verhalten statistischer Merkmale durch Zufallsexperimente, zum Beispiel indem Sie Stichproben aus unterschiedlichen Verteilungen ziehen. Nutzen Sie Simulationen, um Konzepte zu verstehen, die auf mathematischem Weg nur schwer zugänglich sind. Lernen Sie etwas über Themen, die in Einführungen üblicherweise nicht vermittelt werden, beispielsweise über die Bayessche Schätzung. Nutzen Sie Python zur Bereinigung und Aufbereitung von Rohdaten aus nahezu beliebigen Quellen. Beantworten Sie mit den Mitteln der Inferenzstatistik Fragestellungen zu realen Daten.

Spring im Einsatz


Author: Craig Walls
Publisher: Carl Hanser Verlag GmbH Co KG
ISBN: 3446429468
Category: Computers
Page: 428
View: 5031

Continue Reading →

SPRING IM EINSATZ // - Spring 3.0 auf den Punkt gebracht: Die zentralen Konzepte anschaulich und unterhaltsam erklärt. - Praxis-Know-how für den Projekteinsatz: Lernen Sie Spring mit Hilfe der zahlreichen Codebeispiele aktiv kennen. - Im Internet: Der vollständige Quellcode für die Applikationen dieses Buches Das Spring-Framework gehört zum obligatorischen Grundwissen eines Java-Entwicklers. Spring 3 führt leistungsfähige neue Features wie die Spring Expression Language (SpEL), neue Annotationen für IoC-Container und den lang ersehnten Support für REST ein. Es gibt keinen besseren Weg, um sich Spring anzueignen, als dieses Buch - egal ob Sie Spring gerade erst entdecken oder sich mit den neuen 3.0-Features vertraut machen wollen. Craig Walls setzt in dieser gründlich überarbeiteten 2. Auflage den anschaulichen und praxisorientierten Stil der Vorauflage fort. Er bringt als Autor sein Geschick für treffende und unterhaltsame Beispiele ein, die das Augenmerk direkt auf die Features und Techniken richten, die Sie wirklich brauchen. Diese Auflage hebt die wichtigsten Aspekte von Spring 3.0 hervor: REST, Remote-Services, Messaging, Security, MVC, Web Flow und vieles mehr. Das finden Sie in diesem Buch: - Die Arbeit mit Annotationen, um die Konfiguration zu reduzieren - Die Arbeit mit REST-konformen Ressourcen - Spring Expression Language (SpEL) - Security, Web Flow usw. AUS DEM INHALT: Spring ins kalte Wasser, Verschalten von Beans, Die XML-Konfiguration in Spring minimalisieren, Aspektorientierung, Zugriff auf die Datenbank, Transaktionen verwalten, Webapplikationen mit Spring MVC erstellen, Die Arbeit mit Spring Web Flow, Spring absichern, Die Arbeit mit Remote-Diensten, Spring und REST, Messaging in Spring, Verwalten von Spring-Beans mit JMX

Mehr Hacking mit Python

Eigene Tools entwickeln für Hacker und Pentester
Author: Justin Seitz
Publisher: dpunkt.verlag
ISBN: 3864917530
Category: Computers
Page: 182
View: 5773

Continue Reading →

Wenn es um die Entwicklung leistungsfähiger und effizienter Hacking-Tools geht, ist Python für die meisten Sicherheitsanalytiker die Sprache der Wahl. Doch wie genau funktioniert das? In dem neuesten Buch von Justin Seitz - dem Autor des Bestsellers »Hacking mit Python« - entdecken Sie Pythons dunkle Seite. Sie entwickeln Netzwerk-Sniffer, manipulieren Pakete, infizieren virtuelle Maschinen, schaffen unsichtbare Trojaner und vieles mehr. Sie lernen praktisch, wie man • einen »Command-and-Control«-Trojaner mittels GitHub schafft • Sandboxing erkennt und gängige Malware-Aufgaben wie Keylogging und Screenshotting automatisiert • Windows-Rechte mittels kreativer Prozesskontrolle ausweitet • offensive Speicherforensik-Tricks nutzt, um Passwort-Hashes abzugreifen und Shellcode in virtuelle Maschinen einzuspeisen • das beliebte Web-Hacking-Tool Burp erweitert • die Windows COM-Automatisierung nutzt, um einen Man-in-the-Middle-Angriff durchzuführen • möglichst unbemerkt Daten aus einem Netzwerk abgreift Eine Reihe von Insider-Techniken und kreativen Aufgaben zeigen Ihnen, wie Sie die Hacks erweitern und eigene Exploits entwickeln können.

Neuronale Netze selbst programmieren

Ein verständlicher Einstieg mit Python
Author: Tariq Rashid
Publisher: O'Reilly
ISBN: 3960101031
Category: Computers
Page: 232
View: 2896

Continue Reading →

Neuronale Netze sind Schlüsselelemente des Deep Learning und der Künstlichen Intelligenz, die heute zu Erstaunlichem in der Lage sind. Sie sind Grundlage vieler Anwendungen im Alltag wie beispielsweise Spracherkennung, Gesichtserkennung auf Fotos oder die Umwandlung von Sprache in Text. Dennoch verstehen nur wenige, wie neuronale Netze tatsächlich funktionieren. Dieses Buch nimmt Sie mit auf eine unterhaltsame Reise, die mit ganz einfachen Ideen beginnt und Ihnen Schritt für Schritt zeigt, wie neuronale Netze arbeiten: - Zunächst lernen Sie die mathematischen Konzepte kennen, die den neuronalen Netzen zugrunde liegen. Dafür brauchen Sie keine tieferen Mathematikkenntnisse, denn alle mathematischen Ideen werden behutsam und mit vielen Illustrationen und Beispielen erläutert. Eine Kurzeinführung in die Analysis unterstützt Sie dabei. - Dann geht es in die Praxis: Nach einer Einführung in die populäre und leicht zu lernende Programmiersprache Python bauen Sie allmählich Ihr eigenes neuronales Netz mit Python auf. Sie bringen ihm bei, handgeschriebene Zahlen zu erkennen, bis es eine Performance wie ein professionell entwickeltes Netz erreicht. - Im nächsten Schritt tunen Sie die Leistung Ihres neuronalen Netzes so weit, dass es eine Zahlenerkennung von 98 % erreicht – nur mit einfachen Ideen und simplem Code. Sie testen das Netz mit Ihrer eigenen Handschrift und werfen noch einen Blick in das mysteriöse Innere eines neuronalen Netzes. - Zum Schluss lassen Sie das neuronale Netz auf einem Raspberry Pi Zero laufen. Tariq Rashid erklärt diese schwierige Materie außergewöhnlich klar und verständlich, dadurch werden neuronale Netze für jeden Interessierten zugänglich und praktisch nachvollziehbar.

Data Science mit Python

Das Handbuch für den Einsatz von IPython, Jupyter, NumPy, Pandas, Matplotlib und Scikit-Learn
Author: Jake VanderPlas
Publisher: MITP-Verlags GmbH & Co. KG
ISBN: 3958456979
Category: Computers
Page: 552
View: 6922

Continue Reading →

Die wichtigsten Tools für die Datenanalyse und-bearbeitung im praktischen Einsatz Python effizient für datenintensive Berechnungen einsetzen mit IPython und Jupyter Laden, Speichern und Bearbeiten von Daten und numerischen Arrays mit NumPy und Pandas Visualisierung von Daten mit Matplotlib Python ist für viele die erste Wahl für Data Science, weil eine Vielzahl von Ressourcen und Bibliotheken zum Speichern, Bearbeiten und Auswerten von Daten verfügbar ist. In diesem Buch erläutert der Autor den Einsatz der wichtigsten Tools. Für Datenanalytiker und Wissenschaftler ist dieses umfassende Handbuch von unschätzbarem Wert für jede Art von Berechnung mit Python sowie bei der Erledigung alltäglicher Aufgaben. Dazu gehören das Bearbeiten, Umwandeln und Bereinigen von Daten, die Visualisierung verschiedener Datentypen und die Nutzung von Daten zum Erstellen von Statistiken oder Machine-Learning-Modellen. Dieses Handbuch erläutert die Verwendung der folgenden Tools: ● IPython und Jupyter für datenintensive Berechnungen ● NumPy und Pandas zum effizienten Speichern und Bearbeiten von Daten und Datenarrays in Python ● Matplotlib für vielfältige Möglichkeiten der Visualisierung von Daten ● Scikit-Learn zur effizienten und sauberen Implementierung der wichtigsten und am meisten verbreiteten Algorithmen des Machine Learnings Der Autor zeigt Ihnen, wie Sie die zum Betreiben von Data Science verfügbaren Pakete nutzen, um Daten effektiv zu speichern, zu handhaben und Einblick in diese Daten zu gewinnen. Grundlegende Kenntnisse in Python werden dabei vorausgesetzt. Leserstimme zum Buch: »Wenn Sie Data Science mit Python betreiben möchten, ist dieses Buch ein hervorragender Ausgangspunkt. Ich habe es sehr erfolgreich beim Unterrichten von Informatik- und Statistikstudenten eingesetzt. Jake geht weit über die Grundlagen der Open-Source-Tools hinaus und erläutert die grundlegenden Konzepte, Vorgehensweisen und Abstraktionen in klarer Sprache und mit verständlichen Erklärungen.« – Brian Granger, Physikprofessor, California Polytechnic State University, Mitbegründer des Jupyter-Projekts

R in a Nutshell


Author: Joseph Adler
Publisher: O'Reilly Germany
ISBN: 3897216507
Category: Computers
Page: 768
View: 9977

Continue Reading →

Wozu sollte man R lernen? Da gibt es viele Gründe: Weil man damit natürlich ganz andere Möglichkeiten hat als mit einer Tabellenkalkulation wie Excel, aber auch mehr Spielraum als mit gängiger Statistiksoftware wie SPSS und SAS. Anders als bei diesen Programmen hat man nämlich direkten Zugriff auf dieselbe, vollwertige Programmiersprache, mit der die fertigen Analyse- und Visualisierungsmethoden realisiert sind – so lassen sich nahtlos eigene Algorithmen integrieren und komplexe Arbeitsabläufe realisieren. Und nicht zuletzt, weil R offen gegenüber beliebigen Datenquellen ist, von der einfachen Textdatei über binäre Fremdformate bis hin zu den ganz großen relationalen Datenbanken. Zudem ist R Open Source und erobert momentan von der universitären Welt aus die professionelle Statistik. R kann viel. Und Sie können viel mit R machen – wenn Sie wissen, wie es geht. Willkommen in der R-Welt: Installieren Sie R und stöbern Sie in Ihrem gut bestückten Werkzeugkasten: Sie haben eine Konsole und eine grafische Benutzeroberfläche, unzählige vordefinierte Analyse- und Visualisierungsoperationen – und Pakete, Pakete, Pakete. Für quasi jeden statistischen Anwendungsbereich können Sie sich aus dem reichen Schatz der R-Community bedienen. Sprechen Sie R! Sie müssen Syntax und Grammatik von R nicht lernen – wie im Auslandsurlaub kommen Sie auch hier gut mit ein paar aufgeschnappten Brocken aus. Aber es lohnt sich: Wenn Sie wissen, was es mit R-Objekten auf sich hat, wie Sie eigene Funktionen schreiben und Ihre eigenen Pakete schnüren, sind Sie bei der Analyse Ihrer Daten noch flexibler und effektiver. Datenanalyse und Statistik in der Praxis: Anhand unzähliger Beispiele aus Medizin, Wirtschaft, Sport und Bioinformatik lernen Sie, wie Sie Daten aufbereiten, mithilfe der Grafikfunktionen des lattice-Pakets darstellen, statistische Tests durchführen und Modelle anpassen. Danach werden Ihnen Ihre Daten nichts mehr verheimlichen.

Apache Spark for Data Science Cookbook


Author: Padma Priya Chitturi
Publisher: Packt Publishing Ltd
ISBN: 1785288806
Category: Computers
Page: 392
View: 2982

Continue Reading →

Over insightful 90 recipes to get lightning-fast analytics with Apache Spark About This Book Use Apache Spark for data processing with these hands-on recipes Implement end-to-end, large-scale data analysis better than ever before Work with powerful libraries such as MLLib, SciPy, NumPy, and Pandas to gain insights from your data Who This Book Is For This book is for novice and intermediate level data science professionals and data analysts who want to solve data science problems with a distributed computing framework. Basic experience with data science implementation tasks is expected. Data science professionals looking to skill up and gain an edge in the field will find this book helpful. What You Will Learn Explore the topics of data mining, text mining, Natural Language Processing, information retrieval, and machine learning. Solve real-world analytical problems with large data sets. Address data science challenges with analytical tools on a distributed system like Spark (apt for iterative algorithms), which offers in-memory processing and more flexibility for data analysis at scale. Get hands-on experience with algorithms like Classification, regression, and recommendation on real datasets using Spark MLLib package. Learn about numerical and scientific computing using NumPy and SciPy on Spark. Use Predictive Model Markup Language (PMML) in Spark for statistical data mining models. In Detail Spark has emerged as the most promising big data analytics engine for data science professionals. The true power and value of Apache Spark lies in its ability to execute data science tasks with speed and accuracy. Spark's selling point is that it combines ETL, batch analytics, real-time stream analysis, machine learning, graph processing, and visualizations. It lets you tackle the complexities that come with raw unstructured data sets with ease. This guide will get you comfortable and confident performing data science tasks with Spark. You will learn about implementations including distributed deep learning, numerical computing, and scalable machine learning. You will be shown effective solutions to problematic concepts in data science using Spark's data science libraries such as MLLib, Pandas, NumPy, SciPy, and more. These simple and efficient recipes will show you how to implement algorithms and optimize your work. Style and approach This book contains a comprehensive range of recipes designed to help you learn the fundamentals and tackle the difficulties of data science. This book outlines practical steps to produce powerful insights into Big Data through a recipe-based approach.

Elasticsearch

Ein praktischer Einstieg
Author: Florian Hopf
Publisher: dpunkt.verlag
ISBN: 3864918278
Category: Computers
Page: 262
View: 1327

Continue Reading →

Elasticsearch ist ein auf Apache Lucene basierender Suchserver, der JSON-Dokumente speichern und durchsuchen kann. Durch den verteilten Aufbau ist die Ablage sehr großer Datenmengen möglich. Neben Volltextinhalten können auch strukturierte Daten verwaltet und mit Aggregationen leicht gruppiert und ausgelesen werden. Dokumente, Suchanfragen und administrative Aufgaben werden in JSON formuliert und per HTTP oder über die Java-API ausgetauscht. Das Buch stellt anhand eines durchgehenden Beispiels die Nutzung von Elasticsearch vor. Nach einem einführenden Kapitel, in dem eine klassische Suchanwendung von Grund auf aufgebaut wird, werden in den anschließenden Kapiteln jeweils unterschiedliche Aspekte genauer beleuchtet. Unter anderem werden die folgenden Themenbereiche angesprochen: • Umgang mit Text • Relevanz in Suchergebnissen • Möglichkeiten der Indizierung • Verteilung der Daten • Datenmodellierung • Aggregationen • Aspekte des Produktivbetriebs • Logdaten in Elasticsearch Der Großteil des Buches ist unabhängig von der Programmiersprache gehalten, es wird jedoch auch auf die Java- und JavaScript-APIs zum Zugriff auf Elasticsearch eingegangen. Der Leser hat nach der Lektüre das notwendige Rüstzeug, um eigene Anwendungen auf Basis von Elasticsearch umzusetzen.

The Second Machine Age

Wie die nächste digitale Revolution unser aller Leben verändern wird
Author: Erik Brynjolfsson,Andrew McAfee
Publisher: Plassen Verlag
ISBN: 3864702224
Category: Political Science
Page: 368
View: 1413

Continue Reading →

Computer sind mittlerweile so intelligent geworden, dass die nächste industrielle Revolution unmittelbar bevorsteht. Wer profitiert, wer verliert? Antworten auf diese Fragen bietet das neue Buch der Technologie-Profis Erik Brynjolfsson und Andrew McAfee. Seit Jahren arbeiten wir mit Computern - und Computer für uns. Mittlerweile sind die Maschinen so intelligent geworden, dass sie zu Leistungen fähig sind, die vor Kurzem noch undenkbar waren: Sie fahren Auto, sie schreiben eigene Texte - und sie besiegen Großmeister im Schach. Dieser Entwicklungssprung ist nur der Anfang. In ihrem neuen Buch zeigen zwei renommierte Professoren, welch atemberaubende Entwicklungen uns noch bevorstehen: Die zweite industrielle Revolution kommt! Welche Auswirkungen wird das haben? Welche Chancen winken, welche Risiken drohen? Was geschieht dabei mit den Menschen, was mit der Umwelt? Und was werden Gesellschaft und Politik tun, um die Auswirkungen dieser "neuen digitalen Intelligenz" für alle bestmöglich zu gestalten? Dieses Buch nimmt Sie mit auf eine Reise in eine Zukunft, die schon längst begonnen hat.