Eine Antwort auf diese Frage wurde zuerst von Google gegeben. Eine Suchmaschine unterhält einen Index, den sie unabhängig von Suchanfragen verwaltet und der als Grundlage für die Beantwortung von Anfragen dient. Ein Suchmaschinenindex wird typischerweise verteilt gespeichert; Anfragen werden über hunderte oder tausende von Rechnern verteilt verarbeitet, und beides muss in hohem Maße skalierbar sein. Ein Werkzeugkasten für derartige Anwendungen ist Apache Hadoop, ein freies Framework für skalierbare, verteilt arbeitende Software der zahlreiche Werkzeuge und Komponenten umfasst. Zahlreiche Anwendungsbereiche machen sich das heute zunutze, darunter Supply-Chain-Management und Logistik, Web-Analyse, Finanzdienstleister, Energieunternehmen, Medien- und Telekommunikationsbranche, Gesundheitswesen und die Lebenswissenschaften sowie der elektronische Handel.
Ziel ist bei diesen Ansätzen stets, aus dem Menge der vorhandenen Daten Schlüsse zu ziehen, den Kunden besser kennenzulernen, Empfehlungen zu geben, Umsatzprognosen zu erstellen, Maschinenausfälle vorherzusagen, Betrugserkennung zu vereinfachen und vieles mehr. Es geht damit darum, aus lediglich vielen Rohdaten „Intelligenz“ zu ziehen, die sich positiv in der jeweiligen Anwendung bzw. dem betreffenden Unternehmen einsetzen lässt. Bekannte Formen solcher Intelligenz sind z.B. Empfehlungssysteme (Recommender-Systeme), die uns sagen, welche Filme uns interessieren könnten, welche Musik wir vielleicht gerne hören oder welche Produkte wir als nächstes kaufen sollten. Im Straßenverkehr nutzt man Datenanalysen zunehmend zur Steuerung autonomer Fahrzeuge; eine „smarte City“ versucht, mit all ihren Daten Verkehrsströme zu lenken oder Energieverbräuche zu optimieren. Eine „smartes Haus“ wird sich dank Datenanalyse auf seine Bewohner einstellen und Beleuchtung, Klimatisierung, Sicherheit und Atmosphäre auf diese optimal einzustellen versuchen.