Daten aus Webseiten extrahieren/auslesen

Ihre Fragen lassen sich keinem anderen Bereich zuordnen? Dann können Sie an dieser Stelle um Hilfe fragen oder ein Thema zur Diskussion stellen.
Antworten
mscheitza
Site Admin
Beiträge: 22
Registriert: Fr Apr 21, 2017 3:17 pm

Daten aus Webseiten extrahieren/auslesen

Beitrag von mscheitza » Mi Jan 03, 2018 10:14 am

Schwierigkeit dieses Artikels: Einsteiger

Es gibt viele Möglichkeiten, um aus einer Webseite gezielt Daten auszulesen oder zu extrahieren. Für einen Programmierer ist das i.d.R. eine einfache Aufgabe: Mit Hilfe von verschiedenen Programmiersprachen bzw. Frameworks ist der Programmierer in der Lage eine Such- oder Registerfunktion einer Internetseite zu durchlaufen, einzelne HTTP GET/POST Request abzusetzen, um letztendlich mit einem DOM-Parser oder regulären Ausdrücken die Zieldaten von der Zielseite (oder mehreren Zielseiten) zu parsen und dann entweder lokal oder per Datenbankschnittstelle in einer Datebank, wie z.B. MySQL, Oracle, MSSQL oder Access zu speichern.

Für einen Nicht-Programmierer sieht es allerdings anders aus: Es gibt zahlreiche kostenlose aber auch kostenpfliche Tools im Internet, um Daten aus Internetseiten zu extrahieren oder dauerhaft zu erfassen (zu "crawlen"). Die Grenzen dieser Programme liegen jedoch meist in der Weiterentwicklung von Web Technologien und in der Veränderung bzw. Umstrukturierung von Webseiteninhalten.

DataShark ist ein Web-Crawler/Web-Scraper der genau diese Grenzen auflöst. DataShark setzt im Gegensatz zu vielen anderen ähnlichen Produkten keinen DOM-Parser ein, um unabhängig von dem verwendeten Format zu bleiben. Somit können z.B. problemlos AJAX bzw. JSON oder PlainText Inhalte abgefragt und verwendet werden.

DataShark arbeitet stattdessen mit sogenannten Suchmuster Kombinationen:
  • Suchmuster Kombinationen ermitteln aus einem Seitenquelltext die gesuchten Daten.
  • Suchmuster Kombinationen können automatisch generiert und regeneriert werden.
Um zu erfahren, wie Sie mit DataShark gezielt Daten von Webseiten extrahieren bzw. auslesen können, laden Sie sich DataShark kostenlos herunter (30-Tage Testversion) und beginnen mit unserem Einführungsprogramm.

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast