Navigation/Menü: Links auf weitere Seiten dieser Website
Objekt-Metadaten
| Web Data Commons – Extracting Structured Data from Two Large Web Corpora Bizer, Christian |
| Haupttitel | Web Data Commons – Extracting Structured Data from Two Large Web Corpora |
| Autor | Bizer, Christian; Mühleisen, Hannes |
| Seitenzahl | 4 S. |
| Auch erschienen in | LDOW2012, April 16, 2012, Lyon, France |
| URL des Originaldokuments | URL >> |
| Fachbereich/Einrichtung | FB Wirtschaftswissenschaft |
| Arbeitsbereich/Institut | Wirtschaftsinformatik |
| Erscheinungsjahr | 2012 |
| Dokumente | pdf-Datei
Falls Ihr Browser eine Datei nicht öffnen kann, die Datei zuerst herunterladen und dann öffnen.
|
| DDC | 004 Datenverarbeitung; Informatik |
| Dokumententyp/-Sammlungen | Aufsatz in Konferenzschrift |
| Medientyp/Format | Text |
| Abstract | More and more websites embed structured data describing for instance products, people, organizations, places, events, resumes, and cooking recipes into their HTML pages using encoding standards such as Microformats, Microdatas and RDFa. The Web Data Commons project extracts all Microformat, Microdata and RDFa data from the Common Crawl web corpus, the largest and most up-todata web corpus that is currently available to the public, and provides the extracted data for download in the form of RDF-quads. In this paper, we give an overview of the project and present statistics about the popularity of the different encoding standards as well as the kinds of data that are published using each format. |
| Sprache | Englisch |
| Rechte | Nutzungsbedingungen |
| Zugriffstatistik | |
| Statische URL | http://edocs.fu-berlin.de/docs/receive/FUDOCS_document_000000014832 |
| Erstellt am | 25.10.2012 - 12:26:08 |
| Letzte Änderung | 08.11.2012 - 14:49:16 |





