Home
» Wiki
»
Verwendung der Google Sheets ImportXML-Funktion zum Sammeln von Daten überall
Verwendung der Google Sheets ImportXML-Funktion zum Sammeln von Daten überall
Video Verwendung der Google Sheets ImportXML-Funktion zum Sammeln von Daten überall
Sie können Daten von jeder Webseite mit der ImportXML-Funktion von Google Sheets importieren. Hier erfahren Sie, wie Sie die ImportXML-Funktion in Google Sheets verwenden.
Wenn Sie die ImportXML-Funktion von Google Sheet beherrschen, haben Sie das Gefühl, bereits einen zertifizierten Blattassistenten zu besitzen. ImportXML erhält Informationen aus jedem XML-Feld. Dank dessen können Sie die darauf generierten Daten und Metadaten überall herunterladen.
Verwendung der ImportXML-Funktion von Google Sheets
Die XML-Auszeichnungssprache gibt die Datensätze auf einer Webseite an. Im Wesentlichen befindet sich jeder Satz von <something> und </ something> - den Bausteinen des Web-Quellcodes oder eines bestimmten Datensatzes - in ihnen. Der Quellcode des Webs enthält Text im <p> -Arsatz-Tag - ein Absatz, der manchmal <b> alt enthält - in Fettdruck und möglicherweise <a> einen Link - Link (gefolgt von </ a > </ b>. </ p> </ body> , um das gesamte Tag zu schließen).
Die Google Sheets ImportXML-Funktion kann einen bestimmten XML-Datensatz finden und Daten außerhalb davon kopieren. Wenn wir im obigen Beispiel alle Links auf der Seite erhalten möchten, müssen wir die ImportXML-Funktion bitten, alle Informationen in das <a> </a> -Tag einzugeben . Wenn Sie den gesamten Text eines Webs möchten, können Sie zunächst alles in <body> </ body> oder in jeder Version von <p> </ p> aufnehmen und die Daten zu einem späteren Zeitpunkt löschen.
So extrahieren Sie eine Liste mit Postleitzahl und Landkreis in der Stadt
Die Tabellen in Wikipedia sind großartige ImportXML-Übungen. In diesem Artikel wird beispielsweise die gesamte Postleitzahl in Edmonton, Alberta, heruntergeladen. Suchen Sie eine Liste der kanadischen Postleitzahlen, die mit dem Buchstaben T beginnen. Öffnen Sie diese Seite in einem neuen Browserfenster, um loszulegen.
Wählen Sie eine Postleitzahl aus, klicken Sie mit der rechten Maustaste darauf und wählen Sie Überprüfen , um das Browser-Tool zum Anzeigen der Seitenquelle zu öffnen. Sie sehen, dass sich jeder Seitenquellcode in einem Tag befindet (identifizieren Sie eine Zelle in der Tabelle). Danach importiert der Artikel alle darin enthaltenen TD-Tags aus Edmonton.
Erstellen Sie ein neues leeres Google Sheet. Der Artikel übernimmt den gesamten Inhalt des TD-Tags, einschließlich <span> und Link, indem er die Daten angibt, für die Sie die XPath-Syntax verwenden möchten. ImportXML verwendet die URL und das Tag, nach denen Sie suchen, als Argument für den Import in Google Sheets.
Wenn Sie zur Seitenquelle zurückkehren, sehen Sie die Postleitzahl in Fettdruck im <b> </ b> -Tag, dem Städtenamen, der auf die Wikipedia-Artikel unter <a> </a> verweist. Versuchen Sie nun, nur Links in jeder großen Stadtbox zu erhalten und andere Links (Nachbarschaften) zu entfernen. Bearbeiten Sie sie in zwei Tastenbefehlen, Spalte A und B:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / span / a [1]")
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / b [1]")
Sie müssen die Ergebnisse ein wenig verfeinern:
Diese Aktion hilft Ihnen zu verstehen, wie die XPath-Abfragesyntax funktioniert: Ein Tag stellt nur die erste Version von <tag> im <übergeordneten Tag> bereit. Daher gibt Ihnen td / span / a [1] bei jedem <td> den ersten Link in <span>. In ähnlicher Weise gibt Ihnen td / b [1] den ersten fetten Text in jedem <td> oder in diesem Fall nur die Postleitzahl.
Das Tolle ist, dass Sie zwei Abfragen in einer Funktion ausführen können. Daher kombiniert der Artikel zwei Anforderungen mit einem | -Symbol in der Mitte:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / span / a [1] | // td / b [1]")
Sie erhalten jedoch nicht die gleichen vorherigen Ergebnisse. Es wird die gesamte Anforderung in einer langen Liste anstatt in zwei Spalten abgewechselt. Es hat viele Vorteile, ist aber in diesem Artikel nicht erforderlich.
Auswahl der Postleitzahl in den Feldern mit dem Link "Edmonton". Wir werden diesen Code verwenden:
= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td [span / a = 'Edmonton'] / b [1]")
Setzen Sie den "Suche" -Text in eckige Klammern, um die Ergebnisse einzugrenzen, ohne die Art und Weise zu beeinflussen, wie Ergebnisse erzielt werden.
Nun zu den Namen der umliegenden Gebiete. Schreiben Sie die entsprechende importXML-Funktion in die nächste Spalte und erhalten Sie den folgenden Text von "Edmonton".
Der Artikel nimmt den gesamten Inhalt des Bereichs [1] und verwendet Klammern und Fadenkreuze, um den Inhalt zu unterteilen, wobei "Edmonton" in die erste Spalte und der Nachbarschaftsname in die folgende Spalte eingefügt werden. Wir können dann die Postleitzahl mit dem entsprechenden Namen kombinieren:
Verwenden Sie als Nächstes die Funktion Teilen und verketten Sie einige der folgenden Spalten, um die verarbeiteten Daten zu teilen und zu gruppieren:
= SPLIT (verketten (B2: J2), "(/)")
Zum Schluss hier die Ergebnistabelle mit den notwendigen Informationen:
So kopieren Sie E-Mail-Adressen automatisch aus dem Web
In diesem Artikel erfahren Sie, wie Sie die E-Mails aller Mitarbeiter auf der Seite "Info |" abrufen Zapier. Wenn Sie sich den Quellcode ansehen, sehen Sie, dass sich die E-Mail-Adresse jedes Mitglieds im Feld class = "email" befindet. Wenn Sie ein Tag-Attribut angeben möchten, verwenden Sie die Google Sheets ImportXML-Funktion wie folgt:
= importxml ("https://zapier.com/about//", "// span [@ class = 'email']")
So importieren Sie mit Regex E-Mail-Adressen aus dem Web in Google Sheets.
Um Zapier-Adressen mit Regex '"power" zu erhalten, geben wir den Befehl <span> ein, anstatt nach der Klasse zu suchen. Jetzt führen wir diese Aufgabe in zwei Schritten aus: Rufen Sie Informationen von der Zapier-Seite in die erste Spalte auf und sortieren Sie die E-Mail in die zweite Spalte:
Denken Sie daran, dass ImportXML alle Spalten und Zeilen abhängig von den gefundenen Daten selbst ausfüllt. Die Regex-Abfrage muss in jeder Zelle ausgefüllt werden, in der Sie Ergebnisse erhalten möchten. Um alles zusammenzusetzen, müssen Sie nur den Befehl Regexextract verwenden , bei dem es sich um eine Formel für Array-Konstanten handelt: