Friday, March 20, 2020

Selenium: Automatisierung von Webanwendungen

Einstieg in die Automatisierung von Webanwendungen mit Selenium, Perl und Firefox.

Selenium ist ein Framework zur Automatisierung von Webanwendungen im Browser (hier Firefox). Es können damit viele Webseiten-und Blog-Engines automatisiert werden.

Der primäre Einsatzzweck von Selenium ist die Automatisierung von Web-Anwendungen zu Testzwecken. Es kann vor allem Entwicklern von Web-Anwendungen sehr viel Tipparbeit abnehmen – beispielsweise beim Ausfüllen von Webformularen – und macht das Testen von Webanwendungen dadurch schneller, flexibler und verlässlicher.
Aber Selenium ist nicht nur auf Tests beschränkt, auch webbasierte Administrationsaufgaben können (und sollten) damit automatisiert werden.

Selenium automatisiert Web-Browser. Das ist es! Was du mit dieser Kraft machst, liegt ganz bei dir.

Selenium WebDriver installieren

Selenium WebDriver ist der Nachfolger der offiziell abgelehnten Selenium Remote Control. Der Selenium Server (der sowohl von WebDriver als auch von Remote Control verwendet wird) akzeptiert Befehle als Selenese-Kommandos, oder über das Client-API, und leitet sie an den Browser weiter.
Dazu startet Selenium WebDriver den Browser Firefox, installiert die Erweitung webdriver.xpi für WebDriver support und warten am Socket localhost:4444/TCP auf Kommandos.

Eine Anbindung für Perl an das Client-API, ist mit dem CPAN-Modul Selenium::Remote::Driver verfügbar.

Unter Debian ist das Modul (noch) nicht vorhanden und es muss von CPAN installiert werden:

cpan -T -f -i Selenium::Remote::Driver

Wer möchte kann sich auch ein Debianpaket aus dem Modul bauen und dies über die Paketverwaltung installieren (Dazu muss das Paket pkg-perl-tools installiert sein).

env -i DEB_BUILD_OPTIONS="nocheck" cpan2deb Selenium::Remote::Driver

Firefox statt Selenium Standalone-Server verwenden

Sie können das Modul Selenium::Remote::Driver direkt verwenden, um Selenium WebDriver zu starten, es muss nur der entsprechenden Treiber installiert sein. Diese Methode erfordert weder die Installation des
JRE/JDK noch den Selenium Standalone-Server. Es muss nur die entsprechende Klasse für die Treiberkonstruktion verwenden: Selenium::Firefox.

Für Firefox muss der Proxy geckodriver zu installieren. Dieser stellt die vom WebDriver-Protokoll beschriebene HTTP-API für die Kommunikation mit Gecko-Browsern wie Firefox bereit.

Unter Debian kann das Paket firefoxdriver installiert werden:

apt install firefoxdriver firefox-esr

Ansonsten kopiert man das geckodriver Binary auch direkt inPATH und macht es ausführbar.

Ein Beispiel

use Data::Dumper;
use Selenium::Firefox;

my $driver = Selenium::Firefox->new(
  binary => '~/Downloads/geckodirver'
);
$driver->get('http://www.google.com');
print Dumper($driver->get_title);

my $query = $driver->find_element('q', 'name');
$query->send_keys('CPAN Selenium Remote Driver');

my $send_search = $driver->find_element('btnG', 'name');
$send_search->click;

# make the find_element blocking for a second
# to allow the title to change
$driver->set_implicit_wait_timeout(2000);

my $results = $driver->find_element('search', 'id');

print Dumper($driver->get_title);

END {
	$driver->quit;
}

Welche Funktionen das Modul bietet, zeigt die (englischsprachige) Dokumentation: http://search.cpan.org/dist/Selenium-Remote-Driver/

$driver->get

Navigiert zu einer bestimmten URL.

Usage:

$driver->get('http://www.example.net');

$driver->find_element

Sucht nach einem Element (XML/HTML) auf der Seite, ausgehend vom Wurzelelement im DOM-Baum.

Das Element wird als WebElement-Objekt zurückgegeben: http://search.cpan.org/dist/Selenium-Remote-Driver/lib/Selenium/Remote/WebElement.pm

Die Funktion erwartet zwei Argumente:

  1. Das Suchziel: Bezeichner unter dem das Element im Dokument gefunden werden kann
  2. Schema: Dieses Argument istoptional und hat den Standardwert xpath. Es kann eines der folgenden sein: class, class_name, css, id, link, link_text, partial_link_text, tag_name, name oder xpath

Usage:

$driver->find_element("//input[@name='name string']");

Wird kein Element gefunden, bricht das Skript mit einer Fehlermeldung ab. Soll stattdessen nur eine Warnung ausgegeben werden, muss eine der folgenden Funktionen benutzt werden:

  • find_element_by_class
  • find_element_by_class_name
  • find_element_by_css
  • find_element_by_id
  • find_element_by_link
  • find_element_by_link_text
  • find_element_by_name
  • find_element_by_partial_link_text
  • find_element_by_tag_name
  • find_element_by_xpath

Daneben gibt es noch die Funktion $driver->find_child_element. Diese sucht nach einem Element beginnend, ab einem anderen Element als Startpunkt im DOM-Baum. Die Funktion erwartet zwei Argumente:

  1. WebElement-Objekt: Startpunkt der Suche im DOM-Baum.
  2. Das Suchziel: Bezeichner unter dem das Element gefunden werden kann.

In einer XPath-Angabe darf keine absolute Angabe verwendet werden, um nach Kind-Elementen zu suchen. Verwenden Sie stattdessen die relative Angabe.

Usage:

my $start_element = $driver->find_element("//select[@name='ned']");
# note the usage of ./ when searching for a child element instead of //
my $child = $driver->find_child_element($start_element, "./option[@value='es_ar']");

Statt nur nach einem Element (dem ersten) zu suchen, kann auch nach allen Elementen, die auf das Suchmuster passen, gesucht werden. Dazu bietet das Modul die folgenden zwei Funktionen:

  • find_elements
  • find_child_elements

Diese funktionieren analog zu den oben genannten Funktionen, geben aber eine Liste der gefundenen Elemente zurück.

$element->send_keys

Sendet eine Sequenz von Tastendrücken an das Element.

Usage:

$element->send_keys('A', 'B', 'C', "Text");

Um spezielle Tastatur-Ereignisse zu senden, muss das Modul WDKeys benutzt werden:

use Selenium::Remote::WDKeys; # include the WDKeys module
$element->send_keys(KEYS->{'space'}, KEYS->{'enter'});

Alle verfügbaren Tastatur-Ereignisse sind unter https://github.com/teodesian/Selenium-Remote-Driver/blob/master/lib/Selenium/Remote/WDKeys.pm#L17 definiert.

$element->click

Klickt auf das Element.

Usage:

$element->click();

$element->get_attribute

Gibt den Wert eines Attributs zurück.

Die Funktion erwartet als Argument, den Namen des Attributs.

Usage:

my $attribute = $element->get_attribute('attribute name');

$element->get_text

Gibt den Wert von innerText/textContent zurück.

Usage:

my $text = $element->get_text;

XML Path Language (XPath)

XPath wird verwendet, um durch die Elemente und Attribute - dem sog. Document Object Model (DOM) - eines XML-Dokument zu navigieren. Es ist ein Teil des W3C XSLT-Standards. Siehe auch:

Zum untersuchen des DOM und erstellen von XPath-Angaben, eigenen sich die Firefox Erweiterungen/Add-ons FireXPath und Firebug.

Neuere Versionen von Firefox vereinen vieles im Add-on Web Developer und dann unter dem Menüpunkt Element untersuchen des Kontext-Menüs.

Formulardetails anzeigen lassen

Um die Bezeichner von Formularfeldern herauszufinden, eignet sich ebenfalls das Firefox Add-on Web Developer.

Headless browsing (Xvfb)

Mit dem Paket xvfb, können die Skripts auch headless ausgeführt werden. Xvfb stellt dazu einen X-Server zur Verfügung, welcher auf einem Computer ohne Anzeige usw. läuft.

Das Skript muss dann über den Wrapper xvfb-run gestartet werden:

xvfb-run --auto-servernum <script.pl> [OPTIONS…]

In Skripten kann auch folgender Shebang genutzt werden:

#!/usr/bin/env -S xvfb-run --auto-servernum perl

Und für Cronjob empfiehlt sich der Shebang:

#!/usr/bin/env -S lckdo -q filename.lock chronic xvfb-run -a sh

Dies legt die Lockdatei ~/filename.lock an und sperrt so das Skript um eine doppelte Ausführung zu unterbinden. Außerdem erfolgt eine Ausgabe nur im Fehlerfehl.

Cookies speichern und wieder setzen

use Storable qw(store retrieve);
use Fcntl 'O_RDONLY', 'O_RDWR', 'O_CREAT';
my $cookies_path = "./cookies";
# Cookies öffnen
my $cookies = ( -r $cookies_path ) ? retrieve($cookies_path) : [];
for ( @{$cookies} ) {
    eval {
        $_->{secure}   = 0;    # overwrite
        $_->{httponly} = 0;    # overwrite

        $driver->add_cookie(
            $_->{name},   $_->{value},  $_->{path},
            $_->{domain}, $_->{secure}, $_->{httponly}
        );
    };
    @_ && warn @_;
}

# Cookies speichern
store( $driver->get_all_cookies, $cookies_path );

Weblinks