Reguläre Ausdrücke (RegEx): Unterschied zwischen den Versionen

Version vom 11. April 2013, 13:01 Uhr

Links

http://www.regular-expressions.info/reference.html

http://weppz.com/tipps/preg_replace-utf-8-und-umlaute/

http://www.hongkiat.com/blog/regular-expression-tools-resources/

Kurzübersicht

Für Such- und Ersetzungsfunktionen mit preg_replace, preg_match etc.

/ oder # müssen an anfang und ende!

. entspricht einem beliebigen Zeichen ( also Buchstaben,Zahlen,sonderzeichen,bindestriche,usw.).
+ entspricht anzahl >= 1
.+ entspricht mehreren beliebigen Zeichen
* entspricht anzahl >= 0
.* entspricht kein oder mehrere beliebigen Zeichen
? entspricht einem Zeichen
.? entspricht kein oder ein beliebiges Zeichen
| entspricht der OR bzw. ODER Verknüpfung
^ entspricht zweierlei: einmal der NOT bzw. NICHT Verknüpfung(aber nur in der [] klammer) und anderesmal, dass das folgende zeichen am anfang stehen muss.

alle oben genannten zeichen müssen als echte zeichen mit dem \ maskiert werden, also z.B. \. entspricht dann dem .



\w entspricht einem Buchstabe
\w+ entsprcht mehreren (oder einem) Buchstaben
\d entspricht einer Zahl
\d+ entspricht mehreren (oder einer) Zahlen

() entspricht einer Gruppe, wird also gespeichert. Die Erste Gruppe kann nachher bei preg_replace im replacement als $1 angegeben werden, die zweite als $2 usw.
(\w+) entspricht mehreren gespeicherten Buchstaben
[] entspricht einem Bereich
[a-z] entspricht den kleinen Buchstaben a bis z
[A-Z] entspricht den grossen Buchstaben A bis Z

Beispiele

Umlaute und Sonderzeichen

Quelle s.o. bei Links

Angenommen es sollen alle Sonderzeichen aus dem Satz “Grüß mich, sonst gibt’s Ärger!” entfernt und durch Leerzeichen ersetzt werden.

preg_replace('/\W/', ' ', "Grüß mich, sonst gibt's Ärger!" )

Innerhalb / / steht der reguläre Ausdruck nach dem Gesucht wird.
\W steht für "nicht Buchstabe" (also alles andere soll ersetzt werden)

Probleme gibt es bei utf-8 als Zeichensatz. Deshalb:

preg_replace('/\W/u', ' ', "Grüß mich, sonst gibt's Ärger!" );

Der /u Modifier sagt, daß jetzt utf-8 kommt.

Das funktioniert in Windows nicht aber in Linux. Dort zählen die Umlaute nicht zu den Buchstaben (\W) und werden entfernt. Das behebt der Modifier \pL

\pL steht für Zeichen jeder Sprache. Das \W wird ersetzt durch:
[ ] -> In den Brakets steht eine Charakterklasse
^ -> steht für nicht

[^\pL] -> Suche alles was kein (^) Buchstaben jeglicher Sprache (\pL) ist

Ergebnis:

echo preg_replace('/\[^\pL]/u', ' ', "Grüß mich, sonst gibt's Ärger!" );

Suche nicht innerhalb html Tags

Erklärung: /e interpretiert den String als php Code /i ignoriert Groß- und Kleinschreibung

// $s in $t durch $r ersetzen:
preg_replace("/((<[^>]*)|$s)/e", '"\2"=="\1"? "\1":"$r"', $t);

// $s case-insensitive in $t hervorheben:
preg_replace("/((<[^>]*)|$s)/ie", '"\2"=="\1"? "\1":"<b>\1</b>"', $t);

Reguläre Ausdrücke (RegEx): Unterschied zwischen den Versionen

Version vom 11. April 2013, 13:01 Uhr

Inhaltsverzeichnis

Links

Kurzübersicht

Beispiele

Umlaute und Sonderzeichen

Suche nicht innerhalb html Tags

Navigationsmenü

Ansichten

Meine Werkzeuge

Navigation

Suche

Werkzeuge

@@ Zeile 4: / Zeile 4: @@
 http://weppz.com/tipps/preg_replace-utf-8-und-umlaute/
+http://www.hongkiat.com/blog/regular-expression-tools-resources/
 == Kurzübersicht ==