Entfernen & ersetzen von Zeichen mit PySpark

Ich habe einen dataframe und möchten, entfernen Sie alle Klammern und ersetzt Sie durch zwei Bindestriche.

Bevor:

+------------+
|  dob_concat|
+------------+
|[1983][6][3]|
+------------+

Nach:

+------------+
| dob_concat |
+------------+
| 1983-6-3   |
+------------+
InformationsquelleAutor Data_101 | 2018-01-16



One Reply
  1. 5

    können Sie regex_replace eingebaute Funktion als unten.

    from pyspark.sql import functions as F
    df.withColumn("dob_concat", F.regexp_replace(F.regexp_replace(F.regexp_replace("dob_concat", "\\]\\[", "-"), "\\[", ""), "\\]", "")).show()
    

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.