Vi siete mai trovati a dover controllare un lungo file di testo TXT contenente un elenco di nomi, o parole, per cercare di scoprire quanti duplicati ci sono al suo interno? Io sì e vi assicuro che cercare di fare pulizia manualmente è decisamente scomodo.
Così grazie a PippoDJ volevamo segnalarvi questi due metodi che mi hanno permesso di risolvere il mio problema, con PSPad, disponibile anche in versione portable, e utilizzando PowerShell.
PSPad
Estraete il contenuto dell’archivio della versione portable, avviate PSPad.exe
e da File
– Apri
selezionate il file di testo, poi andate su Modifica
– Ordina Testo
impostate l’ordine Crescente/Decrescente
che vi serve e mettete i flag in MAIUSCOLE/minuscole
e Elimina duplicati
. Una volta premuto OK non vi resta che attendere qualche momento a seconda delle dimensioni del file TXT, consiglierei sempre di salvare il nuovo file ordinato e ripulito con un nome diverso dall’originale.
Lo faccio con PowerShell
Avviate PowerShell
e inserite questo comando Get-Content input.txt | Sort-Object -unique -casesensitive | Set-Content output.txt
dove al posto di Input.txt
dovete mettere il nome del file iniziale, con il percorso dove si trova, e al posto di output.txt
il nome del file destinazione eventualmente con la cartella dove volete salvarlo.
Volevo segnalare che, almeno nel mio computer, con un file di grosse dimensioni, come quello che stavo usando io, PowerShell ha utilizzato moltissima memoria e tempo per elaborare il tutto. Con un file più “normale” si è comportato ottimamente.
Microsoft Excel
La rimozione delle righe duplicate sarebbe possibile farla anche con Microsoft Excel solo che ha un limite nel numero di righe in grado di gestire, il mio file di testo era composto da circa il doppio delle righe supportate.