Eliminare righe duplicate da un file di testo

Se Windows genera un errore, hai un problema di virus o vuoi discutere/segnalare l'uscita della nuova versione di un software per la piattaforma Microsoft, questa è la sezione giusta.
Regole del forum
Rispondi
Avatar utente
crazy.cat
Amministratore
Amministratore
Messaggi: 12448
Iscritto il: mer mag 01, 2013 4:02 pm
Località: Noventa Padovana
Contatta:

Eliminare righe duplicate da un file di testo

Messaggio da crazy.cat »

Stavo provando i programmi per scoprire le password degli archivi zip e rar, volevo creare un dizionario di parole in formato txt da allegare all'articolo, il problema è che il file supera già i 28 Mega e molte righe sono duplicate.
Volevo trovare il modo di togliere i doppioni, avevo trovato un programmino che mi sembrava funzionare ma alla fine toglieva tutte le due/tre/quattro righe ripetute, io volevo che me lasciasse almeno una.
Come posso farlo?

Avevo trovato delle indicazioni che si poteva farlo con Word ma non sono riuscito a capire dove sia in word 2013.

Fatemi sapere.
Grazie
“Se tutti i documenti raccontavano la stessa favola, ecco che la menzogna diventava un fatto storico, quindi vera.”
System
System
Bot ufficiale TurboLab.it
Bot
Messaggi:
Iscritto il: sab dic 31, 2016 6:19 pm
Contatta: Contatta

Re: Eliminare righe duplicate da un file di testo

Messaggio da System » ven dic 11, 2015 10:37 am


Avatar utente
crazy.cat
Amministratore
Amministratore
Messaggi: 12448
Iscritto il: mer mag 01, 2013 4:02 pm
Località: Noventa Padovana
Contatta:

Re: Eliminare righe duplicate da un file di testo

Messaggio da crazy.cat »

Grazie Excel mi sei proprio inutile:
In Excel non è possibile superare il limite di 1.048.576 righe e 16.384 colonne.

Io supero i due milioni di righe...
“Se tutti i documenti raccontavano la stessa favola, ecco che la menzogna diventava un fatto storico, quindi vera.”
Avatar utente
hashcat
Livello: Storage Area Network (12/15)
Livello: Storage Area Network (12/15)
Messaggi: 1946
Iscritto il: gio mag 02, 2013 4:13 pm

Re: Eliminare righe duplicate da un file di testo

Messaggio da hashcat »

Mi ricordo che, quando mi occupavo ogni tanto di recupero password, utilizzavo (tra gli altri) uno strumento abbastanza intuitivo per effettuare varie manipolazioni alle wordlist: LINK
Purtroppo non ricordo bene se effettivamente fa ciò che chiedi, probabilmente si.

;)
“The quieter you become, the more you can hear”
Avatar utente
PippoDJ
Livello: Storage Area Network (12/15)
Livello: Storage Area Network (12/15)
Messaggi: 1678
Iscritto il: sab nov 01, 2014 3:50 pm

Re: Eliminare righe duplicate da un file di testo

Messaggio da PippoDJ »

Due Mega righe sono tantine, ma ti consiglierei di provare con editor di testo "evoluti".
  • Notepad ++
    Richiede l'installazione del plugin TextFX [Plugin > Plugin Manager > Show Plugin Manager > Available > TextFX Characters].
    Poi: TextFX > TextFX Tools > Sort lines case sensitive (at column) assicurandosi che "+Sort outputs only UNIQUE" sia selezionato.
    Immagine
  • PSPad
    Ancora più semplice: Modifica > Ordina testo... > Elimina duplicati > OK.
    Immagine
  • TextPad
    Molto simile: Strumenti > Ordina... > Elimina duplicati > OK.
    Immagine
(dei tre il mio preferito è PSPad)
crazy.cat ha scritto:avevo trovato un programmino che mi sembrava funzionare ma alla fine toglieva tutte le due/tre/quattro righe ripetute, io volevo che me lasciasse almeno una
Se ti riferisci a Text Deduplicator Plus (di cui avevi iniziato la recensione), non ho riscontrato lo stesso problema: forse non ce la fa a gestire due milioni di righe (io l'ho provato con quattordici :fiu ).
Avatar utente
crazy.cat
Amministratore
Amministratore
Messaggi: 12448
Iscritto il: mer mag 01, 2013 4:02 pm
Località: Noventa Padovana
Contatta:

Re: Eliminare righe duplicate da un file di testo

Messaggio da crazy.cat »

PippoDJ ha scritto:Due Mega righe sono tantine, ma ti consiglierei di provare con editor di testo "evoluti".
Se ti dicessi che sono arrivato a 3mega...parole italiane e inglesi. Direi che mi fermo qui.
PippoDJ ha scritto:non ho riscontrato lo stesso problema: forse non ce la fa a gestire due milioni di righe (io l'ho provato con quattordici :fiu ).
L'avevo anche finita se per quello, ma è stata rimossa visto che non funziona come voglio io.
[*]PSPad
Ancora più semplice: Modifica > Ordina testo... > Elimina duplicati > OK.
Immagine
Carinissimo sembra esserci riuscito. Domani ci riguardo meglio.

Grazie, sei sempre prezioso.
Immagine
“Se tutti i documenti raccontavano la stessa favola, ecco che la menzogna diventava un fatto storico, quindi vera.”
Avatar utente
PippoDJ
Livello: Storage Area Network (12/15)
Livello: Storage Area Network (12/15)
Messaggi: 1678
Iscritto il: sab nov 01, 2014 3:50 pm

Re: Eliminare righe duplicate da un file di testo

Messaggio da PippoDJ »

:approvo

A titolo di curiosità: spulciando tra i comandi di PowerShell mi sono imbattuto in Sort-Object che ha anche l'opzione -unique.
Per cui dovrebbe essere possibile rimuovere le righe doppie da un documento di testo anche senza installare nessun software specifico:

Codice: Seleziona tutto

PS C:\> Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Chissà se funziona anche con 3 Mega righe... :mrgreen:

I fortunati utilizzatori di Linux, invece, dovrebbero cavarsela con un disarmante:

Codice: Seleziona tutto

sort -u input.txt -o output.txt
Avatar utente
crazy.cat
Amministratore
Amministratore
Messaggi: 12448
Iscritto il: mer mag 01, 2013 4:02 pm
Località: Noventa Padovana
Contatta:

Re: Eliminare righe duplicate da un file di testo

Messaggio da crazy.cat »

PippoDJ ha scritto:A titolo di curiosità: spulciando tra i comandi di PowerShell mi sono imbattuto in Sort-Object che ha anche l'opzione -unique.
Per cui dovrebbe essere possibile rimuovere le righe doppie da un documento di testo anche senza installare nessun software specifico:

Codice: Seleziona tutto

PS C:\> Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Sembra di no, ma non dovrebbe dipendere dal file:

Codice: Seleziona tutto

Get-Process : Impossibile trovare un parametro posizionale che accetta l'argomento 'Get-Content'.
In riga:1 car:1
+ PS c:\> Get-Content test.txt | Sort-Object -unique | Set-Content output.txt
+ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidArgument: (:) [Get-Process], ParameterBindingException
    + FullyQualifiedErrorId : PositionalParameterNotFound,Microsoft.PowerShell.Commands.GetProcessCommand
Ho riprovato con Text Deduplicator Plus ma ha tolto oltre 100.000 righe in più rispetto a pspad. Ritengo il numero di pspad più attendibile, avevo verificato con altro programma i duplicati presenti.
“Se tutti i documenti raccontavano la stessa favola, ecco che la menzogna diventava un fatto storico, quindi vera.”
Avatar utente
PippoDJ
Livello: Storage Area Network (12/15)
Livello: Storage Area Network (12/15)
Messaggi: 1678
Iscritto il: sab nov 01, 2014 3:50 pm

Re: Eliminare righe duplicate da un file di testo

Messaggio da PippoDJ »

crazy.cat ha scritto:
PippoDJ ha scritto:

Codice: Seleziona tutto

PS C:\> Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Sembra di no, ma non dovrebbe dipendere dal file
Scusa crazy.cat, errore mio :acch, ho copiato per sbaglio anche il prompt di PowerShell.
Il comando giusto è:

Codice: Seleziona tutto

Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Ho riprovato con Text Deduplicator Plus ma ha tolto oltre 100.000 righe in più rispetto a pspad. Ritengo il numero di pspad più attendibile, avevo verificato con altro programma i duplicati presenti.
Text Deduplicator non fa distinzione tra maiuscole e minuscole (e non ha un'impostazione per cambiare questo comportamento). Cosa probabilmente indesiderabile se si cerca di eliminare i duplicati da un file di password.

A questo proposito, il comando PowerShell visto sopra, sarebbe meglio così:

Codice: Seleziona tutto

Get-Content input.txt | Sort-Object -unique -casesensitive | Set-Content output.txt
Avatar utente
crazy.cat
Amministratore
Amministratore
Messaggi: 12448
Iscritto il: mer mag 01, 2013 4:02 pm
Località: Noventa Padovana
Contatta:

Re: Eliminare righe duplicate da un file di testo

Messaggio da crazy.cat »

PippoDJ ha scritto:Scusa crazy.cat, errore mio :acch, ho copiato per sbaglio anche il prompt di PowerShell.
E' vero, potevo anche accorgermene, ma era mattina presto e dormivo ancora.

Ma che "delicato" che è anche powershell, mi va in crisi "solo" con un paio di milioni di righe di testo.
Immagine

Adesso alleggerisco il file di testo giusto per capire se funziona bene.
Ok, confermo che funziona veloce con meno righe, magari in un giorno o due avrebbe fatto anche con l'altro file più grande.
“Se tutti i documenti raccontavano la stessa favola, ecco che la menzogna diventava un fatto storico, quindi vera.”
Avatar utente
crazy.cat
Amministratore
Amministratore
Messaggi: 12448
Iscritto il: mer mag 01, 2013 4:02 pm
Località: Noventa Padovana
Contatta:

Re: Eliminare righe duplicate da un file di testo

Messaggio da crazy.cat »

PippoDJ ha scritto:....
Spero che non ti dispiaccia se ti ho inserito come co-autore :grazie
https://turbolab.it/manutenzione-156/co ... to-txt-792
“Se tutti i documenti raccontavano la stessa favola, ecco che la menzogna diventava un fatto storico, quindi vera.”
Avatar utente
CUB3
Moderatore
Moderatore
Messaggi: 3936
Iscritto il: lun gen 26, 2015 10:13 am

Re: Eliminare righe duplicate da un file di testo

Messaggio da CUB3 »

PippoDJ ha scritto:I fortunati utilizzatori di Linux, invece, dovrebbero cavarsela con un disarmante:

Codice: Seleziona tutto

sort -u input.txt -o output.txt
:bisbiglio È anche per questo che nelle mie installazioni di Windows non manca mai Cygwin. :)
"Let me tell you a secret: when you hear that the machine is “smart”, what it actually means is that it’s exploitable." Mikko Hypponen
Avatar utente
PippoDJ
Livello: Storage Area Network (12/15)
Livello: Storage Area Network (12/15)
Messaggi: 1678
Iscritto il: sab nov 01, 2014 3:50 pm

Re: Eliminare righe duplicate da un file di testo

Messaggio da PippoDJ »

crazy.cat ha scritto:
PippoDJ ha scritto:....
Spero che non ti dispiaccia se ti ho inserito come co-autore :grazie
https://turbolab.it/manutenzione-156/co ... to-txt-792
Scherzi? Per me è un onore! :ballo2
System
System
Bot ufficiale TurboLab.it
Bot
Messaggi:
Iscritto il: sab dic 31, 2016 6:19 pm
Contatta: Contatta

Re: Re: Eliminare righe duplicate da un file di testo

Messaggio da System » sab dic 12, 2015 11:49 pm


Rispondi
  • Argomenti simili
    Risposte
    Visite
    Ultimo messaggio