Pagina 1 di 1

Eliminare righe duplicate da un file di testo

Inviato: ven dic 11, 2015 10:37 am
da crazy.cat
Stavo provando i programmi per scoprire le password degli archivi zip e rar, volevo creare un dizionario di parole in formato txt da allegare all'articolo, il problema è che il file supera già i 28 Mega e molte righe sono duplicate.
Volevo trovare il modo di togliere i doppioni, avevo trovato un programmino che mi sembrava funzionare ma alla fine toglieva tutte le due/tre/quattro righe ripetute, io volevo che me lasciasse almeno una.
Come posso farlo?

Avevo trovato delle indicazioni che si poteva farlo con Word ma non sono riuscito a capire dove sia in word 2013.

Fatemi sapere.
Grazie

Re: Eliminare righe duplicate da un file di testo

Inviato: ven dic 11, 2015 2:02 pm
da crazy.cat
Grazie Excel mi sei proprio inutile:
In Excel non è possibile superare il limite di 1.048.576 righe e 16.384 colonne.

Io supero i due milioni di righe...

Re: Eliminare righe duplicate da un file di testo

Inviato: ven dic 11, 2015 2:45 pm
da hashcat
Mi ricordo che, quando mi occupavo ogni tanto di recupero password, utilizzavo (tra gli altri) uno strumento abbastanza intuitivo per effettuare varie manipolazioni alle wordlist: LINK
Purtroppo non ricordo bene se effettivamente fa ciò che chiedi, probabilmente si.

;)

Re: Eliminare righe duplicate da un file di testo

Inviato: ven dic 11, 2015 3:56 pm
da PippoDJ
Due Mega righe sono tantine, ma ti consiglierei di provare con editor di testo "evoluti".
  • Notepad ++
    Richiede l'installazione del plugin TextFX [Plugin > Plugin Manager > Show Plugin Manager > Available > TextFX Characters].
    Poi: TextFX > TextFX Tools > Sort lines case sensitive (at column) assicurandosi che "+Sort outputs only UNIQUE" sia selezionato.
    Immagine
  • PSPad
    Ancora più semplice: Modifica > Ordina testo... > Elimina duplicati > OK.
    Immagine
  • TextPad
    Molto simile: Strumenti > Ordina... > Elimina duplicati > OK.
    Immagine
(dei tre il mio preferito è PSPad)
crazy.cat ha scritto:avevo trovato un programmino che mi sembrava funzionare ma alla fine toglieva tutte le due/tre/quattro righe ripetute, io volevo che me lasciasse almeno una
Se ti riferisci a Text Deduplicator Plus (di cui avevi iniziato la recensione), non ho riscontrato lo stesso problema: forse non ce la fa a gestire due milioni di righe (io l'ho provato con quattordici :fiu ).

Re: Eliminare righe duplicate da un file di testo

Inviato: ven dic 11, 2015 4:49 pm
da crazy.cat
PippoDJ ha scritto:Due Mega righe sono tantine, ma ti consiglierei di provare con editor di testo "evoluti".
Se ti dicessi che sono arrivato a 3mega...parole italiane e inglesi. Direi che mi fermo qui.
PippoDJ ha scritto:non ho riscontrato lo stesso problema: forse non ce la fa a gestire due milioni di righe (io l'ho provato con quattordici :fiu ).
L'avevo anche finita se per quello, ma è stata rimossa visto che non funziona come voglio io.
[*]PSPad
Ancora più semplice: Modifica > Ordina testo... > Elimina duplicati > OK.
Immagine
Carinissimo sembra esserci riuscito. Domani ci riguardo meglio.

Grazie, sei sempre prezioso.
Immagine

Re: Eliminare righe duplicate da un file di testo

Inviato: ven dic 11, 2015 5:21 pm
da PippoDJ
:approvo

A titolo di curiosità: spulciando tra i comandi di PowerShell mi sono imbattuto in Sort-Object che ha anche l'opzione -unique.
Per cui dovrebbe essere possibile rimuovere le righe doppie da un documento di testo anche senza installare nessun software specifico:

Codice: Seleziona tutto

PS C:\> Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Chissà se funziona anche con 3 Mega righe... :mrgreen:

I fortunati utilizzatori di Linux, invece, dovrebbero cavarsela con un disarmante:

Codice: Seleziona tutto

sort -u input.txt -o output.txt

Re: Eliminare righe duplicate da un file di testo

Inviato: sab dic 12, 2015 6:01 am
da crazy.cat
PippoDJ ha scritto:A titolo di curiosità: spulciando tra i comandi di PowerShell mi sono imbattuto in Sort-Object che ha anche l'opzione -unique.
Per cui dovrebbe essere possibile rimuovere le righe doppie da un documento di testo anche senza installare nessun software specifico:

Codice: Seleziona tutto

PS C:\> Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Sembra di no, ma non dovrebbe dipendere dal file:

Codice: Seleziona tutto

Get-Process : Impossibile trovare un parametro posizionale che accetta l'argomento 'Get-Content'.
In riga:1 car:1
+ PS c:\> Get-Content test.txt | Sort-Object -unique | Set-Content output.txt
+ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidArgument: (:) [Get-Process], ParameterBindingException
    + FullyQualifiedErrorId : PositionalParameterNotFound,Microsoft.PowerShell.Commands.GetProcessCommand
Ho riprovato con Text Deduplicator Plus ma ha tolto oltre 100.000 righe in più rispetto a pspad. Ritengo il numero di pspad più attendibile, avevo verificato con altro programma i duplicati presenti.

Re: Eliminare righe duplicate da un file di testo

Inviato: sab dic 12, 2015 12:31 pm
da PippoDJ
crazy.cat ha scritto:
PippoDJ ha scritto:

Codice: Seleziona tutto

PS C:\> Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Sembra di no, ma non dovrebbe dipendere dal file
Scusa crazy.cat, errore mio :acch, ho copiato per sbaglio anche il prompt di PowerShell.
Il comando giusto è:

Codice: Seleziona tutto

Get-Content input.txt | Sort-Object -unique | Set-Content output.txt
Ho riprovato con Text Deduplicator Plus ma ha tolto oltre 100.000 righe in più rispetto a pspad. Ritengo il numero di pspad più attendibile, avevo verificato con altro programma i duplicati presenti.
Text Deduplicator non fa distinzione tra maiuscole e minuscole (e non ha un'impostazione per cambiare questo comportamento). Cosa probabilmente indesiderabile se si cerca di eliminare i duplicati da un file di password.

A questo proposito, il comando PowerShell visto sopra, sarebbe meglio così:

Codice: Seleziona tutto

Get-Content input.txt | Sort-Object -unique -casesensitive | Set-Content output.txt

Re: Eliminare righe duplicate da un file di testo

Inviato: sab dic 12, 2015 1:05 pm
da crazy.cat
PippoDJ ha scritto:Scusa crazy.cat, errore mio :acch, ho copiato per sbaglio anche il prompt di PowerShell.
E' vero, potevo anche accorgermene, ma era mattina presto e dormivo ancora.

Ma che "delicato" che è anche powershell, mi va in crisi "solo" con un paio di milioni di righe di testo.
Immagine

Adesso alleggerisco il file di testo giusto per capire se funziona bene.
Ok, confermo che funziona veloce con meno righe, magari in un giorno o due avrebbe fatto anche con l'altro file più grande.

Re: Eliminare righe duplicate da un file di testo

Inviato: sab dic 12, 2015 4:28 pm
da crazy.cat
PippoDJ ha scritto:....
Spero che non ti dispiaccia se ti ho inserito come co-autore :grazie
https://turbolab.it/manutenzione-156/co ... to-txt-792

Re: Eliminare righe duplicate da un file di testo

Inviato: sab dic 12, 2015 10:27 pm
da CUB3
PippoDJ ha scritto:I fortunati utilizzatori di Linux, invece, dovrebbero cavarsela con un disarmante:

Codice: Seleziona tutto

sort -u input.txt -o output.txt
:bisbiglio È anche per questo che nelle mie installazioni di Windows non manca mai Cygwin. :)

Re: Eliminare righe duplicate da un file di testo

Inviato: sab dic 12, 2015 11:49 pm
da PippoDJ
crazy.cat ha scritto:
PippoDJ ha scritto:....
Spero che non ti dispiaccia se ti ho inserito come co-autore :grazie
https://turbolab.it/manutenzione-156/co ... to-txt-792
Scherzi? Per me è un onore! :ballo2