Stavo provando i programmi per scoprire le password degli archivi zip e rar, volevo creare un dizionario di parole in formato txt da allegare all'articolo, il problema è che il file supera già i 28 Mega e molte righe sono duplicate.
Volevo trovare il modo di togliere i doppioni, avevo trovato un programmino che mi sembrava funzionare ma alla fine toglieva tutte le due/tre/quattro righe ripetute, io volevo che me lasciasse almeno una.
Come posso farlo?
Avevo trovato delle indicazioni che si poteva farlo con Word ma non sono riuscito a capire dove sia in word 2013.
Fatemi sapere.
Grazie
Re: Eliminare righe duplicate da un file di testo
Inviato: ven dic 11, 2015 2:02 pm
da crazy.cat
Grazie Excel mi sei proprio inutile:
In Excel non è possibile superare il limite di 1.048.576 righe e 16.384 colonne.
Io supero i due milioni di righe...
Re: Eliminare righe duplicate da un file di testo
Inviato: ven dic 11, 2015 2:45 pm
da hashcat
Mi ricordo che, quando mi occupavo ogni tanto di recupero password, utilizzavo (tra gli altri) uno strumento abbastanza intuitivo per effettuare varie manipolazioni alle wordlist: LINK
Purtroppo non ricordo bene se effettivamente fa ciò che chiedi, probabilmente si.
Re: Eliminare righe duplicate da un file di testo
Inviato: ven dic 11, 2015 3:56 pm
da PippoDJ
Due Mega righe sono tantine, ma ti consiglierei di provare con editor di testo "evoluti".
Notepad ++
Richiede l'installazione del plugin TextFX [Plugin > Plugin Manager > Show Plugin Manager > Available > TextFX Characters].
Poi: TextFX > TextFX Tools > Sort lines case sensitive (at column) assicurandosi che "+Sort outputs only UNIQUE" sia selezionato.
PSPad
Ancora più semplice: Modifica > Ordina testo... > Elimina duplicati > OK.
TextPad
Molto simile: Strumenti > Ordina... > Elimina duplicati > OK.
(dei tre il mio preferito è PSPad)
crazy.cat ha scritto:avevo trovato un programmino che mi sembrava funzionare ma alla fine toglieva tutte le due/tre/quattro righe ripetute, io volevo che me lasciasse almeno una
Se ti riferisci a Text Deduplicator Plus (di cui avevi iniziato la recensione), non ho riscontrato lo stesso problema: forse non ce la fa a gestire due milioni di righe (io l'ho provato con quattordici ).
Re: Eliminare righe duplicate da un file di testo
Inviato: ven dic 11, 2015 4:49 pm
da crazy.cat
PippoDJ ha scritto:Due Mega righe sono tantine, ma ti consiglierei di provare con editor di testo "evoluti".
Se ti dicessi che sono arrivato a 3mega...parole italiane e inglesi. Direi che mi fermo qui.
PippoDJ ha scritto:non ho riscontrato lo stesso problema: forse non ce la fa a gestire due milioni di righe (io l'ho provato con quattordici ).
L'avevo anche finita se per quello, ma è stata rimossa visto che non funziona come voglio io.
[*]PSPad
Ancora più semplice: Modifica > Ordina testo... > Elimina duplicati > OK.
Carinissimo sembra esserci riuscito. Domani ci riguardo meglio.
Grazie, sei sempre prezioso.
Re: Eliminare righe duplicate da un file di testo
Inviato: ven dic 11, 2015 5:21 pm
da PippoDJ
A titolo di curiosità: spulciando tra i comandi di PowerShell mi sono imbattuto in Sort-Object che ha anche l'opzione -unique.
Per cui dovrebbe essere possibile rimuovere le righe doppie da un documento di testo anche senza installare nessun software specifico:
PippoDJ ha scritto:A titolo di curiosità: spulciando tra i comandi di PowerShell mi sono imbattuto in Sort-Object che ha anche l'opzione -unique.
Per cui dovrebbe essere possibile rimuovere le righe doppie da un documento di testo anche senza installare nessun software specifico:
Ho riprovato con Text Deduplicator Plus ma ha tolto oltre 100.000 righe in più rispetto a pspad. Ritengo il numero di pspad più attendibile, avevo verificato con altro programma i duplicati presenti.
Ho riprovato con Text Deduplicator Plus ma ha tolto oltre 100.000 righe in più rispetto a pspad. Ritengo il numero di pspad più attendibile, avevo verificato con altro programma i duplicati presenti.
Text Deduplicator non fa distinzione tra maiuscole e minuscole (e non ha un'impostazione per cambiare questo comportamento). Cosa probabilmente indesiderabile se si cerca di eliminare i duplicati da un file di password.
A questo proposito, il comando PowerShell visto sopra, sarebbe meglio così:
PippoDJ ha scritto:Scusa crazy.cat, errore mio , ho copiato per sbaglio anche il prompt di PowerShell.
E' vero, potevo anche accorgermene, ma era mattina presto e dormivo ancora.
Ma che "delicato" che è anche powershell, mi va in crisi "solo" con un paio di milioni di righe di testo.
Adesso alleggerisco il file di testo giusto per capire se funziona bene.
Ok, confermo che funziona veloce con meno righe, magari in un giorno o due avrebbe fatto anche con l'altro file più grande.