Recientemente, tuve que restaurar mi portátil a sus valores de fábrica, lo que implicaba una instalación desde cero de Windows 10. No es que tuviera ningún problema, pero quería era instalar Kali Linux, para practicar algunos temas de la oposición y para adquirir más practica con dicho sistema operativo.
Antes de borrarlo todo, hice una copia de seguridad de mis incontables enlaces en los distintos navegadores que tenía instalados, lo que dio lugar a cinco archivos HTML con sus correspondientes listados.
Con Windows ya plenamente operativo, me vi en la necesidad de categorizar dichos enlaces, dándose la casuística de que había enlaces duplicados o triplicados, pues se daba la circunstancia de que había visitado tal o cual página en distintos navegadores. Además, quería ir borrando los enlaces a medida que los fuera catalogando. ¿Cómo hacerlo?
Para empezar, tenía que encontrar la forma de extraer los enlaces de un archivo HTML. No tardé mucho en toparme con un artículo muy interesante en el que, con solo unas líneas de código en la consola del navegador, podía hacerlo.
Con la página que contiene los enlaces abierta, pulsamos Ctrl+Shift+C para abrir la consola y ejecutamos el siguiente código:
var x = document.querySelectorAll("a");
var myarray = []
for (var i=0; i<x.length; i++){
var nametext = x[i].textContent;
var cleantext = nametext.replace(/\s+/g, ' ').trim();
var cleanlink = x[i].href;
myarray.push([cleantext,cleanlink]);
};
function make_table() {
var table = '<table><thead><th>Name</th><th>Links</th></thead><tbody>';
for (var i=0; i<myarray.length; i++) {
table += '<tr><td>'+ myarray[i][0] + '</td><td>'+myarray[i][1]+'</td></tr>';
};
var w = window.open("");
w.document.write(table);
}
make_table()
Da como resultado una página nueva con una tabla con los enlaces y su nombre correspondiente, que luego podremos copiar a Calc.
Ahora quedaba el tema de eliminar los datos iguales de una forma rápida y sencilla. Excel tiene una función específica para ello, pero con Calc habrá que hacer alguna operación más.
Deberemos ir a Datos → Filtro → Filtro estándar. En Condición seleccionamos “No contiene” y en Valor ponemos #!@^#! En las opciones, Opciones deberemos marcar “Sin duplicados“. Tras aceptar, podremos ver los datos sin duplicados. Pero ojo que esto no los elimina, solo los oculta. Para ello, deberemos copiar los datos visibles y pegarlos en una hoja nueva, ya libre de duplicados.
No hay comentarios:
Publicar un comentario
Comenta lo que quieras