Derecho al olvido en webs administración y transparencia
Revisado 11 febrero 2019
https://twitter.com/CdelCastilloM/status/990573386559643649
El Gobierno dice que no tiene estadísticas sobre cuántas de las páginas que ha desindexado del BOE contenían indultos, condenas por corrupción o simples multas
Se enlaza un artículo, que a su vez enlaza o me lleva a ver otros (pongo orden cronológico inverso)
28 abril 2018
El Gobierno ha desindexado ya 872 páginas del BOE y dice no guardar datos de qué contienen
Se trata de publicaciones oficiales sobre las que "interesados" han elevado solicitudes para que desaparezcan de buscadores como Google
El Gobierno es el encargado de decidir en primera instancia, sin intervención judicial, si atiende este derecho al olvido por encima del interés público
El Ejecutivo afirma no disponer de estadísticas sobre cuántas de esas páginas desindexadas contenían indultos, condenas por corrupción o simples multas
https://www.eldiario.es/tecnologia/paginas-BOE-desindexadas-Gobierno-referencias_0_765373709.html
7 marzo 2018
El BOE, entre las páginas oficiales más desindexadas por Google por el derecho al olvido de toda Europa
El Boletín Oficial del Estado es la página española contra la que más peticiones se han realizado en los tres años de vida de este derecho, con más de 4.000
Los expertos coinciden en que la regulación del olvido sigue siendo "demasiado vaga" y pone en riesgo la libertad de información
El gran número de litigios ha generado una industria legal en torno al olvido: el 0,25% de reclamantes son responsables del 20,5% de urls desindexadas
https://www.eldiario.es/tecnologia/BOE-oficiales-Europa-desindexadas-Google_0_747525611.html
20 julio 2017
Derecho al olvido: por qué Google ya no avisa a nadie cuando borra enlaces
Hace 10 meses que el buscador dejó de avisar a medios de comunicación y otras páginas web cuando retiraba un enlace
Google, que suma más de 180.000 peticiones para desindexar contenidos desde 2014 decide cada caso manualmente
https://www.eldiario.es/tecnologia/Derecho-olvido-Google-avisa-enlaces_0_665984060.html
Tras ver ese tuit comento ideas
https://twitter.com/FiQuiPedia/status/990587876365733889
Brutal. Veo dos ideas:
-Citerios para tener derecho a olvido en @boegob, que deben estar definidos por escrito/no ser arbitrarios, deberían exigirse vía @transparencia_e y @ConsejoTBG
-Que periodistas conozcan y analicen ese http://www.boe.es/robots.txt
cc @evabelmonte @civio
y al poco me surge otra idea
otra idea: automatizar proceso de esas urls, descargar y buscar en texto (tras OCR si hace falta) ciertos patrones: indult*, sanc*, inhabilita*, suspen* ... cc @jagedn
Como soy funcionario de carrera mi nombre y DNI está en BOE; considero que el que aparezca nombre y DNI debe ser algo suficientemente relevante como para que quede constancia. Aunque sea algo negativo (morosidad, inhabilitación, ...) no va a dejar de estar ahí, y hacer que los buscadores escondan cierta información me parece bastante peligroso.
Menos mal que el robots.txt es público...
Como buen friki, acordarme de esto que me enviaron, donde aprovechando que robots.txt es público y puede ser consultado, se usa para hacer publicidad :-)
https://www.bancosantander.es/robots.txt
Lo primero de 1967 es una libertad condicional
Lo último de enero 2018 es "Que el deudor ha sido suspendido en el ejercicio de las facultades de administración y disposición de su patrimonio, siendo sustituído por la administración concursal."
Pero me surge mirar más
http://www.bocm.es/robots.txt 3326 líneas Disallow
http://www.madrid.org/robots.txt 426 líneas Disallow
http://www.asambleamadrid.es/robots.txt 6 líneas Disallow
http://www.educamadrid.org/robots.txt tiene solamente 1 línea sobre /binary/
http://educa.madrid.org/robots.txt no tiene
http://www.congreso.es/robots.txt tiene 38 líneas Disallow
http://www.senado.es/robots.txt tiene 28 líneas Disallow
http://www.mecd.gob.es/robots.txt tiene 9 líneas Disallow
Citándose el currículum y estando tan reciente lo de Cifuentes no puede evitar probar esas url, pero no funcionan.
Tras buscar un poco friki, detecto que han cambiado la url
-Ahora es "IdDip" y no "ID"-"curriculum" lleva al currículum, pero usando "cu33icu1um" lleva a ficha con más datos
Si miro cada uno de los dos valores de ID
ID 199
http://www.asambleamadrid.es/ES/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?Iddip=199
Ilmo. Sr. D. Borja Sarasola Jáudenes
Diputado de la Asamblea de Madrid en la VI , VII , VIII , IX y X Legislatura
Grupo Parlamentario Popular
Fecha y Lugar de Nacimiento : Madrid, 21 de agosto de 1976
Licenciado en Derecho. Executive MBA por el Instituto de Empresa (IE). Diploma de esturdios avanzados en Derecho por la U.C.M. doctorando. Especialista en Derechos Humanos por el Instituto de Derechos Humanos de U.C.M. PLGP por el IESE. Consejero de Medio Ambiente y Ordenación del Territorio de la Comunidad de Madrid.
Usando el buscador no aparece el enlace a la asamblea, pero sí otras cosas: enlace a Twitter https://twitter.com/borjasarasola y a Wikipedia https://es.wikipedia.org/wiki/Borja_Sarasola
Dejó la Asamblea en 2015 para dedicarse a la abogacía privada.
¿qué sentido tiene desindexar esa página mientras la página de Wikipedia mantiene la información?
Asumo que tiene que ver esto
OPERACIÓN PÚNICA
El juez de la Púnica imputó a un diputado que iba en las listas de Cifuentes
El magistrado llamó a declarar a Borja Sarasola, número 12 en la lista del PP que renunció a su acta, para después desconvocarle por su aforamiento
http://cadenaser.com/emisora/2015/07/27/radio_madrid/1438016816_130801.html
Su primera citación como imputado, a la que ha tenido acceso la SER, consta el 26 de mayo: “Se señala para el día 15 de junio de 2015, a las 1 0:00 horas recibir declaración en calidad de imputado a Borja Sarasola Jáudenes”. Fue poco después, el tres de junio, cuando el mismo juez Eloy Velasco emitió un auto desconvocando la declaración después de haber sido nombrado diputado: “Habiendo sido nombrado parlamentario Borja Sarasola Jáudenes, y por lo tanto teniendo fuero, se deja sin efecto el señalamiento previsto para el día 15 de julio de 2015”.
En el momento actual, Sarasola no es diputado y por tanto tampoco aforado ante el Tribunal Superior de Justicia de Madrid.
ID 1193
http://www.asambleamadrid.es/ES/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?Iddip=1193
Ilma. Sra. Dª Carmen Roney Albareda
Diputada de la Asamblea de Madrid en la I Legislatura
Grupo Parlamentario Comunista - Comunidad de Madrid
Fecha y Lugar de Nacimiento : Madrid, 30 de noviembre de 1948
Estudió, sin concluir, la carrera de Geografía e Historia.
Comenzo a trabajar como empleada de Banca, excedente en la actualidad. Miembro del Comité Central del Partido Comunista de España (PCE), ostentando la responsabilidad de la Comisión de la Mujer. Miembro del Comité Regional del PCE de Madrid.
La información de asamblea sí aparece vía buscadores buscando por su nombre!?
Parece que el motivo es que también se dedica a la empresa privada
https://guiaempresas.universia.es/RONEY-ALBAREDA-CARMEN.html
En fin, viendo esos dos casos no puedo evitar pensar en este chiste
-En qué trabaja tu papá Juanito??
-Mi papá es abogado señorita
-Y tú Anita en qué trabaja tu papá?
-Mi papa trabaja en un hospital es médico señorita
-Y tú Jaimito en qué trabaja tu papá??? .
-Mi papa trabaja en un bar es gay y sale haciendo una escena de striper y baila casi desnudo en el tubo, entonces los clientes le ponen billetes en el hilo dental y a la salida del trabajo se va con algún cliente con una limusina y regresa a casa a los dos o tres días…
La profesora les dice a los alumnos que se vayan al recreo menos a Jaimito… y le dice..
– Jaimito, ¿en serio tu papá se dedica a eso?
– No señorita mi papá es político y me dio vergüenza decirlo
Busco al azar alguno que tenga "oposicion", y me encuentro esto
http://www.madrid.org/cs/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=filename%3DListado+aprobados+oposicion.pdf&blobkey=id&blobtable=MungoBlobs&blobwhere=1352862944250&ssbinary=true
TRIBUNAL CALIFICADOR DE LAS PRUEBAS SELECTIVAS DE PROMOCIÓN
INTERNA PARA EL INGRESO EN EL CUERPO DE BOMBEROS DE LA COMUNIDAD DE MADRID, ESCALA EJECUTIVA U OPERATIVA, CATEGORÍA DE BOMBERO ESPECIALISTA (GRUPO C, SUBGRUPO C1), CONVOCADAS MEDIANTE ORDEN 3171/2013 DE 7 DE NOVIEMBRE, DE LA CONSEJERÍA DE PRESIDENCIA, JUSTICIA Y PORTAVOCÍA DEL GOBIERNO (B.O.C.M DE 11 DE NOVIEMBRE DE 2013)
http://www.madrid.org/cs/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=filename%3DMod.Nomb.F.Pr%C3%A1cticas+y+AptosF.Pr%C3%A1cticas-133702.pdf&blobkey=id&blobtable=MungoBlobs&blobwhere=1202802624463&ssbinary=true
¿por qué no indexar algo sobre un procedimiento público / algo que está en BOCM!?
Otros ejemplos
http://www.madrid.org/gema/
http://www.madrid.org/dat_sur/site/directores14/citacion_CEIP_Aula_III_fuenlabrada.pdf
El Senado oculta a Google información sobre sus señorías
El uso de instrucciones a los motores de búsqueda de su página web evita que aparezcan datos internos de las fichas de los senadores, entre otros vetos
https://civio.es/quien-manda/2015/12/09/el-senado-oculta-a-google-informacion-sobre-sus-senorias/
http://www.agpd.es/portalwebAGPD/CanalDelCiudadano/derecho_olvido/index-ides-idphp.php
Hay resoluciones estimatorias, desestimatorias, y apartado "Más informaciń"
https://twitter.com/jagedn/status/991385831570014208
repositorio disponible por si alguien quiere echarle un rato
https://jorge-aguilera.gitlab.io/elastic-boe/
Aunque mi idea era otra: me interesa más procesar lo que diga el robots.txt que lo buscar sobre pdfs en concreto
https://twitter.com/FiQuiPedia/status/991225353304793088
Mi idea era procesar de un tirón todas las líneas. Usando como argumentos url y patrones: wget robots.txt, buscar pdfs, construir urls pdfs, wget pdfs, pdftotext/ocrmypdf, grep patrones Si tengo tiempo lo intento :-)
Hago algo cutre y rápido, un script "DescargarPdfsRobots.sh"
#!/bin/bash
#wget "$1"/robots.txt
#No se coge el mismo robots.txt que con navegador ¿usa user-agent?
grep pdf robots.txt > pdfsEnRobots.txt
while IFS='' read -r line || [[ -n "$line" ]]; do
echo "$line"
url="$1"$(echo "$line" | sed 's/Disallow: //g')
echo "$url"
wget "$url"
done < "./pdfsEnRobots.txt"
Ejecuto tras descargarme manualmente el robots.txt (vía wget veo que no es completo)
DescargarPdfsRobots.sh https://www.boe.es
Es algo aproximado y muy basto por refinar:
- hay líneas del robots que contienen * que fallan con wget
- hay líneas con PDF en mayúsculas que no se cogen con grep
- hay líneas duplicadas y se descarga varias veces el mismo fichero, porque está en varias rutas /boe/ y /datos/pdf (wget pone extensiones pdf.1, pdf.2 ...)
- hay ficheros con el mismo nombre que se repiten, aunque son de fechas distintas, por ejemplo SUM.pdf
El fichero pdfsEnRobots.txt tiene 5839 líneas, pero se descargan (ls -l *.pdf* | wc -l) 3933 ficheros
Borro a mano los ficheros de extensión .1, .2 ...., y .7 no asociados a SUM (nombre termina en número)
rm *[0-9].pdf.[1-7]
Son unos cuantos (antes ls -l *[0-9].pdf.[1-7]|wc -l da 1797
Tras eso ls -l *[0-9].pdf | wc -l da 2134
Muevo el único SUM.pdf.1 a SUMbis.pdf
Paso todo a txt
for i in *.pdf ; do pdftotext $i; done
Tras eso, pruebo
grep indult *.txt
y el resultado no lo puedo poner aquí por LOPD, pero voy a poner cadenas concretas que aparecen (aparte de numerosos errores en OCR que hace que las cadenas con coincidan siempre)
Visto el expediente de indulto
se indulta a
Vengo en indultar a
se indulta parcialmente a
Sí que puedo poner que
grep "indult" *.txt | wc -l
indica 9854 líneas. Es cierto que hay duplicados, pero es voluminoso
Puede parecer que no cuadra porque el indultómetro desde 1996 tiene más casos de indultos: pero esto está mirando solamente en lo desindexado en robots.txt, no en todos los indultos de BOE. https://civio.es/el-indultometro/buscador-de-indultos/
grep "indulta a" *.txt | wc -l
indica 4184 líneas.
grep "indulta parcialmente a" *.txt | wc -l
indica 333 líneas.
Ejemplo (sin datos que violen LOPD)
BOE-S-1994-52.txt:Real Decreto 169/1994, de 4 de febrero, por el qne se indulta
BOE-S-1994-52.txt:Real Decreto 171/1994, de 4 de febrero, por el que SI:" indulta
BOE-S-1994-52.txt:Real Decr€to 172/1994, de 4 de febrero, por f.l qu:: se indults.
BOE-S-1994-52.txt:Real Derreto 173/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:neal Decreto 174/1994, de 4 d(' febrero, por el que &e indulta
BOE-S-1994-52.txt:Real Decreto 175/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 176/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 177/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 178/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 179/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 180/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 181/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 182/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 183/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 184/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 185/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 186/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 188/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:"Real Decreto 189/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 190/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 191/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 192/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 193/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 194/1994, de 4 de febrero, por-el que se indulta
BOE-S-1994-52.txt:Real Decreto 195/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 167/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 166/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 196/1994, de 4 de febrero. por f'l que se indulta
BOE-S-1994-52.txt:Real Decreto 197/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 198/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 199/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 200/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 201/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 202/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 203/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 204/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 205/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 206/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 207/1994, de 4 de fehrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 208jl994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 209/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 210/1994, de 4 dE' febrero, por el que se indulta
También valido que con esas cadenas sí funciona el buscador del propio BOE: aunque BOE desindexe para google, sí permite búsquedas en
https://www.boe.es/buscar/boe.php
Otras pruebas
grep "inhabilit" *.txt | wc -l
845
grep "sanc" *.txt | wc -l
2294
grep "suspens" *.txt | wc -l
1464
grep "prisi" *.txt | wc -l
2877
grep "malver" *.txt | wc -l
57
grep "prevaric" *.txt | wc -l
4
grep "fraud" *.txt | wc -l
52
grep "cohecho" *.txt | wc -l
11
Y para terminar la procrastinación partiendo de la frase del artículo inicial
"El Ejecutivo afirma no disponer de estadísticas sobre cuántas de esas páginas desindexadas contenían indultos..."
Busco cuantos ficheros contienen "indult"
grep -l "indult" *.txt | wc -l
611
Sobre 2134 ficheros pdf, supone aproximadamente el 30%
Revisar y procesar otros robots.txt
Buscar robots.txt en otras páginas
Ver contenidos y pensar si han podido ser editados, comparando con https://archive.org/
Enlaza con la muerte digital, derecho a privacidad tras la muerte
http://www.derechoalolvido.eu/el-derecho-a-la-muerte-digital/
http://www.lavanguardia.com/vida/20160229/4085405270/francia-regula-tratamiento-post-mortem-datos-internet.html
http://www.lasexta.com/tecnologia-tecnoxplora/internet/muerte-tambien-esta-presente-red_2013111857f77e0c0cf2a2e945b3aa41.html
Y relacionado, pero con muerte no digital sino física y acceso a información digital
La policía se presenta en un funeral para desbloquear el móvil del muerto con su dedo
El hombre fue abatido por una agente de la policía de Largo (Florida) mientras intentaba escapar de un registro
http://cadenaser.com/ser/2018/04/23/internacional/1524466095_387898.html
Mientras tanto, los agentes argumentan que no se les pasó la cabeza en ningún momento obtener una orden puesto que las personas fallecidas no poseen "derecho a la privacidad".
Mirar temas relacionados, empresas que surgen asociadas...
http://www.borrame.es/
Enlazar con tema de "limpieza de búsquedas en Internet" que se hacían pagadas en Púnica
26 junio 2018
DERECHO AL OLVIDO
Insólito límite del Constitucional a la libertad de información: ordena capar una búsqueda en una hemeroteca por el 'derecho al olvido'
Establece que un diario ha de restringir la búsqueda en su propio archivo web de una información de los años ochenta sobre una redada contra el tráfico de drogas en la que, según la propia sentencia, "se hallaba implicado el familiar de un destacado cargo público y otros miembros de la clase alta vinculada a dos nombres".
http://m.publico.es/sociedad/2049921/insolito-limite-del-constitucional-a-la-libertad-de-informacion-ordena-capar-una-busqueda-en-una-hemeroteca-por-el-derecho-al-olvido/amp
19 diciembre 2018
https://twitter.com/CdelCastilloM/status/1074975908019273733
Cuando se creó el derecho al olvido muchos juristas avisaron: habrá miles de intentos de que se amplíe su alcance para poder diseñar un pasado a la medida. Pues ya estamos ahí. El Supremo decidirá si el olvido debe aplicarse a una noticia absolutamente veraz, pero anticuada
https://twitter.com/eldiariotec/status/1074974248278650881
Una interpretación ampliada del derecho al olvido llega al Supremo: ¿debe ocultar Google el contenido inexacto de Internet?
7 febrero 2019
Si existe un Derecho al Olvido, ¿hay un Deber de Olvidar?
https://amp.lainformacion.com/opinion/borja-adsuara/si-existe-un-derecho-al-olvido-hay-un-deber-de-olvidar/6491893
Resumen
Existe una normativa que permite el derecho al olvido, pero su aplicación en web de la administración como el BOE creo que debe ser totalmente transparente. Intento aportar información y mirar datos.Detalles
Esto surge tras ver este tuithttps://twitter.com/CdelCastilloM/status/990573386559643649
El Gobierno dice que no tiene estadísticas sobre cuántas de las páginas que ha desindexado del BOE contenían indultos, condenas por corrupción o simples multas
Se enlaza un artículo, que a su vez enlaza o me lleva a ver otros (pongo orden cronológico inverso)
28 abril 2018
El Gobierno ha desindexado ya 872 páginas del BOE y dice no guardar datos de qué contienen
Se trata de publicaciones oficiales sobre las que "interesados" han elevado solicitudes para que desaparezcan de buscadores como Google
El Gobierno es el encargado de decidir en primera instancia, sin intervención judicial, si atiende este derecho al olvido por encima del interés público
El Ejecutivo afirma no disponer de estadísticas sobre cuántas de esas páginas desindexadas contenían indultos, condenas por corrupción o simples multas
https://www.eldiario.es/tecnologia/paginas-BOE-desindexadas-Gobierno-referencias_0_765373709.html
7 marzo 2018
El BOE, entre las páginas oficiales más desindexadas por Google por el derecho al olvido de toda Europa
El Boletín Oficial del Estado es la página española contra la que más peticiones se han realizado en los tres años de vida de este derecho, con más de 4.000
Los expertos coinciden en que la regulación del olvido sigue siendo "demasiado vaga" y pone en riesgo la libertad de información
El gran número de litigios ha generado una industria legal en torno al olvido: el 0,25% de reclamantes son responsables del 20,5% de urls desindexadas
https://www.eldiario.es/tecnologia/BOE-oficiales-Europa-desindexadas-Google_0_747525611.html
20 julio 2017
Derecho al olvido: por qué Google ya no avisa a nadie cuando borra enlaces
Hace 10 meses que el buscador dejó de avisar a medios de comunicación y otras páginas web cuando retiraba un enlace
Google, que suma más de 180.000 peticiones para desindexar contenidos desde 2014 decide cada caso manualmente
https://www.eldiario.es/tecnologia/Derecho-olvido-Google-avisa-enlaces_0_665984060.html
Tras ver ese tuit comento ideas
https://twitter.com/FiQuiPedia/status/990587876365733889
Brutal. Veo dos ideas:
-Citerios para tener derecho a olvido en @boegob, que deben estar definidos por escrito/no ser arbitrarios, deberían exigirse vía @transparencia_e y @ConsejoTBG
-Que periodistas conozcan y analicen ese http://www.boe.es/robots.txt
cc @evabelmonte @civio
y al poco me surge otra idea
otra idea: automatizar proceso de esas urls, descargar y buscar en texto (tras OCR si hace falta) ciertos patrones: indult*, sanc*, inhabilita*, suspen* ... cc @jagedn
Como soy funcionario de carrera mi nombre y DNI está en BOE; considero que el que aparezca nombre y DNI debe ser algo suficientemente relevante como para que quede constancia. Aunque sea algo negativo (morosidad, inhabilitación, ...) no va a dejar de estar ahí, y hacer que los buscadores escondan cierta información me parece bastante peligroso.
Menos mal que el robots.txt es público...
Como buen friki, acordarme de esto que me enviaron, donde aprovechando que robots.txt es público y puede ser consultado, se usa para hacer publicidad :-)
https://www.bancosantander.es/robots.txt
# ¡Hola! Si estás viendo el robots.txt de www.bancosantander.es seguramente te dediques al mundo del SEO y estés trabajando :) # Por eso queremos aprovechar para recordarte que con la Cuenta 1|2|3 tienes hasta un 3% de remuneración en tus ahorros y recibos.
Análisis robots.txt
Me pongo a mirar por curiosidad http://boe.es/robots.txt: qué es lo primero y lo último que aparece en robots.txt de BOE asumiendo que es orden cronológicoLo primero de 1967 es una libertad condicional
Lo último de enero 2018 es "Que el deudor ha sido suspendido en el ejercicio de las facultades de administración y disposición de su patrimonio, siendo sustituído por la administración concursal."
Pero me surge mirar más
http://www.bocm.es/robots.txt 3326 líneas Disallow
http://www.madrid.org/robots.txt 426 líneas Disallow
http://www.asambleamadrid.es/robots.txt 6 líneas Disallow
http://www.educamadrid.org/robots.txt tiene solamente 1 línea sobre /binary/
http://educa.madrid.org/robots.txt no tiene
http://www.congreso.es/robots.txt tiene 38 líneas Disallow
http://www.senado.es/robots.txt tiene 28 líneas Disallow
http://www.mecd.gob.es/robots.txt tiene 9 líneas Disallow
asambleamadrid.es
Me llama la atención que haya líneas y pocas en la Assamblea, miro detalleUser-Agent: * Disallow: /_*/ Disallow: /ES/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?ID=1193 Disallow: /EN/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?ID=1193 Disallow: /RevistasAsamblea/R.19.%20Alfonso%20Arevalo%20Gutierrez.pdf Disallow: /ES/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?ID=199 Disallow: /EN/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?ID=199
Citándose el currículum y estando tan reciente lo de Cifuentes no puede evitar probar esas url, pero no funcionan.
Tras buscar un poco friki, detecto que han cambiado la url
-Ahora es "IdDip" y no "ID"-"curriculum" lleva al currículum, pero usando "cu33icu1um" lleva a ficha con más datos
Si miro cada uno de los dos valores de ID
ID 199
http://www.asambleamadrid.es/ES/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?Iddip=199
Ilmo. Sr. D. Borja Sarasola Jáudenes
Diputado de la Asamblea de Madrid en la VI , VII , VIII , IX y X Legislatura
Grupo Parlamentario Popular
Fecha y Lugar de Nacimiento : Madrid, 21 de agosto de 1976
Licenciado en Derecho. Executive MBA por el Instituto de Empresa (IE). Diploma de esturdios avanzados en Derecho por la U.C.M. doctorando. Especialista en Derechos Humanos por el Instituto de Derechos Humanos de U.C.M. PLGP por el IESE. Consejero de Medio Ambiente y Ordenación del Territorio de la Comunidad de Madrid.
Usando el buscador no aparece el enlace a la asamblea, pero sí otras cosas: enlace a Twitter https://twitter.com/borjasarasola y a Wikipedia https://es.wikipedia.org/wiki/Borja_Sarasola
Dejó la Asamblea en 2015 para dedicarse a la abogacía privada.
¿qué sentido tiene desindexar esa página mientras la página de Wikipedia mantiene la información?
Asumo que tiene que ver esto
OPERACIÓN PÚNICA
El juez de la Púnica imputó a un diputado que iba en las listas de Cifuentes
El magistrado llamó a declarar a Borja Sarasola, número 12 en la lista del PP que renunció a su acta, para después desconvocarle por su aforamiento
http://cadenaser.com/emisora/2015/07/27/radio_madrid/1438016816_130801.html
Su primera citación como imputado, a la que ha tenido acceso la SER, consta el 26 de mayo: “Se señala para el día 15 de junio de 2015, a las 1 0:00 horas recibir declaración en calidad de imputado a Borja Sarasola Jáudenes”. Fue poco después, el tres de junio, cuando el mismo juez Eloy Velasco emitió un auto desconvocando la declaración después de haber sido nombrado diputado: “Habiendo sido nombrado parlamentario Borja Sarasola Jáudenes, y por lo tanto teniendo fuero, se deja sin efecto el señalamiento previsto para el día 15 de julio de 2015”.
En el momento actual, Sarasola no es diputado y por tanto tampoco aforado ante el Tribunal Superior de Justicia de Madrid.
ID 1193
http://www.asambleamadrid.es/ES/QueEsLaAsamblea/ComposiciondelaAsamblea/Distribuciondeescanos/Paginas/curriculum.aspx?Iddip=1193
Ilma. Sra. Dª Carmen Roney Albareda
Diputada de la Asamblea de Madrid en la I Legislatura
Grupo Parlamentario Comunista - Comunidad de Madrid
Fecha y Lugar de Nacimiento : Madrid, 30 de noviembre de 1948
Estudió, sin concluir, la carrera de Geografía e Historia.
Comenzo a trabajar como empleada de Banca, excedente en la actualidad. Miembro del Comité Central del Partido Comunista de España (PCE), ostentando la responsabilidad de la Comisión de la Mujer. Miembro del Comité Regional del PCE de Madrid.
La información de asamblea sí aparece vía buscadores buscando por su nombre!?
Parece que el motivo es que también se dedica a la empresa privada
https://guiaempresas.universia.es/RONEY-ALBAREDA-CARMEN.html
En fin, viendo esos dos casos no puedo evitar pensar en este chiste
-En qué trabaja tu papá Juanito??
-Mi papá es abogado señorita
-Y tú Anita en qué trabaja tu papá?
-Mi papa trabaja en un hospital es médico señorita
-Y tú Jaimito en qué trabaja tu papá??? .
-Mi papa trabaja en un bar es gay y sale haciendo una escena de striper y baila casi desnudo en el tubo, entonces los clientes le ponen billetes en el hilo dental y a la salida del trabajo se va con algún cliente con una limusina y regresa a casa a los dos o tres días…
La profesora les dice a los alumnos que se vayan al recreo menos a Jaimito… y le dice..
– Jaimito, ¿en serio tu papá se dedica a eso?
– No señorita mi papá es político y me dio vergüenza decirlo
madrid.org
Parece un caos, muchas urls son formato antiguo y no funcionanBusco al azar alguno que tenga "oposicion", y me encuentro esto
http://www.madrid.org/cs/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=filename%3DListado+aprobados+oposicion.pdf&blobkey=id&blobtable=MungoBlobs&blobwhere=1352862944250&ssbinary=true
TRIBUNAL CALIFICADOR DE LAS PRUEBAS SELECTIVAS DE PROMOCIÓN
INTERNA PARA EL INGRESO EN EL CUERPO DE BOMBEROS DE LA COMUNIDAD DE MADRID, ESCALA EJECUTIVA U OPERATIVA, CATEGORÍA DE BOMBERO ESPECIALISTA (GRUPO C, SUBGRUPO C1), CONVOCADAS MEDIANTE ORDEN 3171/2013 DE 7 DE NOVIEMBRE, DE LA CONSEJERÍA DE PRESIDENCIA, JUSTICIA Y PORTAVOCÍA DEL GOBIERNO (B.O.C.M DE 11 DE NOVIEMBRE DE 2013)
http://www.madrid.org/cs/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=filename%3DMod.Nomb.F.Pr%C3%A1cticas+y+AptosF.Pr%C3%A1cticas-133702.pdf&blobkey=id&blobtable=MungoBlobs&blobwhere=1202802624463&ssbinary=true
¿por qué no indexar algo sobre un procedimiento público / algo que está en BOCM!?
Otros ejemplos
http://www.madrid.org/gema/
http://www.madrid.org/dat_sur/site/directores14/citacion_CEIP_Aula_III_fuenlabrada.pdf
senado.es
9 diciembre 2015El Senado oculta a Google información sobre sus señorías
El uso de instrucciones a los motores de búsqueda de su página web evita que aparezcan datos internos de las fichas de los senadores, entre otros vetos
https://civio.es/quien-manda/2015/12/09/el-senado-oculta-a-google-informacion-sobre-sus-senorias/
Normativa e información sobre derecho al olvido
https://www.boe.es/legislacion/codigos/codigo.php?id=094_Codigo_del_Derecho__al_Olvido&modo=1http://www.agpd.es/portalwebAGPD/CanalDelCiudadano/derecho_olvido/index-ides-idphp.php
Hay resoluciones estimatorias, desestimatorias, y apartado "Más informaciń"
- Criterios comunes para la tramitación de quejas por parte de las APD (ES)
- Nota de prensa (ES)
- Criterios comunes para aplicar la sentencia sobre el 'derecho al olvido' (EN)
- Sentencia del Tribunal de Justicia de la UE, 13 mayo de 2014 -Nota de prensa AEPD-
- Sentencia de la Audiencia Nacional, 29 diciembre de 2014; SAN 5129/2014
- Información sobre solicitudes para bloquear resultados (Bing)
- Ejemplos de criterios en casos concretos y estadísticas sobre solicitudes (Google)
- Preguntas frecuentes sobre solicitudes de eliminación de contenido (Google)
- Información sobre solicitudes para bloquear resultados (Yahoo)
Procesado robots.txt
Comentado en Twitter el usuario Jorge Aguilera se lo currahttps://twitter.com/jagedn/status/991385831570014208
repositorio disponible por si alguien quiere echarle un rato
https://jorge-aguilera.gitlab.io/elastic-boe/
Aunque mi idea era otra: me interesa más procesar lo que diga el robots.txt que lo buscar sobre pdfs en concreto
https://twitter.com/FiQuiPedia/status/991225353304793088
Mi idea era procesar de un tirón todas las líneas. Usando como argumentos url y patrones: wget robots.txt, buscar pdfs, construir urls pdfs, wget pdfs, pdftotext/ocrmypdf, grep patrones Si tengo tiempo lo intento :-)
Hago algo cutre y rápido, un script "DescargarPdfsRobots.sh"
#!/bin/bash
#wget "$1"/robots.txt
#No se coge el mismo robots.txt que con navegador ¿usa user-agent?
grep pdf robots.txt > pdfsEnRobots.txt
while IFS='' read -r line || [[ -n "$line" ]]; do
echo "$line"
url="$1"$(echo "$line" | sed 's/Disallow: //g')
echo "$url"
wget "$url"
done < "./pdfsEnRobots.txt"
Ejecuto tras descargarme manualmente el robots.txt (vía wget veo que no es completo)
DescargarPdfsRobots.sh https://www.boe.es
Es algo aproximado y muy basto por refinar:
- hay líneas del robots que contienen * que fallan con wget
- hay líneas con PDF en mayúsculas que no se cogen con grep
- hay líneas duplicadas y se descarga varias veces el mismo fichero, porque está en varias rutas /boe/ y /datos/pdf (wget pone extensiones pdf.1, pdf.2 ...)
- hay ficheros con el mismo nombre que se repiten, aunque son de fechas distintas, por ejemplo SUM.pdf
El fichero pdfsEnRobots.txt tiene 5839 líneas, pero se descargan (ls -l *.pdf* | wc -l) 3933 ficheros
Borro a mano los ficheros de extensión .1, .2 ...., y .7 no asociados a SUM (nombre termina en número)
rm *[0-9].pdf.[1-7]
Son unos cuantos (antes ls -l *[0-9].pdf.[1-7]|wc -l da 1797
Tras eso ls -l *[0-9].pdf | wc -l da 2134
Muevo el único SUM.pdf.1 a SUMbis.pdf
Paso todo a txt
for i in *.pdf ; do pdftotext $i; done
Tras eso, pruebo
grep indult *.txt
y el resultado no lo puedo poner aquí por LOPD, pero voy a poner cadenas concretas que aparecen (aparte de numerosos errores en OCR que hace que las cadenas con coincidan siempre)
Visto el expediente de indulto
se indulta a
Vengo en indultar a
se indulta parcialmente a
Sí que puedo poner que
grep "indult" *.txt | wc -l
indica 9854 líneas. Es cierto que hay duplicados, pero es voluminoso
Puede parecer que no cuadra porque el indultómetro desde 1996 tiene más casos de indultos: pero esto está mirando solamente en lo desindexado en robots.txt, no en todos los indultos de BOE. https://civio.es/el-indultometro/buscador-de-indultos/
grep "indulta a" *.txt | wc -l
indica 4184 líneas.
grep "indulta parcialmente a" *.txt | wc -l
indica 333 líneas.
Ejemplo (sin datos que violen LOPD)
BOE-S-1994-52.txt:Real Decreto 169/1994, de 4 de febrero, por el qne se indulta
BOE-S-1994-52.txt:Real Decreto 171/1994, de 4 de febrero, por el que SI:" indulta
BOE-S-1994-52.txt:Real Decr€to 172/1994, de 4 de febrero, por f.l qu:: se indults.
BOE-S-1994-52.txt:Real Derreto 173/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:neal Decreto 174/1994, de 4 d(' febrero, por el que &e indulta
BOE-S-1994-52.txt:Real Decreto 175/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 176/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 177/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 178/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 179/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 180/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 181/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 182/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 183/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 184/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 185/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 186/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 188/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:"Real Decreto 189/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 190/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 191/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 192/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 193/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 194/1994, de 4 de febrero, por-el que se indulta
BOE-S-1994-52.txt:Real Decreto 195/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 167/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 166/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 196/1994, de 4 de febrero. por f'l que se indulta
BOE-S-1994-52.txt:Real Decreto 197/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 198/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 199/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 200/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 201/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 202/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 203/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 204/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 205/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 206/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 207/1994, de 4 de fehrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 208jl994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 209/1994, de 4 de febrero, por el que se indulta
BOE-S-1994-52.txt:Real Decreto 210/1994, de 4 dE' febrero, por el que se indulta
También valido que con esas cadenas sí funciona el buscador del propio BOE: aunque BOE desindexe para google, sí permite búsquedas en
https://www.boe.es/buscar/boe.php
Otras pruebas
grep "inhabilit" *.txt | wc -l
845
grep "sanc" *.txt | wc -l
2294
grep "suspens" *.txt | wc -l
1464
grep "prisi" *.txt | wc -l
2877
grep "malver" *.txt | wc -l
57
grep "prevaric" *.txt | wc -l
4
grep "fraud" *.txt | wc -l
52
grep "cohecho" *.txt | wc -l
11
Y para terminar la procrastinación partiendo de la frase del artículo inicial
"El Ejecutivo afirma no disponer de estadísticas sobre cuántas de esas páginas desindexadas contenían indultos..."
Busco cuantos ficheros contienen "indult"
grep -l "indult" *.txt | wc -l
611
Sobre 2134 ficheros pdf, supone aproximadamente el 30%
Cosas pendientes: algo queda que decir
Pedir criterios vía tranparencia en bocm.es y boe.es (aunque igual se remiten a lo que tiene publicado AEPD)Revisar y procesar otros robots.txt
Buscar robots.txt en otras páginas
Ver contenidos y pensar si han podido ser editados, comparando con https://archive.org/
Enlaza con la muerte digital, derecho a privacidad tras la muerte
http://www.derechoalolvido.eu/el-derecho-a-la-muerte-digital/
http://www.lavanguardia.com/vida/20160229/4085405270/francia-regula-tratamiento-post-mortem-datos-internet.html
http://www.lasexta.com/tecnologia-tecnoxplora/internet/muerte-tambien-esta-presente-red_2013111857f77e0c0cf2a2e945b3aa41.html
Y relacionado, pero con muerte no digital sino física y acceso a información digital
La policía se presenta en un funeral para desbloquear el móvil del muerto con su dedo
El hombre fue abatido por una agente de la policía de Largo (Florida) mientras intentaba escapar de un registro
http://cadenaser.com/ser/2018/04/23/internacional/1524466095_387898.html
Mientras tanto, los agentes argumentan que no se les pasó la cabeza en ningún momento obtener una orden puesto que las personas fallecidas no poseen "derecho a la privacidad".
Mirar temas relacionados, empresas que surgen asociadas...
http://www.borrame.es/
Enlazar con tema de "limpieza de búsquedas en Internet" que se hacían pagadas en Púnica
26 junio 2018
DERECHO AL OLVIDO
Insólito límite del Constitucional a la libertad de información: ordena capar una búsqueda en una hemeroteca por el 'derecho al olvido'
Establece que un diario ha de restringir la búsqueda en su propio archivo web de una información de los años ochenta sobre una redada contra el tráfico de drogas en la que, según la propia sentencia, "se hallaba implicado el familiar de un destacado cargo público y otros miembros de la clase alta vinculada a dos nombres".
http://m.publico.es/sociedad/2049921/insolito-limite-del-constitucional-a-la-libertad-de-informacion-ordena-capar-una-busqueda-en-una-hemeroteca-por-el-derecho-al-olvido/amp
19 diciembre 2018
https://twitter.com/CdelCastilloM/status/1074975908019273733
Cuando se creó el derecho al olvido muchos juristas avisaron: habrá miles de intentos de que se amplíe su alcance para poder diseñar un pasado a la medida. Pues ya estamos ahí. El Supremo decidirá si el olvido debe aplicarse a una noticia absolutamente veraz, pero anticuada
https://twitter.com/eldiariotec/status/1074974248278650881
Una interpretación ampliada del derecho al olvido llega al Supremo: ¿debe ocultar Google el contenido inexacto de Internet?
Una interpretación ampliada del derecho al olvido llega al Supremo: ¿debe ocultar Google el contenido inexacto de Internet?
El derecho al olvido nació como una forma de que capítulos reales pero pasados de tu vida no marquen para siempre tu identidad en Internet
Ahora la justicia está enredada en un dilema mucho mayor: si Google debe hacerse cargo de valorar cómo de exactos son todos los contenidos que muestra
https://www.eldiario.es/tecnologia/Supremo-desindexar-Google-contenidos-inexactos_0_847265793.html7 febrero 2019
Si existe un Derecho al Olvido, ¿hay un Deber de Olvidar?
https://amp.lainformacion.com/opinion/borja-adsuara/si-existe-un-derecho-al-olvido-hay-un-deber-de-olvidar/6491893
Comentarios
Publicar un comentario