En l’àmbit dels aspectes legals, s’hi poden destacar els elements següents:
-
Transparència: una institució disposa de dades que poden ser d’interès general; està obligada a publicar-les? Veurem que, en el cas de l’Administració pública, hi ha lleis que regulen la reutilització dels documents elaborats o custodiats per Administracions i organismes del sector públic. És un dels tres pilars en els quals es fonamenta un govern obert, juntament amb la participació i la col·laboració.
-
Privacitat: si aquestes dades fan referència a tercers, poden publicar-se tal qual? És necessari fer anònimes les dades publicades de forma que no sigui possible identificar individus (o institucions) de forma unívoca.
-
Copyright i llicències (condicions d’ús): aquestes dades, com poden ser reutilitzades? Quines operacions es poden efectuar amb elles? Les dades, com a fets que descriuen la realitat, no es poden patentar. Aquest tema és el més delicat i segurament també el més complex, especialment per la diversitat de llicències i el problema de combinar diferents llicències en el cas d’estar remesclant continguts (incloent-hi dades) amb llicències diferents. Poc a poc comença a haver-hi llicències específiques per a dades obertes, tot i que encara no és habitual trobar-les.
-
Traçabilitat: en un món digital, on es pot crear una còpia idèntica a cost zero i sense malmetre l’original, és impossible poder conèixer-hi sempre quin és l’origen de les dades, excepte si aquest s’indica de forma explícita en les mateixes. L’origen de les dades és una dada sobre les dades (és a dir, una metadada), així que ha de formar part de la seva descripció.
-
Qualitat: qui és responsable de les dades? Què passa si les dades contenen errors en origen o bé són reutilitzades erròniament (potser manipulant-les malintencionadament)? El problema principal aquí és definir què entenem per qualitat. La qualitat no és només tenir una dada fiable sinó també actualitzada, ben descrita, amb precisió suficient, etc.
-
Gratuïtat: han de ser gratuïtes les dades obertes? Aleshores, com es poden cobrir els costos de publicació? Es poden establir taxes o costos per a la seva reutilització? Es pot cobrar per unes dades amb una llicència que obliga a publicar les obres derivades també en obert? Es pot cobrar per dades que provenen de processos pagats amb els nostres impostos?
En relació amb els aspectes tecnològics, ens centrarem més en les dades i els formats per al seu emmagatzemament i accés.
Hem vist que, per poder dir que les dades són obertes, hem de poder executar les 5 R, és a dir, accedir-hi, manipular-les i redistribuir-les, sense impediments legals ni tecnològics. Suposarem ara que tenim els aspectes legals resolts, i ens centrarem en els aspectes tecnològics que cal tenir en compte. Quins són? S'està fent referència a allò que es coneix com esquema de les 5 estrelles.
En relació amb l’obertura de dades reutilitzables, cal arribar al tercer nivell com a mínim: compartir la informació de forma que sigui senzill manipular-la, sense obligar l’usuari final a disposar d’un programari específic amb llicència. Formats oberts, n’hi ha molts, depenent del tipus d’informació que s’emmagatzema. Es pot preparar i penjar un fitxer CSV a Internet, de forma que tothom pugui accedir-hi lliurement i reutilitzar la informació sobre els reculls de notícies.
És evident que seria interessant poder accedir només a la informació que un desitja, i no haver de descarregar la totalitat de les dades. A més, els potencials usuaris volen informació actualitzada.
El fitxer CSV representa una fotografia o un accés estàtic de la realitat dels reculls de les notícies en un moment donat, per la qual cosa resulta millor proporcionar un accés dinàmic que permeti als usuaris realitzar consultes sobre el fitxer. Això permetria recuperar només la informació desitjada i fer cerques més complexes; d’aquesta manera, l’usuari que fa la cerca només recupera un trosset del fitxer CSV original, amb la informació que realment desitja. Aquestes cerques predefinides rebrien un paràmetre (o més si s’escau) i retornarien la informació desitjada, potser també en un fitxer CSV, però molt més petit, reduint el temps necessari per descarregar-lo. El resultat d’aquestes cerques s’acostuma a retornar utilitzant un tipus de fitxers específic per intercanviar dades amb una certa estructura interna, com ara XML.
Ho entendrem millor aprofitant un exemple que la Generalitat de Catalunya posa a disposició de tots nosaltres mitjançant el seu portal de dades obertes. Es tracta del fitxer amb els equipaments de Catalunya Dades obertes gencat, un recull de més de 35.000 equipaments amb un munt d’informació sobre cadascun. Aquest recull, tot i que està disponible en diversos formats, podem dir que, en versió original, està en format RDF. Doncs bé, aquest fitxer “pesa” gairebé 44 MB, el que impossibilita descarregar-lo en segons quin dispositiu i quina connexió tinguem disponible.
En canvi, la Generalitat de Catalunya ofereix un servei, un cercador d’equipaments, que permet descarregar només la informació desitjada.
Per accedir a tot un conjunt de dades de cop pot ser ineficient: potser no ens interessa tota la informació, sinó només un subconjunt de files i/o columnes d’acord amb uns criteris de cerca. Aquest accés dinàmic basat en cerques és el primer pas cap a un veritable servei de dades obertes, on els usuaris i, més important encara, les aplicacions poden accedir només a allò que els interessa. Tanmateix esdevé clau poder localitzar les dades usant descriptors textuals.
De fet, és la possibilitat d’accedir a dades d'orígens diferents la que pot crear coneixement i afegir valor. La “R” de remesclar és, en aquest sentit, la més interessant.