Met al het enthousiasme rondom NoSQL, gedistribueerde databases, data-warehouses en GPU-geaccelereerde databases vandaag de dag, ziet men soms over het hoofd dat de traditionele relationele databases voor vrijwel alle LoB-applicaties nog steeds kritieke data opslaan. Oracle Database, Microsoft SQL Server, MySQL/MariaDB en PostgreSQL kun je terugvoeren naar de jaren 80, maar ze zijn nog volop in ontwikkeling - en niet alleen om bugs te fixen en prestaties te verbeteren.

In dit artikel bespreken we verschillende manieren waarop traditionele SQL-databases verbeteren. Sommige gaan om de ondersteuning van verschillende soorten data, samen met de indices en zoekfuncties om ze te gebruiken. Andere gaan over het versneld aanspreken van veelgebruikte tabellen en weer andere gaan over uitbreidingen buiten de eigen tabellen, server en SQL-query's.

1. Volledige tekst doorzoeken

Relationele database-indices hebben meestal korte velden, of zelfs hashes, om prestaties hoog te houden. Volledige teksten doorzoeken werkt anders. Dit vereist een andere soort index, doorgaans iets als een lijst woorden met gekoppelde record en locatie. Meestal is er een lijst van tussen- en stopwoorden die niet nodig zijn en een algoritme om andere vervoegingen en vormen van dezelfde stamwoorden te vinden. Sommige tekstdoorzoekers ondersteunen Boolean-operaties, fuzzy zoeken of zoeken op basis van nabijheid.

Oracle Database, SQL Server, MySQL/MariaDB en PostgreSQL bieden allemaal volledige tekst zoekfuncties op speciaal toegewezen tekstvelden, bijvoorbeeld kolommen CHAR , VARCHAR of TEXT met FULLTEXT -indices. Je kunt ook een externe zoekmachine voor volledige tekst gebruiken om te indexeren en te zoeken in een database, zoals Elasticsearch of Solr.

2. JSON-data

JSON (JavaScript Object Notation) kwam op met de komst van JavaScript voor het web en werd een van de standaarddataformaten in NoSQL-documentdatabases. Om niet achter te blijven voegden veel SQL-databases JSON-ondersteuning toe, samen met syntaxis die nodig is om semi-gestructureerde en soms hiërarchische JSON-documenten te doorzoeken.

Natuurlijk voegde elke database zijn eigen soort JSON-ondersteuning toe. Zo kun je bijvoorbeeld in SQL Server expliciet JSON-values opzoeken in tekstvelden en zijn JSON-documenten te converteren naar tabellen. Je kunt ook een constraint toevoegen aan tekstvelden om ervoor te zorgen dat ze als JSON worden opgemaakt. PostgreSQL daarentegen heeft een expliciet JSON-type, naast JSON-functies en -operators.

3. XML-data

Net als JSON is XML een semi-gestructureerd datatype. Het was het meestgebruikte formaat om gegevens uit te wisselen in het tijdperk dat webdiensten en AJAX-webcalls werden uitgevonden, maar daarna is het grotendeels vervangen door JSON voor verschillende toepassingen. XML-schema's kunnen wat structuur opleggen aan XML-documenten: XPath gebruikt expressions om te navigeren in XML-documenten en de XSLT-transformatietaal heeft bepaalde functies, zoals het genereren van webpagina's vanuit XML-gegevens.

Alle relationele databases die we noemen ondersteunen tot op zekere hoogte XML-data. Ik weet niet of het beter kan zijn om XML te verkiezen boven JSON voor een nieuwe applicatie, maar voor een oudere die is gebouwd rondom XML-documenten kan het handiger zijn om XML op te slaan in relationele tabellen.

4. Geospatiale gegevens

Geometrische en geografische informatie lijken alsof ze numerieke types zijn, maar het soort query dat je uitvoert op ruimtelijke data vereist vaak een index die tweedimensionale data herkent. Dat behoort niet tot de mogelijkheden van een gewone B-boom. Je vindt zo niet de afstand tussen twee vliegvelden, het dichtstbijzijnde hotel in Frankfurt, een taxi zich in de grenzen van Amsterdam bevindt of de dichtstbijzijnde transportlocatie nabij Schiphol. Daar zijn een R-boom, quadtree, UB-boom of SP-GiST voor nodig.

De andere databases in dit artikel hebben ondersteuning voor spatiale data en indices, maar sommige daarvan vereisen een plug-in als PostGIS voor PostgreSQL. Deze houden zich doorgaans aan de specificatie Open Geospatial Consortium Simple Features en de SQL/MM Spatial ISO-standaard, maar ze verschillen vaak qua implementatie.

5. In-memory tabellen

Met PostgreSQL als uitzondering (die in-memory caching uitvoert, maar geen pure in-memory tabellen heeft) maken de relationele databases tabellen in het werkgeheugen aan. In-memory tabellen vergroten de snelheid waarmee je met de tabellen kunt werken enorm, vooral in situaties waar je zware leesbewerkingen uitvoert. De snelheidsvergroting is ongeveer factor dertig, maar die schatting neemt niet het verschillende soort schijf dat je kunt gebruiken in acht.

Er zijn vaak beperkingen qua in-memory tabellen. De eerste en belangrijkste is de eis dat er voldoende RAM is voor de tabel en dat werkgeheugen had gebruikt kunnen worden voor caching en het uitvoeren van joins. Daarnaast zijn er beperkingen va de specifieke databases en engines.

De MySQL MEMORY-opslag-engine is vluchtig - hij verdwijnt wanneer de MySQL-server stopt - heeft geen transacties, verwijzende sleutels, geografische types of volledige text-indexering, presteert niet bij veel schrijfacties, heeft locking op tabelniveau en kan niet worden gepartitioneerd. De MySQL NDB Cluster-engine maakt korte metten met enkele van deze beperkingen, maar dient op een special versie van de MySQL-daemon te draaien en er zijn verschillende soorten nodes actief nodig in het cluster.

SQL Server In-Memory OLTP gebruikt geheugengeoptimaliseerde tabellen die duurzaam zijn en transacties ondersteunen, alsmede niet-duurzame tabellen die voor vluchtige data geschikt zijn, vaak in de plaats van temp-tabellen. Dit gebruikt ook native gecompileerde T-SQL-modules om de transactietijd verder te verkorten door het aantal CPU-tikken die voor het proces nodig zijn te verkleinen. SQL Server In-Memory OLTP-tabellen zijn te combineren met diskgebaseerde tabellen voor query's en transacties.

Oracle Database In-Memory vergroot de prestaties voor realtime analytics (OLAP) en gemengde workloads (HTAP). DE In-Memory Colomn Store is de hoofdfeature van Oracle Database In-Memory.

6. Externe databronnen

Recente versies van SQL Server hebben een mechanisme voor het benaderen van databronnen die zich buiten de eigen tabellen van de database bevinden. Je kunt een EXTERNAL DATA SOURCE creëren van Hadoop, blob storage, andere relationele database of een shard map manager. Vervolgens kun je PolyBase- of Elastic Database-query's uitvoeren (Azure SQL Database v12+) tegen een externe databron.

PostgreSQL Foreign Data Wrappers zorgen ervoor dat PostgreSQL-query's op een hoop verschillende externe databronnen kunnen worden uitgevoerd. Die variëren, van andere SQL-databases, tot NoSQL-databases en big data-platfroms. Foreign Data Wrappers volgend de standaard SQL/MED.

7. Big data-clusters

Sinds de preview van SQL Server 2019 zorgen Microsofts SQL Server big data clusters ervoor dat je schaalbare clusters van SQL Server, Spark en HDFS-containers op Kubernetes kunt uitrollen. Deze componenten kunnen gelijktijdig worden ingezet om te lezen, schrijven en te verwerken van big data van Transact-SQL (via PolyBase) op Spark, zodat je je waardevolle relationele data kunt vergelijken met de grote volumes van big data. Oracle biedt iets soortgelijks in zijn Oracle Big Data Cloud Service (PDF) en Oracle Big Data Appliance On Premises (PDF).

8. Alleen-lezen replica's

MySQL, MariaDB en PostgreSQL bieden allemaal mogelijkheden tot het gebruik van alleen-lezen replica's. Read replica's zorgen voor een grote doorvoersnelheid van leesacties, maar kunnen ook prestaties van schrijfacties indirect verbeteren door de load op de read/write-server te verlichten. MySQL/MariaDB ondersteunen meerdere soorten replica's: logfile en GTID-gebaseerd, asynchroon, synchroon met in-memory NDB Clusters, semi-synchroon, delayed, gebaseerd op rijen, statements en gemixt. PostgreSQL heeft veel verschillende replicatie-oplossingen.

Amazon Aurora implementeert zijn eigen alleen-lezen replica-ontwerp voor MySQL en PostgreSQL. Aurora staat tot op 15 replica's toe, met minder dan 20 milliseconden aan synchronisatie-lag.

SQL Server ondersteunt een secundaire alleen-lezen replica in een Active/Active-cluster. Oracle Database ondersteunt basale one-way alleen-lezen replicatie-omgevingen met alleen-lezen snapshots van tabellen en Oracle Enterprise biedt geavanceerde replicatiefeatures die verder gaan dan alleen-lezen replicering met meerdere applicaties die tabelreplica's kunnen bijwerken door een gerepliceerd databasesysteem.

9. Sharding

Sharding is een manier om data te verdelen over servers. Verticaal sharding gaat om het distribueren van verschillende tabellen op verschillende servers, bijvoorbeeld inventaris op de ene server, bestellingen op een andere en geaggregeerde tabellen voor analyse op een derde. Dat is enkel een issue als je tabellen wilt joinen vanaf meerdere servers. Horizontaal sharding gaat om het verdelen van individuele tabellen op verschillende servers, een beetje zoals registratiebalies op congressen hun deelnemerslijst alfabetisch verdelen voor makkelijker doorstroom. Handmatig horizontaal sharding toepassen is een gruwelijke bezigheid, maar gelukkig zijn er opties om dit geautomatiseerd te doen.

Citus voert automatische horizontale sharding uit van PostgreSQL. Citus levert ook een coördinerende node als een front-end voor de uitvoerende nodes die de data hebben. Microsoft Azure SQL Database v12 ondersteunt een elastic database shard map voor automatische horizontale sharding. Ook ondersteunt dit cross-database query's voor verticale sharding.

Er zijn verschillende manieren om Amazon RDS te gebruiken voor sharding van MySQL en andere ondersteunde databases. Over het algemeen kun je replica's gebruiken om kopieën van te maken en dan de replica's de nieuwe shards maken. In Aurora is er een clone database -opdracht voor dit doel. Na het klonen, kun je de gedupliceerde data verwijderen, zodat het niet wordt gebruikt op die shard.

10. Non-SQL opgeslagen procedures

Iedere relationele database had in het verleden zijn eigen SQL-extensie voor opgeslagen procedures, zoals Transact-SQL voor SQL Server en PL/SQL voor Oracle. De laatste jaren zij relationele databases geïntegreerd met ondersteuning voor programmeertalen en machine learning. Een vroeg voorbeeld was Java op Oracle Database as toevoeging voor PL/SQL. Sindsdien hebben we database-extensies gezien voor C, C++, C#, Perl, PHP, Python en R.

Met de komst van NoSQL-databases in 2009 werd de noodzaak duidelijk van soepel schaalbare databases met een hoge beschikbaarheid voor webapplicaties, ten koste van SQL-compatibiliteit en consistentie. De laatste jaren hebben 'klassieke' SQL-databases veel opties toegevoegd om schaalbaarder te zijn en de beschikbaarheid te vergroten zonder daarvoor consistentie of compatibiliteit te offeren.

Voordat je voor een 'NoSQL-taak' je oude SQL-database opgeeft, bekijk de documentatie van je huidige systemen. Het kan zijn dat je het beste van beide werelden kunt hebben.