Senior Data Engineer 27u/w

Volgnummer: 116821

Publicatiedatum: 23-02-2026

Locatie: 'S-GRAVENHAGE

Contact

DC Professionals

085 020 1022

Standplaats: 'S-GRAVENHAGE
Duur: 01-03-2026 - 01-01-2027
Optie tot verlenging: Ja
Reageren voor: 27-02-2026

Organisatie:
Over ICTU
ICTU werkt aan een betere digitale overheid. In deze opdracht werk je binnen het project SZW brede signalering, met betrokkenheid van de afdeling Omgevingskennis & Responsiviteit (O&R) van het Ministerie van SZW. Het doel is om signalen uit de samenleving effectief te duiden en te vertalen naar beleid, communicatie en wetgeving met behulp van data-analyse en AI binnen een verantwoorde data-omgeving.

•

• Losse motivatie, inclusief beargumentering per bullet eis en wens waarom hier aan wordt voldaan is verplicht.

• CV in Word formaat

Opdrachtcontext

Als Senior Data Engineer werk je gedurende 3 maanden (met optie tot verlenging tot eind 2026) aan het project SZW Brede Signalering. Het doel is het opzetten van de technische fundamenten: databronnen ontsluiten (interne publieksvragen, social media, media monitoring, publieke documenten), robuuste data pipelines bouwen en zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacy-gevoelige verwerking, terwijl parallel de Azure-omgeving voor dit project wordt ingericht.

Projectbeschrijving

De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project is in de opstartfase. Er is een bestaand Databricks-platform op Azure, dat nog configuratie en projectspecifieke toegang vereist. Door DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacy-gevoelige verwerking en parallel inrichting van de Azure/Databricks-omgeving. Er is een overheidsbreed samenwerkingsverband waarvan code (anonimiseringsscript, tekstmining) beschikbaar komt.

Rol en werkzaamheden

•

• Databronnen ontsluiten en automatiseren (interne publieksvragen, social media, media monitoring, publieke documenten).

• ETL/ELT pipelines bouwen (cleaning, transformatie, normalisatie) en CI/CD naar productie.

• Batchverwerking implementeren en schone, gestructureerde data opleveren voor de Data Scientist.

• Data-catalogus opzetten (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen).

• Privacy, AVG-compliance en anonimisering borgen (anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning).

• Infrastructuur opzetten: eerst on-premise, parallel Azure/Databricks configureren met DACC; eventueel NSK sandbox.

Beoordeling en oplevering

•

• Tijdige oplevering van (deel)resultaten volgens planning.

• Kwaliteitseisen: robuuste, gedocumenteerde pipelines conform privacy/AVG.

• Samenwerking binnen project; wekelijkse overleggen, maandrapportages en eindrapportage.

Concrete resultaten

•

• Datacatalogus van alle relevante databronnen.

• Werkende pipelines voor minimaal 2 databronnen (prioriteit: interne publieksvragen en media).

• Operationeel anonimiseringsscript on-premise.

• Schone, gestructureerde data voor modelontwikkeling.

• Azure sandbox aangevraagd en basis-infra ingericht (indien goedgekeurd).

• Technische documentatie (pipelines, schema's, architectuur).

Functie-eisen:
Afgeronde HBO- of WO-opleiding (bijv. Informatica, Computer Science, Data Engineering).
Minimaal 5-7 jaar aantoonbare ervaring als Data Engineer.
Ruime ervaring met ongestructureerde data processing (tekst, PDF, HTML, JSON), API-integratie, data cleaning en normalisatie.
Ervaring met ETL/ELT, batch processing en data modeling.
Ervaring met data anonimisering/pseudonimisering en AVG/GDPR compliance.
In staat om technische complexiteit begrijpelijk te maken en samen te werken met Senior Data Scientist en DACC team.

Wensen:
Zelfstandigheid en pragmatisch werken (van prototype naar PoC, 80/20).
Sterke documentatievaardigheden.
Mentoring en kennisdeling (begeleiding stagiair).
Azure ervaring (Data Factory, Databricks, Data Lake, of vergelijkbaar).
Python/PySpark + SQL voor data engineering en automation.
CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar).
Performance optimalisatie van data pipelines (snelheidswinst/cost reduction).
Ervaring met privacy-gevoelige data en DPIA proces.
Ervaring met on-premise én cloud projecten. Solliciteer nu!