Functiebeschrijving

De doelstelling van fase 1 van het project, de Proof of Concept (POC), is drieledig. Ten eerste te beproeven of door middel van open source Natural Language Processing (NLP) tools, een vorm van Artificial Intelligence (AI), het destilleren van informatie uit ongestructureerde tekst zodanig kan worden ondersteund dat de beslissing sneller en beter kan worden genomen. Met andere woorden, het panklaar aan de beoordelaar aanbieden. Ten tweede om na te gaan of met de inzet van open source tools voldaan kan worden aan de eisen van transparantie zoals die verwacht mogen worden van algoritmes die door de overheid worden toegepast. Ten derde om aan te tonen dat door middel van de inzet van open source tools in de taal Python deze technologie kan worden ingezet met minimaal risico voor Techology lock in en/of Vendor lock in.

Voor de toepassing van de NLP tools zal gebruikt moeten worden gemaakt van neurale netwerken en deep learning door onder meer de toepassing van Pytorch. De eerste fase van dit idee is de POC. Die dient in zes maanden uitgevoerd te worden.

Bij het slagen van de POC komt de tweede fase van zes maanden in beeld. Er kan in verbond met de evaluatie van fase 1 en het verkrijgen van instemming voor fase 2 enige tijd zitten tussen fase 1 en 2. Gedacht moet worden aan 1-3 maanden. Bij fase 2j gaat het om het door NLP automatisch leggen van een verbinding met aanwijzingen en beleidsdocumenten zodat de beoordelaar ook op het correcte toetsingskader wordt gewezen. Dit vraagt mede om de ontwikkeling van een op de taak toegesneden Graphic User Interface (GUI). Een eerste aanzet hiervoor zal onderdeel zijn van fase 1 van het project.

Daarna breekt fase 3 aan. Er kan in verband met de evaluatie van fase 2 en het verkrijgen van instemming voor fase 3 enige tijd zitten tussen fase 2 en 3. Gedacht moet worden aan 1-3 maanden. In fase 3 worden op basis van de ervaringen in fase 1 en 2 open source NLP tools beproefd bij vergelijkbare processen. In deze fase zal het voortouw meer komen te liggen bij de medewerkers van de klant zelf en zal de datascientist in een meer begeleidende rol terecht komen. Ook zal deze worden ingezet voor het leveren van expertise bij meer complexe toepassingen. Het gemiddeld aantal uren per week kan in deze fase mogelijk minder zijn dan in fase 1 en 2. Voor deze fase wordt uitgegaan van een periode van 1,5 jaar.

Samenvattend, de datascientist wordt ingehuurd om samen met medewerkers van de klant de drie doelstellingen van fase 1 van het projectbinnen een periode van zes maanden te realiseren. Bij het slagen van fase 1 van het project is een tweede fase van zes maanden voorzien. Na succesvolle afronding van de eerste en tweede fase is fase 3 voorzien waarin het gaat om het beproeven van open source NLP tools bij vergelijkbare processen.

Werkzaamheden

  • Het inzetten van open source deep learning NLP tools onder meer in de computertaal Python voor het “lezen” van ongestructureerde Nederlandse teksten.
  • De datascientist zal in staat moeten zijn (must) de navolgende technieken in te zetten:
    • Long-Short-Term-Memories (LSTM’s);
    • Parts of Speech (POS);
    • Named Entity Recognition (NER);
    • Word2vec;
    • GloVe;
    • Recursive Neural Networks;
    • Ensemble technieken;
    • Dynamic topic models;
    • Intent detection;
    • Phrase matching.
  • Het is wenselijk (nice to have) dat de datascientist ook in staat is de navolgende technieken in te zetten:
    • Dependency parsing;
    • Constituency parsing;
    • Language models;
    • Neural Machine Translation;
    • Convolutional Neural Networks (CNN’s);
    • Embeddings from Language Models (ELMo);
    • Bidirectional Encoder Representations from Transformers (BERT).
  • De datascientist zal de navolgende software in moeten (must) kunnen zetten:
    • Python;
    • Pytorch;
    • Django;
    • GoLanguage
  • De datascientist zal ervaring moeten hebben (must) met Microsoft Azure.
  • Het is wenselijk (nice to have) dat de datascientist beschikt over ervaring met:
    • Solr databases;
    • Frog;
    • FLAT.
    • Het transparant maken van de algoritmen die door de systemen worden toegepast.
    • Het opleiden en trainen van medewerkers van de klant in het zelf toeppassen van onder meer bovenbeschreven NLP technieken.

Eisen

  • De kandidaat heeft een afgeronde opleiding WO opleiding in de richting van; Artificial Intelligence, Econometrie, Toegepaste Wiskunde of vergelijkbare studie.
  • De aangeboden kandidaat overlegt indien hij wordt uitgenodigd voor het interview een kopie van het WO diploma.
  • De aangeboden Kandidaat heeft minimaal 3 jaar aantoonbare werkervaring met datascience na afronding van de WO opleiding.
  • De aangeboden Kandidaat is de Nederlandse taal machtig en levert producten op in de Nederlandse taal.
  • Kandidaat heeft minimaal drie keer met open source NLP tooling een project in de Nederlandse taal bij een organisatie in Nederland uitgevoerd.
  • De aangeboden Kandidaat heeft minstens drie keer een NLP algoritme naar productie gebracht in de vorm van een applicatie.
  • De aangeboden Kandidaat heeft telkens bij ten minste één opdracht ervaring opgedaan met met elk van de navolgende technieken:Long-Short-Term-Memories (LSTM’s), Parts of Speech (POS), Named Entity Recognition (NER), Word2vec, GloVe, Recursive Neural Networks, Ensemble technieken, Dynamic topic models, Intent detection en Phrase matching.
  • De aangeboden kandidaat heeft Microsoft certificering voor Microsoft Azure.
  • De aangeboden kandidaat heeft bij ten minste één opdracht ervaring opgedaan met elk van de navolgende programmatuur: Python, Pytorch, Django en GoLanguage.

Wensen

  • De aangeboden kandidaat heeft ten minste in één project ervaring met: Dependency parsing
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Constituency parsing
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Language models
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Neural Machine Translation
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Embeddings from Language Models (ELMo)
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Bidirectional Encoder Representations from Transformers (BERT)
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Convolutional Neural Networks (CNN’s)
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Solr databases
  • De aangeboden kandidaat heeft ten minste in één project ervaring met Frog
  • De aangeboden kandidaat heeft ten minste in één project ervaring met FLAT
  • De aangeboden kandidaat heeft aantoonbare ervaring in het begeleiden van een organisatie in data gedreven werken: Trainingen geven in datascience, Workshops faciliteren en Organisatie bekwamen in het werken volgens een bepaalde datascience methoden.
Startdatum: 1 september 2020
Duur: 12 maanden met een optie op verlenging
Aantal uren per week: 24
Locatie: Utrecht
Uurtarief: € 90