door Liesbeth Koenen ©
19-02-1987
NRC Handelsblad

Waarom de computer geen vertaler wordt

De computer als vertaler.  J.J. Schoorl. Uitgeverij Boom, Meppel / Amsterdam. Prijs: f 37,50

Deze Gebruiksaanwijzing an de Geyser an te brengen. NL’ stond er op de sticker die ik bij mijn nieuwe geiser kreeg. Braaf heb ik indertijd aan dat verzoek gehoor gegeven, zodat ik nog steeds iedere keer als ik de kraan opendraai met een staaltje ‘Newspeak’ geconfronteerd word. Bij mijn wasmachine zat een boekje dat me onder andere vertelde dat ik de deurafdichting rustig af mag wrijven met een doek. Of mijn tere weefsels med een voorwas behandeld moeten worden hangt af van de vervuilingsgrad.

Dit soort rare taal- en spelfouten (je vindt ze in vrijwel iedere gebruiksaanwijzing) werken ontegenzeggelijk op de lachspieren, maar tegelijkertijd maken ze een nogal onbetrouwbare indruk. Ik bedoel: je vraagt je af of Bauknecht wel echt weet wat wij vrouwen wensen. Foutloze, in duidelijk Nederlands gestelde voorschriften horen daar in ieder geval ook bij.

Maar goede vertalers zijn duur, en gebruiksaanwijzingen nogal saai om te vertalen. Je zou denken dat apparatenfabrikanten geweldig veel baat zouden hebben bij een automatische vertaler. En zij niet alleen: alle internationale bedrijven en organisaties zouden ermee geholpen zijn. Waarom is er dan nog steeds geen fatsoenlijke vertaalmachine op de markt?

Wie dat wil weten doet er verstandig aan het boekje De computer als vertaler van J.J. Schoorl eens te lezen. Daarin worden bijna alle problemen die de makers van vertaalprogramma’s op moeten lossen helder besproken.

Schoorl schept de rijstebrijberg waaruit taal met al zijn aspecten bestaat, netjes lepeltje voor lepeltje weg, echter zonder dat hij ons daarmee uitzicht geeft op een luilekkerland van vertaalmachines. Al die verschillende lepeltjes rijstebrij vormen namelijk weer nieuwe bergen of bergjes die alsnog weggewerkt zullen moeten worden. Alleen al het lezen hierover zal veel mensen hun eetlust ontnemen.

Tekstverwerker

Schoorl begint met duidelijk te maken hoe onterecht de benamingen tekstverwerker en spellingscorrector eigenlijk zijn. Een tekstverwerkingsprogramma kan niet meer dan rijtjes tekens (letters, cijfers, leestekens) en spaties onderscheiden. De volgorde van de tekens binnen die rijtjes, noch de volgorde van de rijtjes zelf ‘betekenen’ iets voor hem. Het verschuiven, verwisselen, invoegen of uitvegen van rijtjes tekens heeft alleen zin voor de gebruiker: hij is degene die ‘tekst verwerkt’, niet het programma.

Zelfs de Engelse naam wordprocessor belooft al teveel: de computer ziet geen enkel verschil tussen wat wij een woord noemen en een willekeurige letterreeks als lbrski.

Zo is er ook geen sprake van dat een met een ‘spellingscorrector’ uitgeruste ‘tekstverwerker’ ook werkelijk zou kunnen spellen. Tik ik bijvoorbeeld Ik wordt betaalt in dan volgt er geen melding dat ik iets verkeerd gedaan heb: ik, wordt en betaalt zijn alledrie bestaande Nederlandse vormen, dus staan ze alledrie in de alfabetische lijst waaruit de spellingscorrector feitelijk bestaat. Uit die lijst valt nooit op te maken dat wordt in dit geval zonder t gespeld hoort te worden, noch dat betaalt hier een voltooid deelwoord is, en dus op een d moet eindigen.

Pas als ik ik wrod betalad of iets dergelijks typ krijg ik een waarschuwing: die woorden kent mijn programma niet. De correctie mag ik vervolgens zelf uitvoeren.

Wat wijsheid

Hoe kun je zo’n dom log systeem nu wat wijsheid bijbrengen over woorden en verbanden tussen woorden onderling, zodat het teksten uit de ene taal om kan gaan zetten in een andere taal?

Daarvoor moet je het al die dingen die wij min of meer vanzelf weten precies vertellen. Zo’n spellingscorrector maakt daar een klein begin mee: die vertelt (althans in principe) welke letterreeksen wel en welke niet in een taal thuishoren. Aan die woorden kan vervolgens van alles toegevoegd worden, bijvoorbeeld wat voor sóórt woord het is.

Voor de vertaling van drukte maakt het alles uit of we met een vorm van het werkwoord drukken te doen hebben, of dat het om een zelfstandig naamwoord gaat. Uit in Hij uit zich moeilijk is iets anders dan uit in Het verhaal is uit, en dat is weer niet hetzelfde uit als in Hij komt uit China.

Vertel je de computer met welke woordsoort hij te maken heeft, dan kan hij ook op zijn ‘buitenlandse’ woordenlijst bij de juiste woordsoort gaan zoeken naar de juiste vertaling. De kans dat Het licht gaat uit er in het Frans als La legere va fini uitkomt wordt daarmee een stuk kleiner. Monikenwerk natuurlijk, om bij alle woorden nog allerlei extra’s toe te voegen.

Je zou dus kunnen proberen of je je computer niet wat algemene regels bij kunt brengen die hem in staat stellen zelf de woordsoort aan de vorm van het woord te herkennen.

Dat kan tot op zekere hoogte: een woord in het Nederlands dat op heid eindigt is bijna geheid een zelfstandig naamwoord (aardigheid, nieuwigheid, woestheid etc.), en een woord op –bare moet een bijvoeglijk naamwoord zijn (openbare, verkoopbare etc.). Het blijkt vrij goed mogelijk om een computer automatisch woorden te laten opdelen in voor- en achtervoegsels en stammen.

Maar daarmee kan hij ze nog niet vertalen. Weliswaar werken veel andere talen ook met voor- en achtervoegsels, maar dat hoeft nog niet te betekenen dat ze dat ook bij dezelfde woorden doen. En zelfs als ze wel een samenstelling maken met behulp van een voor- of achtervoegsel, dan nog is er nauwelijkse enige voorspelling te doen over hoe dat woord eruit gaat zien.

Wie denkt dat onder- in het Engels under- wordt komt bij undertake voor ondernemen nog wel goed uit, maar zit met undertaker voor ondernemer al helemaal fout: een undertaker is alleen een begrafenisondernemer en ondernemer moet vertaald worden met entrepeneur. Een onderrok is een petticoat, een onderhoud een interview en Engelstaligen noemen hun onderarm forearm.

Het achtervoegsel -baar lijkt ongeveer hetzelfde te doen als able in het Engels, dacht u. Vergeet het maar. Bij eetbaar-eatable klopt het toevallig wel, maar bruikbaar wordt useful, ontelbaar countless en ontplofbaar explosive.

Enfin, zo gaat Schoorl nog een tijdje door. Met -heid, -lijk, uit- en on- is het al niet beter gesteld, en andersom, als je van Engels naar Nederlands wil vertalen gebeurt er natuurlijk precies hetzelfde.

Gewone samenstellingen zijn helemaal een komisch nummer. Stel je computer kan groente en man netjes in het Engels vertalen, dan kun je hem natuurlijk leren om van groenteman vegetableman te maken, alleen, zo’n man heet in Engeland greengrocer, en dat is weer geen groenkruidenier. En speelgoed wordt nooit playgoods, maar altijd toys. Een beroemde grap is ook dustsucker voor stofzuiger (moet zijn vacuum-cleaner of hoover), en de fraaiste die Schoorl geeft vind ik unthroughgroundily voor ondoorgrondelijk.

Maar de fabrikant van stofzuigers of wat dan ook zit natuurlijk niet te wachten op grappen in zijn gebruiksaanwijzingen, evenmin als de leden van het Europese Parlement komische notulen wensen. Al die samenstellingen zullen dus ‘met de hand’ ingevoerd moeten worden, en hetzelfde geldt voor uitdrukkingen: het is puur toeval dat Engelstaligen op het moment dat wij ‘de pijp uitgaan’ ‘de emmer schoppen’, dat moet een vertaalprogramma dus expliciet verteld worden.

Dit alles levert op zichzelf al een niet te overziene hoop moeilijkheden op, terwijl we het nog niet eens gehad hebben over woorden met meer dan een betekenis (bank is de bekendste) en dus vaak meer dan een vertaling.

Hier kan monikenwerk nauwelijks nog enige uitkomst brengen, omdat het probleem van ‘kennis van de wereld’ om de hoek komt kijken. In een zin waarin ouderlingen tijdens de dienst uit de bank vallen, weten wij mensen direct dat het wel om een kerkbank zal gaan. De juiste Engelse vertaling is in dat geval niet bench of iets dergelijks, maar pew.

Je kunt proberen om de computer enige ‘contextkennis’ te geven, door aan een woord als ouderling het kenmerk KERK vast te plakken, bijvoorbeeld.

Grammatica-regels

Treft je programma dat kenmerk in de buurt van bank aan, dan zal het kiezen voor de vertaling die ook KERK als kenmerk meedraagt. In dit geval zou dat pew moeten zijn. Waterdicht is een dergelijke aanpak natuurlijk nooit, ook een ouderling kan op een bankje in het park zitten. En daar komt bij dat het vrijwel ondoenlijk is bij alle woorden alle relevante kenmerken te geven.

Helemaal lastig wordt het een computer het verschil te laten begrijpen tussen Jan ging met zijn autootje naar zolder en Jan ging met zijn autootje naar Delft. In het Russisch bijvoorbeeld moeten die twee metten verschillend vertaald worden, maar er is verdomd veel kennis van de wereld nodig om te weten dat Jan in het eerste zinnetje zijn (speelgoed)autootje onder de arm neemt en de trap oploopt, terwijl de tweede Jan in zijn auto stapt om naar Delft te rijden.

Maar de computer moet niet alleen ‘het juiste woord’ zien te vinden, dat woord moet ook nog op ‘de juiste plaats’ komen te staan. Schoorl geeft een paar mooie voorbeelden van het ‘Stone-Coal English’ (zoals hij het noemt) dat het resultaat is van woord-voor-woord-vertalingen. Van die dingen als This book have many people even twice read in plaats van Many people have read this book even twice voor Dit boek hebben veel mensen zelfs tweemaal gelezen. Hier moeten grammatica-regels uitkomst bieden.

Schoorl boos

Ik weet niet wat voor persoonlijke frustraties Schoorl heeft opgelopen bij theoretisch taalkundigen, maar de hoge toon die hij ineens aanslaat zodra het over grammatica gaat is onbegrijpelijk.

Dat is bijzonder jammer, want de rest van zijn boekje is in een prettige en duidelijke stijl geschreven, en overal worden flinke hoeveelheden voorbeelden van gegeven. Dat houdt plotsklaps op als hij over theoretische grammatica begint. Het lijkt er nog het meeste op dat Schoorl boos is omdat taalkundigen nog niet alle volgorde-regels kennen die voor een goede vertaling onontbeerlijk zijn.

Dat is natuurlijk lastig, maar toch een wat vreemd verwijt. Zeker als vervolgens blijkt dat vrijwel alles wat vertaalprogramma-makers aan grammatica-regels gebruiken rechtstreeks uit de theoretische hoek komt. Schoorl gaat hier trouwens maar heel summier op in, en voortdurend blijkt dat hij onvoldoende thuis is in de theoretische linguistiek.

Die vreemde bozige toon ontsiert ook af en toe het tweede deel van zijn boek. Daarin schetst Schoorl kort een aantal lopende en beginnende vertaalprojecten in binnen- en buitenland.

Hoeveel zijn impressies, gebaseerd op literatuurstudie en korte bezoekjes, waard zijn weet ik niet. Hijzelf is ook nogal sceptisch over de resultaten die hij te zien kreeg. Geen enkel programma is in staat tot een goede vertaling zonder ‘hulp van buitenaf’.

Die hulp kan vooraf, tijdens of na de machinale vertaling geboden worden. In jargon heet dat pre-, inter- en post-editing. Pre-editing kan bestaan uit het simplificeren van de invoertekst (alleen woorden en constructies die het programma kent), bij inter-editing kan de computer tussentijds vragen stellen (bedoel je met bank een geldinstelling?) en bij post-editing verbetert iemand de uiteindelijk vertaling.

Schoorl geeft ruwweg een indicatie van de weg die de verschillende projecten proberen te bewandelen. Ook daar geeft hij weer de nodige uitleg bij, zodat ook mensen die alleen iets over pakweg Eurotra, Systran of Rosetta willen weten veel aan dit boek kunnen hebben.

 Wie kennis heeft genomen van het eerste deel van het boek zal overigens toch het nodige respect hebben voor de vertaalresultaten die sommige projecten weten te boeken. Maar, besluit Schoorl zijn boek: ‘de weg naar echte automatische vertalers is nog zo lang, dat van hieruit niet te zien is of hij eigenlijk niet doodloopt’.