door Liesbeth Koenen ©
24-07-1986
NRC Handelsblad

De Taalmachine

De Vertaalmachine

Vertaalcomputers zijn een denkbeeld uit de jaren zestig. Nu weet men wel beter. Zelfs het weerbericht gaat fout.

Vertalen is een vak. Wie het goed doet kan er zijn brood mee verdienen, wie het heel goed doet kan er zelfs prijzen mee winnen. Is het mogelijk dat vak aan een computer te leren? Of anders gezegd: hoe groot is de kans dat de Nijhoff-prijs ooit nog eens naar een programmeur gaat?

Computers zijn sterren in het onthouden, vinden en koppelen van gegevens. Dat heeft mensen tientallen jaren geleden al op het idee gebracht dat het mogelijk moet zijn om computers teksten van de ene in de andere taal te laten omzetten. Want wat is vertalen anders dan gegevens uit de ene taal koppelen aan gegevens uit de andere taal?

Helemaal zo simpel ligt het niet. Een groot probleem is bijvoorbeeld dat een computer niets begrijpt. Bovendien begrijpen wij zelf ook maar heel gedeeltelijk iets van taal en vertalen. We kunnen een computer wel gegevens laten koppelen, maar dan moeten we eerst zelf weten welke gegevens belangrijk zijn en hoe ze gekoppeld moeten worden.

Zelfs de juiste vertaling van een enkel woord levert al snel moeilijkheden op. Iedere taal heeft hele reeksen woorden met verschillende betekenissen. Zo kun je zowel op een Engelse als op een Nederlandse bank geld halen. Ook kun je er in beide talen op gaan zitten, alleen bevind je je in Nederland dan in de huiskamer of in een parkje, terwijl je in Engeland aan het water zit. Hoe kan een computer weten of het om een geldinstelling of om een uitgebreide stoel gaat?

Of, uitgaande van het Engels, om zo’n zelfde instelling of om een oever? En is een Duitse linse een lens of een lins, een Italiaans paese een land of een dorp? Andersom zijn er in het Frans wel zes verschillende woorden voor verschillende soorten stokbrood. Hoe laat je een computer kiezen tussen baguettes, flûtes en bâtards? En trouwens is een flûte nou een brood, een glas of een fluit?

The box is in the pen
Een veel geciteerd voorbeeld in dit verband is het voor Nederlanders nogal verwarrende Engelse zinnetje The box is in the pen. Een pen is ook in het Engels een schrijfinstrument, maar daarnaast heet wat wij een box noemen ook een pen. Een doos (box) kan zich niet in een pen bevinden, maar wel in een box. De juiste vertaling van pen is in dit geval dus ook box, en niet pen. Maar een computer die niets ziet, hoort, of voelt, mist de aanknopingspunten die wij hebben om te beslissen welke betekenis in welk geval het meest voor de hand ligt.

Uitdrukkingen vormen weer een apart probleem. Een Nederlander wordt in de maling genomen, een Italiaan in de rondte, en een Engelsman wordt aan zijn been getrokken. Een mens kan vaak nog wel aanvoelen dat iets wel een uitdrukking zal zijn, een computer moet je dat altijd expliciet vertellen, anders vertaalt hij letterlijk wat er staat. Met alle komische maar ook vaak onbegrijpelijke resultaten vandien. Alleen heel af en toe gaat het vanzelf goed: zo rookt bijvoorbeeld wel vrijwel heel Europa als een schoorsteen.

Nog lastiger wordt het als je gaat kijken naar de verschillende middelen waarmee in verschillende talen hetzelfde gezegd wordt. Zo wordt I like Margareth in het Nederlands Ik vind Margreet aardig. Het werkwoord like moet vertaald worden met een werkwoord (vinden) plus een bijvoeglijk naamwoord (aardig), en die twee moeten bovendien op heel verschillende plaatsen in de zin komen te staan.

De plaats van woorden in de zin, de syntaxis, is natuurlijk altijd een belangrijk punt waarop talen onderling enorm kunnen verschillen. Woord-voor-woord vertalingen zijn vaker grappig dan grammaticaal. Ik voel me niet goed is in het Engels niet I feel me not good. Evenmin als I feel bad in het Nederlands Ik voel slecht moet worden. Mensen kunnen die dingen redelijk gemakkelijk en deels onbewust oppikken: er is waarschijnlijk niet een tweede klasser op de middelbare school die Kunt u mij misschien vertellen hoe laat het is? op een proefwerk weer zou geven als Can you me maybe tel  how late it is? of Pouvez vous moi peut-être raconter comment tard il est?

Nog lastiger bij Turks
Het aantal problemen dat voor een goede vertaling aangepakt moet worden is voor een deel afhankelijk van hoever talen uit elkaar liggen. Een eenvoudige vraag als Is hij ziek? kan in veel Westeuropese talen nog wel woord voor woord vertaald worden: Is he ill?, Ist er krank?, Est il malade?, maar in bijvoorbeeld het Spaans en het Italiaans wordt het persoonlijk voornaamwoord hij weggelaten: Está enfermo?, É malato? Vertaal je zo’n zinnetje vanuit die talen naar het Frans, Duits, Engels of Nederlands dan moet er schijnbaar uit het niets een woord bijkomen. Nog lastiger wordt het bij het Turks: ook daar kun je hij (o) weglaten, maar dat hoeft niet. Het koppelwerkwoord zijn kent het Turks niet, dus dat moet bij een vertaling uit het Nederlands verdwijnen. Bovendien moeten de nu overgebleven vormen hij/o en ziek/hasta omgekeerd worden. En O hasta wordt pas een vraag wanneer het woordje mi erachter gezet wordt: O hasta mi? Een hele reeks operaties dus voor een eenvoudig drie-woords-zinnetje.

Niet zo gek, al met al, dat het beste vertaalprogramma van dit moment uitsluitend weerberichten van het Engels in het Frans kan vertalen. Die twee talen liggen niet krankzinnig ver uit elkaar en weerberichten zitten natuurlijk boordevol vaste frasen en uitdrukkingen. De zinnen zijn meestal in een soort telegramstijl geschreven en de benodigde woordenschat is heel beperkt. Toch vertaalt dit programma (dat ontwikkeld is aan de universiteit van Montreal) nog twintig procent van de zinnen verkeerd. Daar staat tegenover dat het per jaar maar liefst vijf miljoen woorden verwerkt. Al die vijf miljoen woorden ‘met de hand’ vertalen kost meer tijd dan in een op de vijf zinnen een correctie aanbrengen.

Tegenwoordig denkt niemand meer dat het mogelijk is om binnen een paar jaar tijd een perfect werkende automatische vertaler te bouwen. De eerste golf van enthousiasme uit de jaren vijftig, toen de gedachte aan machinaal vertalen net opgekomen was, is voorgoed weggeëbd. Of beter: die golf bleek stuk te slaan op een muur van onwetendheid. Over vertalen en taal in het algemeen was nog zo weinig nagedacht dat men zich enorm verkeek op de complexiteit van de verschijnselen waar men mee te maken kreeg. Inmiddels is gevoeglijk bekend dat het geweldig moeilijk is alle aspecten van een, laat staan twee talen op een sluitende manier te beschrijven. Dat voorkomt al te hooggespannen verwachtingen van de programma’s waaraan nu gewerkt wordt.

Want na jarenlang stilgelegen te hebben is de geldstroom voor het ontwikkelen van de vertaalmachine weer een beetje op gang gekomen. De reden daarvoor zou kunnen zijn dat zowel de computertechnologie als de taalkunde nu meer mogelijkheden bieden dan pakweg vijftien jaar geleden. Bovendien horen computers zo langzamerhand tot het vaste meubilair van vrijwel ieder bedrijf.

Dat laatste is in ieder geval voor het software-bedrijf BSO een reden te werken aan vertaalprogramma’s. Zij hebben zoiets als een wereldwijd netwerk van computers voor ogen, waarbij het mogelijk moet zijn dat iedereen met ieder ander in zijn eigen taal correspondeert, en ook alle antwoorden in zijn eigen taal op het scherm terugkrijgt. De bedoeling is dat dat alsvolgt gaat lopen: stel ik moet voor mijn firma een brief schrijven aan een van onze Russische klanten. Ik begin te typen en terwijl ik dat doe begint de computer wat ik schrijf meteen te vertalen in het Esperanto. Weet hij niet of ik met board triplex, kost of directie bedoel dan vraagt hij dat even. Is de brief eenmaal vertaald dan flitst de Esperanto-versie via glasvezelkabels naar mijn collega in Moskou. Zijn terminal bewerkt de Esperanto tekst en spuugt mijn brief in het Russisch uit. Een kwartiertje later kan ik mijn baas melden dat de transactie met onze klant doorgaat.

Science-fiction voorlopig dit verhaal. Er is geen enkele reden om aan te nemen dat een vertaling naar het Esperanto probleemlozer zou verlopen dan een vertaling naar een gewone, niet verzonnen taal. Sterker nog: omdat veel dingen niet gedefinieerd zijn in het Esperanto neem je de dubbelzinnigheden en veel van de eigenaardigheden uit je eigen taal mee, en ben je dus nog steeds even ver van huis.

Realistischer project
Bij Philips wordt aan een iets realistischer project gewerkt. Het heet Rosetta (naar de steen) en houdt zich om te beginnen maar met drie talen bezig: Nederlands, Engels en Spaans. Het idee achter deze onderneming is het volgende: voor je een zin kunt vertalen moet je hem eerst analyseren. Die analyse gaat stapsgewijs, en voor iedere stap die je in de ene taal zet, moet je ook een stap in de andere twee talen zetten. Vereist een vraagzin in het Nederlands bijvoorbeeld vijf stappen, dan moeten er bij de analyse van een Spaanse vraagzin ook vijf stappen gezet worden, desnoods eentje waarin er niets gebeurt. Zo hou je volkomen gelijkvormige grammatica’s. Is de analyse van de Nederlandse zin klaar, dan kun je dezelfde weg volgen, maar dan in omgekeerde volgorde, voor het maken van de Spaanse of Engelse vertaling. Het idee is aantrekkelijk, de praktische uitwerking natuurlijk vol valkuilen en addertjes onder het gras.

Het derde en laatste vertaalproject waarbij ons land betrokken is heet Eurotra. Eurotra is een door de EG opgezet en betaald project, waaraan in alle lidstaten gewerkt wordt. Dat juist zij bereid zijn iets dergelijks te financieren is niet verwonderlijk: een goed werkend automatisch vertaalsysteem zou een uitkomst zijn voor de eindeloze stapels papier die in Europees verband geproduceerd worden.

Helaas valt op de opzet van dit project heel wat aan te merken. De medewerkers van Eurotra beginnen nota bene zelf iedere lezing met te zeggen dat er niet veel te verwachten valt van een project waarvan de deelnemers verspreid zitten over een heel continent. Regelmatig overleg met alle betrokkenen is moeilijk, een lijn trekken bij het te lijf gaan van de problemen ook. Want de lijn die van tevoren uitgestippeld is, is inderdaad niet meer dan een stippellijn. Het lijkt of er hap-snap wat ideee”n gebundeld zijn en het is voorlopig maar helemaal de vraag of de verschillende uitvoerders daarmee uit de voeten kunnen.

Rond 1990 moeten al deze vertaalmachine-plannen resultaten op gaan leveren. Dat die niemand de Nijhoff-prijs zullen bezorgen staat wel vast.