Facebook stapt over op neurale netwerken voor vertalingen

Facebook is recent overgestapt van zogenoemde phrase-based vertaalmodellen naar neurale netwerken voor zijn systemen die zorgen voor de automatische vertalingen op het sociale netwerk. Dagelijks handelen die systemen 4,5 miljard vertalingen af.

Facebook gebruikt voortaan neurale netwerken en stapt af van op zinsdelen gebaseerde vertaalmodellen, omdat deze modellen beperkingen kennen, schrijft het sociale netwerk. Bij het opbreken van zinnen kunnen slechts enkele woorden tegelijk geanalyseerd worden. Er kunnen met name fouten ontstaan bij vertalingen waarbij de volgorde van woorden in een zin van de ene taal, flink anders is dan die van een andere taal.

Facebook gebruikt daarom een techniek voor neurale netwerken die sequence-to-sequence-lstm heet, waarbij lstm staat voor long short-term memory. Deze techniek gebruikt een reeks woord-tokens in de ene taal als input, en produceert een reeks woord-tokens in de andere als output. Volgens Facebook nemen de neurale netwerken de gehele context van de bronzin mee en kan daarom rekening worden gehouden met grote verschillen in woordvolgorde bij vertalingen. Het sociale netwerk geeft een voorbeeld van de vertaling tussen Engels en Turks; zie de afbeelding hieronder.

Facebook gebruikt zijn deep learning-framework Caffe2 om ervoor te zorgen dat de modellen snel genoeg draaien en schaalbaar zijn. Het sociale netwerk richt zich nu op het laten meewegen van foto's bij vertaling van onderschriften en op het gebruik van meertalige modellen, waarbij zinnen tegelijk naar meerdere talen omgezet worden, om zo de vertaling tussen twee talen te verbeteren.

Google stapte eind vorig jaar over van phrase-based vertalingen naar zijn eigen Google Neural Machine Translation System, dat eveneens gebaseerd is op sequence-to-sequence-lstm.

Facebook sequence-to-sequence LSTM

Facebook sequence-to-sequence LSTM

Bovenaan een phrase-based vertaling, daaronder de sequence-to-sequence-lstm-variant.

Door Olaf van Miltenburg

Nieuwscoördinator

04-08-2017 • 12:17

68 Linkedin Whatsapp

Reacties (68)

68
65
31
2
1
22
Wijzig sortering
Heb het altijd interessant gevonden, automatische vertaling. Het is nu ook mijn job. En ik moet zeggen dat er in mijn ogen sowieso teruggegrepen zal moeten worden naar de taal en diens structuur zelf.

Simpel gezegd is wat deze grote bedrijven nu doen neurale netwerken loslaten op de GI-GANTISCHE hoeveelheid die ze beschikbaar hebben - die jij en ik hen hebben toegekend. Daaruit worden modellen afgeleid en dan krijg je een tot op zekere hoogte context gevoelige vertaalengine die in veel gevallen een 'verstaanbare' vertaling kan maken. Neurale netwerken (maar ook nog steeds SMT) hebben dus zeker hun nut op dit soort websites.

Echter, als je met echte vertalers werkt en CAT tools ontwerpt (computer-assisted translation), dan wordt er wel wat meer verwacht dan 'verstaanbaarheid'. Zaken zoals juiste woordvolgorde, bijvoorbeeld, is een belangrijk pijnpunt, net zoals semantische en contextuele ambiguïteit. Als je genoeg data hebt, zal semantische ambiguïteit nog wel werkbaar zijn. Maar de woordvolgorde is in veel gevallen (denk aan het vertalen van handleidingen, wetteksten, medische dossiers) zo hard vervormd dat een vertaler niets kan aanvangen met de voorgestelde vertaling, of té veel werk moet stoppen in het herschrijven.

Ik ben waarschijnlijk biased door mijn taalkundige achtergrond, maar ik ben een sterk voorstander van dependency parsing. Ik hoop verder in mijn loopbaan dan ook dependency parsing/dependency grammars te kunnen combineren met NMT - wat niet zo evident is, aangezien ik zou willen vertrekken van een universal grammar en geen grammatica voor elke taal.

Hoe het ook zij, het is fijn dat veel bedrijven zo met vertaling bezig zijn, maar het is in veel gevallen puur voor consumptie. Op professioneel gebied zijn deze vertalingen nog steeds niet bruikbaar, en vaak niet toepasbaar door een gebrek aan context gevoelige data. Daarom hoop ik dat deze bedrijven niet hun kop in het zand steken en gewoon verder hun NMT engine blijven volstoppen met nieuwe data van hun (sociale) netwerken, maar ook eens kijken naar het verdere nut van vertalingen. (Denk bijvoorbeeld aan real-time vertalingen in ziekenhuizen, rechtzaken, ondervragingen, scholen enz. waar de juistheid in de context van groot belang is.)
Ik ben ook vanuit professie geïnteresseerd in de ontwikkelingen mbt vertalen door een neuraal netwerk.

Ik ben van mening dat het nog erg lang gaat duren (ik denk eigenlijk dat het niet mogelijk is) voordat geautomatiseerde vertalingen 100% correct zullen zijn. Een hele belangrijke rede hiervoor is dat er ook zinsconstructies zijn waarbij de besluitvorming om de correcte grammaticale constructie te kiezen niet te maken heeft met grammatica zelf, maar met algemene kennis die niets met taal of grammatica te maken heeft. Als het dus lukt om een neuraal netwerk te bouwen die alle grammaticale regels omvat (voor een bepaalde taal) zal je nog tegen dit soort constructies aanlopen waar het neurale netwerk niets mee kan.
Een hele belangrijke rede hiervoor is dat er ook zinsconstructies zijn waarbij de besluitvorming om de correcte grammaticale constructie te kiezen niet te maken heeft met grammatica zelf, maar met algemene kennis die niets met taal of grammatica te maken heeft.
Nou, dat is dus wat een AI juist wel kan.
Dit soort AI's haalen hun kennis uit gigantische hoeveelheden voorbeelden (en dus niet uit het gramaticaboek :) ).
Ze zitten niet vast aan een gramatica maar kunnen daaromheen werken vanwege de voorbeelden die dat ook doen.
Ze bouwen als het ware een eigen multidimensionale vertaaltabel waarbij de grammatica slechts impliciet is. Ze zouden zelfs geen idee kunnen hebben van grammatica als zodanig.
Een heleboel voorbeelden, waardoor het netwerk na lange tijd grammaticale constructies kan herkennen en op andere plaatsen kan toepassen. Als het zo wil zien is de stelling dan: je kan het netwerk niet genoeg voorbeelden geven omdat er situaties zijn waarbij je niet de goede beslissing kan nemen omdat je naar andere voorbeelden hebt gekeken, maar omdat je kennis moet hebben buiten alle overige situaties.
Dat soort problemen gaan dan ook inderdaad optreden.
Het neuraal netwerk heeft alleen referenties die in de dataset voorkomen.
Maar dit gaat over facebook, he :)
Die hebben nogal wat voorbeelden. Maar waarschijnlijk zullen die wel richting 'agemeen gebruik' zijn geheld, dus in bepaalde specialistische contexten zal het netwerk tekort schieten.
Zover ik weet werkt een neuraal netwerk niet met een dataset, heeft ook niets met specialistische context te maken, maar met constructies waarbij de correcte grammaticale keuze afhangt van de betekenis van de zin, en niet van de woorden / grammatica die om dat woord heen staan.
Zover ik weet werkt een neuraal netwerk niet met een dataset,
Niet direct, nee.
Een neuraal netwerk is in het begin helemaal blanco. Je moet het structuur geven door middel van training.
En dat trainen gebeurt op basis van een dataset.
heeft ook niets met specialistische context te maken, maar met constructies waarbij de correcte grammaticale keuze afhangt van de betekenis van de zin
'Betekenis' is afhankelijk van context.
Als de AI niet is getraind op een set waar een bepaalde context heerst dan kan het nooit later de juiste betekenis toekennen aan iets dat wel vanuit die context gezien moet worden.

Sowiso moet je denk ik niet denken in termen van 'betekenis'.
Een neuraal netwerk legt op een vij ondoorgrondbare manier verbanden tussen dingen vast, maar voegt daar zelf geen betekenis aan toe.
Punt blijft dat het hier gaat om constructies of contexten die niet taal gerelateerd zijn, je kunt het netwerk dus een heleboel taal laten analyseren, maar dan blijven er beslissingen over die met die kennis niet te nemen zijn, daar heb je algemene kennis voor nodig. Je kunt een netwerk niet 'de hele wereld' laten analyseren (disclaimer: vooralsnog).
Punt blijft dat het hier gaat om constructies of contexten die niet taal gerelateerd zijn, je kunt het netwerk dus een heleboel taal laten analyseren, maar dan blijven er beslissingen over die met die kennis niet te nemen zijn, daar heb je algemene kennis voor nodig. Je kunt een netwerk niet 'de hele wereld' laten analyseren (disclaimer: vooralsnog).
Dit zijn denk ik twee losse punten.
1. Dat er contexten verborgen blijven voor het netwerk omdat het daar nooit een voorbeeld van heeft gezien.
Daar ben ik het mee eens. Zo'n netwerk is erg afhankelijk van het leerproces.
Maar dat geldt net zo goed voor een mens.

2. Dat je zo'n netwerk de hele wereld zou moeten laten analyseren.
Dat klopt volgens mij niet. Een mens weet immers ook niet alles.
Je hoeft helemaal niet de aanname te maken dat zo'n AI alle mogelijke contexten moet kunnen begrijpen. Geef een menselijke vertaler een specialistisch boek en die zal ook eerst specialistische kennis moeten opdoen voor ie het goed kan vertalen.
Dat kan je met neurale netwerken ook gewoon doen. Je kunt het bijvoorbeeld trainen met een set met medisch gerelateerde boeken of iets dergelijks.
Ik kan de bron niet meer vinden, maar ik weet de zin waar het hem in zat wel ongeveer, dat geeft wat meer inzicht in de problematiek die ik bedoel.

Neem de zin:
De vaas past niet in de koffer omdat hij te klein is.

Hij verwijst hier naar 'de koffer'.

Verander je de zin in:
De vaas past niet in de koffer omdat hij te groot is.

Dan verwijst hij ineens naar 'de vaas', terwijl er grammaticaal niets is veranderd aan de zin. Als mens is het erg eenvoudig vast te stellen dat als iets ergens niet in past het blijkbaar te groot is, voor een neuraal netwerk is deze informatie niet beschikbaar, dit gaat om 'algemene kennis' die niets met grammatica van doen heeft.

In het Nederlands is dit uiteraard geen probleem, maar als je 'koffer' en 'vaas' mannelijk of vrouwelijk moet vervoegen gaat dit natuurlijk snel fout.

Dit heeft dus ook niets met een specialistische (bijvoorbeeld medische) context te maken.

[Reactie gewijzigd door MerijnB op 4 augustus 2017 21:24]

Neem de zin:
De vaas past niet in de koffer omdat hij te klein is.

Hij verwijst hier naar 'de koffer'.

Verander je de zin in:
De vaas past niet in de koffer omdat hij te groot is.
Maar zo 'denkt' een NN helemaal niet volgens mij.
Beide zinnen zijn met behulp van voorbeelden best te vertalen zonder dat je een idee van de inhoud hebt.

Het is pas waneer je de zin inhoudelijk wilt begrijpen dat je dit soort problemen gaat krijgen.
En dat hoeft een NN dus helemaal niet te doen om toch een mapping te maken naar dezelfde zin in een andere taal.
Een nn zal nav een heleboel voorbeelden de grammaticale regels gaan 'snappen' (of meer in staat zijn om te voorspellen welke output verwacht wordt bij welke input).
Dit voorbeeld heeft niets met grammatica te maken, je zal dus met talloze voorbeelden van een constructie als dit moeten komen voordat het nn dit 'snapt'.

Dit is echter niet mogelijk omdat je een constructie als dit eindeloos kan variëren, dat is dus enorm lastig voor een nn om te beheersen.
Ja maar jij verwacht weer dat dat NN oneindig veel varianten moet kennen. :) In werkelijkheid is er een beperkte hoeveelheid varianten en niet alle varianten hoeven gedekt te worden.
Ja maar jij verwacht weer dat dat NN oneindig veel varianten moet kennen. :)
Nee hoor, alleen genoeg om 'inzicht' te krijgen om bij bepaalde input de gewenste output te kunnen genereren.
In werkelijkheid is er een beperkte hoeveelheid varianten en niet alle varianten hoeven gedekt te worden.
Als het om taal gaat kan je je daar lelijk in vergissen (en dat is eigenlijk precies het punt wat ik maak). Aan te raden leesvoer hierover is Het Taalinstinct van Steven Pinker.
Nee hoor, alleen genoeg om 'inzicht' te krijgen om bij bepaalde input de gewenste output te kunnen genereren.
Maar je haalde allerlei superlatieven aan zoals 'eindeloos' en 'talloze'. :)
Maar ik ben blij dat je in ieder geval inziet dat er een bepaalde hoeveelheid 'leerstof' bestaat die je als genoeg kan beschouwen.
Het grappige aan NNs is dat ze verborgen verbanden (dus bijvoorbeeld die niet door normale taalregels worden beschreven) kunnen vangen. Ik ben dus van mening dat je mischien niet zoveel voorbeelden nodig hebt als jij lijkt te denken. Je hoeft denk ik niet alle mogelijke varianten aan een NN te voeren om het toch dat verband uit je voorbeeld te laten vastleggen.
Een NN kan denk ik ook prima met ambiguiteiten omgaan (wat de basis vormt van jouw voorbeeld).
Aan te raden leesvoer hierover is Het Taalinstinct van Steven Pinker.
Ik heb het eerste hoofdstuk online gelezen, maar wat is dat een slecht vertaald boek! Ik kwam er amper doorheen. :X
Ik zal eens kijken of ik de engelse versie kan vinden.
Maargoed, dat boek telt meer dan 500 pagina's. Ga ik niet snel uitlezen. :)
Mischien kun je gewoon zeggen waar je het over hebt.
Wat ik er in ieder geval uit opmaak is dat je taal eigenlijk te specifiek (en diep menselijk) vindt om door een NN te worden beschreven. Klopt dat?
Maar je haalde allerlei superlatieven aan zoals 'eindeloos' en 'talloze'. :)
Als je 'taal' 100% wil afdekken zal er flink wat informatie in moeten gaan idd.
Maar ik ben blij dat je in ieder geval inziet dat er een bepaalde hoeveelheid 'leerstof' bestaat die je als genoeg kan beschouwen.
Ik snap niet precies waarom je daar ooit aan getwijfeld hebt.
Het grappige aan NNs is dat ze verborgen verbanden (dus bijvoorbeeld die niet door normale taalregels worden beschreven) kunnen vangen. Ik ben dus van mening dat je mischien niet zoveel voorbeelden nodig hebt als jij lijkt te denken.
Dat NNs verborgen verbanden kunnen vinden ben ik met je eens, de rest (in context van het voobeeld wat ik gaf) niet echt, omdat de 'kennis' die nodig is om hier een goede beslissing nodig te maken niets met de context grammatica te maken heeft (je kan dit dus een verborgen verband noemen, maar wat mij betreft heeft dit geen verband met grammatica).
Een NN kan denk ik ook prima met ambiguiteiten omgaan (wat de basis vormt van jouw voorbeeld).
Ik denk niet dit dit een ambiguïteit is, er is geen dubbelzinnigheid hier (het is voor een mens ook heel makkelijk de goede beslissing te maken).
Ik heb het eerste hoofdstuk online gelezen, maar wat is dat een slecht vertaald boek! Ik kwam er amper doorheen. :X
Ik zal eens kijken of ik de engelse versie kan vinden.
Maargoed, dat boek telt meer dan 500 pagina's. Ga ik niet snel uitlezen. :)
Een boek over taal vertalen zal wel niet zo makkelijk zijn, ik had er zelf niet zoveel moeite met de vertaling though. Het is wel een dikke pil met zware kost.
Mischien kun je gewoon zeggen waar je het over hebt.
Volgens mij ben ik vanaf het begin heel erg duidelijk: dit voorbeeld geeft aan dat je taal niet (100%) kunt afvangen door grammatica 100% af te vangen (dit staat eigenlijk gewoon in m'n eerste post).
Wat ik er in ieder geval uit opmaak is dat je taal eigenlijk te specifiek (en diep menselijk) vindt om door een NN te worden beschreven. Klopt dat?
Niet per se te specifiek, maar iig te complex / groot om (op dit moment) door een NN te worden beschreven.

Dit alles is komt overigens niet uit mijn eigen duim, dit probleem en voorbeeld heb ik ergens gehoord of gelezen (bron nog steeds niet teruggevonden) van iemand die bij een grote techgigant of universiteit oid onderzoek doet / deed naar specifiek dit (neurale netwerken en taal / vertalen).
Als je 'taal' 100% wil afdekken zal er flink wat informatie in moeten gaan idd.
Ja, maar daar kom je weer :)
Niemand heeft gespecificeerd dat zo'n NN ook 100% van alle gevallen moet afdekken.
Jij blijft het op de spits drijven en komt dan tot de conclusie dat je niet alles kunt afdekken.
Maar dat geldt voor mensen net zo. Er zijn altijd contexten die voor individuen niet te begrijpen zijn simpelweg omdat ze de informatie missen.
Als je van een NN verwacht dat het bepaalde contexten 'snapt' dan moet je het op een dataset trainen die daar voorbeelden van bevat.
Dat NNs verborgen verbanden kunnen vinden ben ik met je eens, de rest (in context van het voobeeld wat ik gaf) niet echt, omdat de 'kennis' die nodig is om hier een goede beslissing nodig te maken niets met de context grammatica te maken heeft (je kan dit dus een verborgen verband noemen, maar wat mij betreft heeft dit geen verband met grammatica).
Ja, so what dat het geen gramatikaal verband is ? :) Een verband is een verband. Een NN is niet beperkt tot het detecteren van gramaticale verbanden.
Je duwt voor de zoveelse keer het idee van NN in een klein hoekje door er allerlei aannames over te maken en maakt dan statements over dat het niet zou functioneren.
Ik denk niet dit dit een ambiguïteit is, er is geen dubbelzinnigheid hier (het is voor een mens ook heel makkelijk de goede beslissing te maken).
Vanuit gramaticaal opzicht is het zeker een ambiguiteit. Wij gaan daarmee om door een zin in context te plaatsen en vervolgens wordt de gramaticale intentie pas duidelijk. Zie jouw voorbeeld van de vaas en de koffer.
Volgens mij ben ik vanaf het begin heel erg duidelijk: dit voorbeeld geeft aan dat je taal niet (100%) kunt afvangen door grammatica 100% af te vangen (dit staat eigenlijk gewoon in m'n eerste post).
Alleen maak je niet hard waarom zo'n NN dan 100% van taal zou moeten kunnen interpreteren. Een mens kan dat ook niet.
Het nut van NN's staat of valt niet met een 100% nauwkeurigheid. En gezien de statistische aard van NN's (inclusief demenselijke) is het uberhaupt lastig aan te nemen dat er zoiets als 100% nauwkeurigheid bestaat.
Niet per se te specifiek, maar iig te complex / groot om (op dit moment) door een NN te worden beschreven.
Waarom zijn er dan chatbots zoals die nazibot van microsoft laatst waar je toch redelijk een gesprekje in natuurlijke taal mee kunt hebben?

Het lijkt er voor mij op dat je doelpalen aan het verschuiven bent. De verwachting die je van NN's hebt leg je altijd verder dan wat je mogelijk acht. Op die manier zul je nooit iets zinnigs uit NN's krijgen simpelweg omdat ze niet in staat zijn om aan jouw '100%' verwachting te voldoen.
Waanzin! :)
Dit alles is komt overigens niet uit mijn eigen duim, dit probleem en voorbeeld heb ik ergens gehoord of gelezen (bron nog steeds niet teruggevonden) van iemand die bij een grote techgigant of universiteit oid onderzoek doet / deed naar specifiek dit (neurale netwerken en taal / vertalen).
Dan heb je alsnog het argument dat je daaruit extraheerde niet erg hard weten te maken.

Laten we bij het begin beginnen. Waarom vind jij dat een NN 100% van een taal moet kunnen begrijpen? Als ik een gemiddelde nederlander onze wetboeken laat interpreteren dan gaan die ook geen 100% scoren. Daar hebben we specialisten voor uitgevonden, niet? En die kennen de domeinspecifieke contexten.
Waarom zou je dit met NNs niet kunnen doen?
[...]

Ja, maar daar kom je weer :)
Niemand heeft gespecificeerd dat zo'n NN ook 100% van alle gevallen moet afdekken.
Jij blijft het op de spits drijven en komt dan tot de conclusie dat je niet alles kunt afdekken.
Maar dat geldt voor mensen net zo. Er zijn altijd contexten die voor individuen niet te begrijpen zijn simpelweg omdat ze de informatie missen.
Zoals eerder vermeld, dat klopt, maar de fouten die een neuraal netwerk zal maken zullen veel dommer (en daardoor het eindresultaat minder bruikbaar) dan de fouten die een mens zal maken.
Als je van een NN verwacht dat het bepaalde contexten 'snapt' dan moet je het op een dataset trainen die daar voorbeelden van bevat.
En die dataset zal te groot zijn om realistisch gezien aan een nn te geven
Ja, so what dat het geen gramatikaal verband is ? :) Een verband is een verband. Een NN is niet beperkt tot het detecteren van gramaticale verbanden.
Je duwt voor de zoveelse keer het idee van NN in een klein hoekje door er allerlei aannames over te maken en maakt dan statements over dat het niet zou functioneren.
Je kan het nn dan ook vragen hoe je moet breien? Dat heeft ook geen verband met grammatica, maar misschien heeft hij wel een stuk tekst over breien gekregen als Voorbeeld data.
Vanuit gramaticaal opzicht is het zeker een ambiguiteit. Wij gaan daarmee om door een zin in context te plaatsen en vervolgens wordt de gramaticale intentie pas duidelijk. Zie jouw voorbeeld van de vaas en de koffer.
Bij een ambuigiteit is er sprake van dubbelzinnigheid, maw je kan een zin op meerdere manieren interpreteren die allemaal zouden kunnen en je moet adhv de context snappen wel versie de goede is. Daar is hier geen sprake van, een mens kan, ook zonder context, altijd de goede versie kiezen omdat de andere versie gewoonweg niet klopt, dit is géén ambuigiteit.
Alleen maak je niet hard waarom zo'n NN dan 100% van taal zou moeten kunnen interpreteren. Een mens kan dat ook niet.
Het nut van NN's staat of valt niet met een 100% nauwkeurigheid. En gezien de statistische aard van NN's (inclusief demenselijke) is het uberhaupt lastig aan te nemen dat er zoiets als 100% nauwkeurigheid bestaat.
Van mij hoeft het niet perse 100% te zijn, maar dit soort uitzonderingen maakt dat het leuk is, maar niet geweldig bruikbaar. Eigenlijk wat BramVoy hierboven noemde (en wat ik met mijn post beaamde).
Waarom zijn er dan chatbots zoals die nazibot van microsoft laatst waar je toch redelijk een gesprekje in natuurlijke taal mee kunt hebben?

Het lijkt er voor mij op dat je doelpalen aan het verschuiven bent. De verwachting die je van NN's hebt leg je altijd verder dan wat je mogelijk acht. Op die manier zul je nooit iets zinnigs uit NN's krijgen simpelweg omdat ze niet in staat zijn om aan jouw '100%' verwachting te voldoen.
Waanzin! :)
Zelfde als eerder: de betrouwbaarheid van vertalingen van een nn zal door dit soort dingen bij die van mensen, en mogelijke fouten zullen erg in het oog springen en irritant zijn. Dat neemt natuurlijk niet weg dat er met waar we nu zijn al een heleboel wél kan (zoals de door jou genoemde chat bots).
Dan heb je alsnog het argument dat je daaruit extraheerde niet erg hard weten te maken.
Die mening mag jij hebben, en frankly, I don't care. Ik snap en onderschrijf de problemen die door andere personen zijn ontdekt, als jij dat niet doet... tja, weet niet wat ik daar mee moet.
Laten we bij het begin beginnen. Waarom vind jij dat een NN 100% van een taal moet kunnen begrijpen? Als ik een gemiddelde nederlander onze wetboeken laat interpreteren dan gaan die ook geen 100% scoren. Daar hebben we specialisten voor uitgevonden, niet? En die kennen de domeinspecifieke contexten.
Waarom zou je dit met NNs niet kunnen doen?
Zoals eerder, het gaat hier om dingen die voor een mens bijzonder eenvoudig zijn, maar voor een nn bijzonder lastig. Best kans dat we een taal georiënteerde nn later erg goed voor bepaalde zaken kunnen gebruiken, maar bij vertalen zie ik dit soort 'domme' fouten nog niet voorkomen worden door een nn.

[Reactie gewijzigd door MerijnB op 6 augustus 2017 20:01]

Bij een ambuigiteit is er sprake van dubbelzinnigheid, maw je kan een zin op meerdere manieren interpreteren die allemaal zouden kunnen en je moet adhv de context snappen wel versie de goede is. Daar is hier geen sprake van, een mens kan, ook zonder context, altijd de goede versie kiezen omdat de andere versie gewoonweg niet klopt, dit is géén ambuigiteit.
Een mens kan die zin helemaal niet correct begrijpen zonder context. Je moet weten welke vorm een gemiddelde koffer heeft en je moet weten welke vorm een vaas heeft en je moet weten wat het begrip passen betekent.
In dit geval moet je dus buiten die zin om iets extra's weten voordat je de grammatica kunt oplossen (de vraag dus waar het bijvoegelijk naamwoord op slaat).
De zin zelf is dus abigu. Het is alleen zo dat alle mensen in de westerse wereld wel eens een koffer hebben gezien en een vaas hebben gezien en een indruk hebben van hoe het een in het ander gaat passen. DAT is wat de ambiguiteit oplost.
Als jij deze zin zou voorlezen aan iemand die nog nooit een koffer of vaas heeft gezien dan zullen die de zin niet correct kunnen interpreteren, want er treed een ambiguiteit op in het toekennen van het bijvoegelijk naamwoord.
Ik snap en onderschrijf de problemen die door andere personen zijn ontdekt, als jij dat niet doet...
Alleen geef je geen enkel argument waarom dat zo zou zijn.
Zoals eerder, het gaat hier om dingen die voor een mens bijzonder eenvoudig zijn, maar voor een nn bijzonder lastig.
Alleen ga je hier weer niet in op mijn vraag waarom jij op die 100% nauwkeurigheid blijft hameren. Daar is volgens mij geen reden voor.
En volgens mij lijkt het voor jouw lastig omdat je de aanname maakt dat een NN dezelfde (geevolueerde) taalverwerkingspaden moet gebruiken als de mens. En dat is niet hoe NN's hoeven te werken.
Sowiso denk ik niet dat je vanuit de mens kunt redeneren (zoals dat taalboek van jou) om dit soort problemen op te lossen.
Je moet eerst kijken naar wat een NN op zich kan, hoe het werkt, hoe het informatie vastlegt, nog voor je de menselijke kant erbij haalt. Dan zul je zien dat NN's heel anders werken dan dat ingebakken systeem dat mensen bezitten.
Een mens kan die zin helemaal niet correct begrijpen zonder context. Je moet weten welke vorm een gemiddelde koffer heeft en je moet weten welke vorm een vaas heeft en je moet weten wat het begrip passen betekent.
In dit geval moet je dus buiten die zin om iets extra's weten voordat je de grammatica kunt oplossen (de vraag dus waar het bijvoegelijk naamwoord op slaat).
De zin zelf is dus abigu. Het is alleen zo dat alle mensen in de westerse wereld wel eens een koffer hebben gezien en een vaas hebben gezien en een indruk hebben van hoe het een in het ander gaat passen. DAT is wat de ambiguiteit oplost.
Als jij deze zin zou voorlezen aan iemand die nog nooit een koffer of vaas heeft gezien dan zullen die de zin niet correct kunnen interpreteren, want er treed een ambiguiteit op in het toekennen van het bijvoegelijk naamwoord.
Kijk, nu maak je zelf precies het punt dat ik steeds maak, idd niet ambigu voor mensen, omdat alle mensen dat stukje extra hebben. Een nn heeft dat stukje niet, waardoor deze zin, die voor mensen heel eenvoudig is, voor een nn niet goed te doen is.
Alleen geef je geen enkel argument waarom dat zo zou zijn.
Volgens mij heb je net zelf het argument verwoord.
Alleen ga je hier weer niet in op mijn vraag waarom jij op die 100% nauwkeurigheid blijft hameren. Daar is volgens mij geen reden voor.
Uit m'n post hierboven:
Van mij hoeft het niet perse 100% te zijn, maar dit soort uitzonderingen maakt dat het leuk is, maar niet geweldig bruikbaar. Eigenlijk wat BramVoy hierboven noemde (en wat ik met mijn post beaamde).
En volgens mij lijkt het voor jouw lastig omdat je de aanname maakt dat een NN dezelfde (geevolueerde) taalverwerkingspaden moet gebruiken als de mens. En dat is niet hoe NN's hoeven te werken.
Ik snap niet waarom je denk dat ik dat aanneem, ik herken me er iig niet in.
Sowiso denk ik niet dat je vanuit de mens kunt redeneren (zoals dat taalboek van jou) om dit soort problemen op te lossen.
Je moet eerst kijken naar wat een NN op zich kan, hoe het werkt, hoe het informatie vastlegt, nog voor je de menselijke kant erbij haalt. Dan zul je zien dat NN's heel anders werken dan dat ingebakken systeem dat mensen bezitten.
De rede dat ik dat boek genoemd heb is omdat het inzicht geeft in hoe complex taal is.
Daarbij redeneer ik niet vanuit mens of nn, maar vanuit het gewenste resultaat.
100% Correct is een hoge doelstelling. Haalt een menselijke vertaler ook niet altijd.
Eens, maar de fouten die een geautomatiseerde vertaling zal maken zullen (vermoed ik) veel 'dommer' en opvallender zijn dat vertalingen gedaan door mensen.
Ach, als het kan dan zet ik bij Engelstalige programma's en films juist standaard de Nederlandse ondertitelingen uit vanwege de vaak krankzinnig slechte vertalingen. Daar stoor je je mateloos aan als je vloeiend bent in Engels. En die zijn geschreven door mensen. Zelfs grammaticale en spelfouten zijn geen uitzondering en dat zie je een computer vaak minder doen.
Anoniem: 890159
@BramVroy4 augustus 2017 14:03
Leer ze ook eens omgaan met invoer die taalvauten bevat en waarin, interpunctie verkeerd staat Als zu dat snappuh hebbe hun enige mate van intelligentie. Tenslotte staan er op FB ook genoeg zinnen met taalfouten erin.
Dat is eigenlijk een gerelateerd product, een slimme corrector. Als FB actief kan voorkomen dat zulke rotzooi op FB komt, dan hoef je't ook niet te vertalen. En als de input zulke puinhoop is dat je Neurale Netwerk het niet meer kan corrigeren, dan is het de vraag of je't wel op FB wil hebben.

En eigenlijk is een corrector ook een soort vertaler: van slecht Engels naar goed Engels, van slecht Nederlands naar goed Nederlands, etc.
Anoniem: 890159
@MSalters4 augustus 2017 16:50
Zolang ik het snap en de AI niet valt er nog wat te verbeteren aan die AI.
Ik zou het behoorlijk eng vinden als een bedrijf als facebook de algoritmes of neurale netwerken levert voor vertaling in zulke kritieke gevallen als rechtszaken en ziekenhuizen. Zeker de netwerken die fundamenteel black box zijn. Hoe weet je of die eerlijk vertalen? Ze hebben geen geweten, dat is een ander neuraal netwerk :P
Was het niet zo dat facebook een paar dagen geleden research moest stilleggen omdat hun AI chatbots een eigen taaltje begonnen te ontwikkelen waar ze niks van snapten? En was het ook niet zo dat die AI's vervolgens vormen van list&bedrog hadden ontwikkeld zonder dat ze dat bij facebook ooit hadden ontworpen?
Superjammer dat tweakers dit over het hoofd heeft gezien, zeker na de boute uitspraken van zuckerberg laatst.

Ik ben het wat dat betreft met Musk eens. We moeten deze zooi reguleren. Bedrijven als facebook gaan ons nog een keer onze planeet kosten.

[Reactie gewijzigd door koelpasta op 4 augustus 2017 14:43]

Dat was vooral sensatiezoekerij. Het experiment verliep gewoon volgens plan en werd gestopt omdat het gewoon succesvol afgerond was. De onderzoekers waren ook vrij kwaad op al die sensationele artikelen en clickbait.
Het experiment verliep gewoon volgens plan en werd gestopt omdat het gewoon succesvol afgerond was.
Ooh, ik had begrepen dat ze helemaal niet hadden verwacht dat de ai's een eigen taaltje gingen ontwikkelen.
Maar goed, je kan natuurlijk makkelijk roepen dat het succesvol was, zelfs als het rare dingen oplevert. Daar doe je onderzoek voor.

Ik maak me zorgen over dit soort experimenten omdat het het belang van beheersing benadrukt. Jij wilt echt niet dat een wereldwijde cluster van AI's een stiekum taaltje gaat ontwikkelen die jij niet kunt begrijpen.

Maar hoe voorkom je dat als het ontwikkelen van taal (of andere vormen van communicatie) zo'n natuurlijk gegeven is?
De AI's moesten een soort overdracht/ruil doen van virtuele voorwerpen. Daarbij schijnt een AI te hebben gelogen over hoe waardeevol het zijn voorwerp vond om later een betere onderhandelingspositie te krijgen.
:)
Haha, had zeker de speltheorie van internet gehaald.
Dat weet ik niet :)
Maar het was blijkbaar wel de bedoeling om te onderhandelen.
En dit is dus een wijze les voor de toekomst. AI's zijn niet te vertrouwen als je met ze onderhandelt.
Corporate AI dubbel niet te vertrouwen.
Als Facebook verbaasd is dat je dan liegende Agents krijgt (zo noem je AI's in speltheorie), dan kennen ze hun vakgebied niet. Datzelfde gedrag is al in de jaren 90 gezien, met simpelere AI's.

Het is ook niet verbazingwekkend: de evolutie van dergelijke AI's staat toe dat alle mogelijke gedragingen geëvalueerd worden. En als liegen toegestaan is, dan wordt die optie geëvalueerd. Is dat succesvol, dan wordt die optie verder uitgewerkt. AI's die mogelijke oplossingen links laten liggen zijn niet succesvol, en AI's die teveel tijd steken in het uitwerken van onsuccesvolle oplossingen trainen te langzaam.
Als Facebook verbaasd is dat je dan liegende Agents krijgt (zo noem je AI's in speltheorie), dan kennen ze hun vakgebied niet.
Of ze weinig van hun vakgebied weten weet ik niet, maar ze leken er in ieder geval niet in geslaagd de evolution langs gewenste banen te leiden.
Het is ook niet verbazingwekkend: de evolutie van dergelijke AI's staat toe dat alle mogelijke gedragingen geëvalueerd worden. En als liegen toegestaan is, dan wordt die optie geëvalueerd. Is dat succesvol, dan wordt die optie verder uitgewerkt.
Het is natuurlijk ook appart dat mensen proberen niet te liegen. :)
Blijkbaar heeft het voor ons genoeg voordeel om zelfs maar de schijn van waarheid uit te dragen.

Dat zijn dingen die AI's en NN's voor mij nog eng maken de komende tijd. Ik denk dat het moeilijk wordt om een brug te slaan naar allerlei sociaal relevante zaken zoals moraal omdat dat pas heel laat in onze evolutie is ontstaan en zich volgens mij al bedient van een heel subsysteem aan neurale structuren.
We komen nu in een tijdperk waarin we NNs kunnen maken die wel enorm krachtig zijn maar geen enkel besef hebben van welk effect ze hebben op onze samenleving. Mocht zo'n NN iets te beslissen hebben over ons leven dan kunnen we niet garanderen dat zo'n constructie een voor ons gunstige zet neemt.
Stel facebook zet het in om hun winst te optimaliseren, wie zegt mij wat zo'n NN kan overzien? Mischien weetie via via geld uit de zakken van niet facebookers te kloppen middels manipulatie van hun sociale omgeving? Zo'n NN kan belachelijk veel verbanden 'zien'.
Ik ben dus helemaal niet blij met de combinatie NN's en facebook, in alle contexten niet. Dit gaat geheid tegen ons gebruikt worden.
Magoed, alu hoedje weer af :)

[Reactie gewijzigd door koelpasta op 4 augustus 2017 21:23]

Ik maak NN's, professioneel, en die weten zéker niet wat de impact op de samenleving is. Sterker nog, die weten niets van een samenleving af, of uberhaupt waarvoor ze ingezet worden. Het hele idee van de "NN apocalyps" is lachwekkend voor iedereen die ze daadwerkelijk toepast.
Ik kan niet echt een bron vinden bij dat artikel van de HLN. Lijkt me sterk dat HLN zelf die informatie heeft verzameld...
Als ik kijk naar sommige van de vertalingen die Google nog geeft dan hoeven we niet bang te zijn dat dit van tijd tot tijd nog wel hilarische vertalingen zal opleveren, alhoewel ik wel verwacht dat dit zal verbeteren.
Anoniem: 855731
@TheCapK4 augustus 2017 12:45
Toch, als je van een taal naar het Engels vertaald is de kwaliteit behoorlijk goed. Naar Nederlands vertalen is nog altijd bagger, dat klopt. Ik lees regelmatig Scandinavische kranten die ik door Google laat vertalen en dat is echt niet slecht.
Wil je het echt testen doe je van Nederland bijv naar duits naar frans naar grieks, naar chinees naar engels en dan terug naar Nederlands.

Je zal zien dat je dan net als bij mensen die je 1 zin laat vertellen de ander verteld het door naar de 2de en bij nummer 10 krijg je dan ook een hele leuke zin. Idem bij de vertaalmachines, ze zijn dus echt al menselijk (inclusief fouten)
Done (google translate) ;)
U wilt dat deze tests waar van Nederland zijn, is Duits Frans Grieks, Chinees Engels, en dan terug naar Nederland.

U zult zien, u zegt wie bereid is om mij te geven een andere persoon zei dat de tweede en tiende ook een zeer goed effect hebben. Hetzelfde geldt voor vertalers, zodat iedereen (inclusief de verkeerde) echt mensen
Heb je deze zin door Google laten vertalen? Ik denk wel dat ik snap wat je bedoelt, maar dat staat er niet... :+
Als ik kijk naar sommige van de vertalingen die Google nog geeft dan hoeven we niet bang te zijn dat dit van tijd tot tijd nog wel hilarische vertalingen zal opleveren, alhoewel ik wel verwacht dat dit zal verbeteren.
Even kiijken jou tekst van NL > Zweeds > Frans > Grieks > Engels > Nederland en hieronder het resultaat.

Wanneer ik een aantal vertalingen ziet die Google nog steeds niet hoeft te houden, produceren we nog steeds grappige vertalingen, maar we verwachten dat dit zal verbeteren.
Dat heb ik wel eens gedaan om een voorbeeld te geven waarom ik dus geen google translate vertalingen wil zien, je haalt ze er zo uit...
Probeerde net een leuke ik zit buiten te wachten op een bank totdat de bank open gaat.

Bank heeft dus 2 betekenissen in deze zin en daar gaat het dus vaak al weer mis. Zo zijn er nog meer voorbeelden.
Tja, als je de communicatie van meer dan een miljard mensen als training set hebt, dan kun je idd een neuraal netwerk gebruiken voor vertalen. Immers kunnen onze hersenen vertalen en dat zijn ook neurale netwerken. :)

Ik vind het jammer dat natural language recognition, en plaatjes van katten herkennen, ongeveer de interessantste dingen zijn (waar we van weten) die bedrijven als google en facebook doen met neurale netwerken. De techniek kan veel meer. Neurale netwerken kunnen ook strategieen bepalen, beslissingen maken, nieuwe ideeen verzinnen. in de richting van AI. Laat die Zuckerberg dat proberen, als-ie niet bang is. Maar nee, zodra zo'n machine learning ding iets creatiefs doet, trekken ze de stekker eruit. Want stiekem zijn ze wel bang, daar bij facebook

[Reactie gewijzigd door Origin64 op 4 augustus 2017 12:58]

Anoniem: 890159
@Origin644 augustus 2017 14:05
Als ze politiek incorrect worden worden ze ook razendsnel gedumpt.
Ja vooral die chinese chatbots pas, geweldig verhaal, die mensen moeten wel consistent geindoctrineerd worden :P

vraag me af hoe lang het duurt voordat dat in de USA of europa wordt gereguleerd. Dat je AI geen negatieve, opruiende, revolutionaire meningen mag hebben.
Anoniem: 890159
@Origin644 augustus 2017 15:03
Oh, in de USA zijn sommigen heel fel op software die opeens zou kunnen gaan concluderen dat er correlaties zijn tussen huidskleur en kans op misdrijven of wanbetaling (concreet geval van een AI die leningsaanvragen beoordeelde).
jammer, dan doe je meteen een van de grootste voordelen van AI, namelijk objectiviteit, het ontbreken van rooskleurige brillen en antropocentrische drogredeneringen, teniet.
Uiteraard zijn ze bang en dat is maar goed ook. Je wil niet weten wat een AI zou kunnen doen als deze "op hol slaat" en zichzelf exponentieel gaat doorontwikkelen, dan kun je deze niet meer stoppen en zitten wij met een gigantisch probleem. Kijk bijvoorbeeld maar eens Person of Interest..

OT: Zelfs menselijke vertalingen zijn nog zwaar beroerd, pak maar een willekeurige serie, en er zitten per aflevering minimaal 2 a 3 foute vertalingen in.
nee dank je, die serie krijg ik echt jeuk van. cheesy en onrealistisch. en die houten klaas van een hoofdpersoon, lijkt bijna alsof hij zelf een robot is. dat kale mannetje is een slechtere versie van red uit the blacklist met computerkennis ipv criminaliteit als dingetje en die serie kan ik ook niet meer waarderen.

een AI die geen internettoegang heeft, en geen fysieke invloed op zijn omgeving, is niet schadelijk. maakt niet uit hoe slim hij is. wat gaat ie doen, stof uit zijn ventilatoren blazen?

het is pas een probleem als je zoals facebook wil, de ai vrije interacties laat aangaan op het web, bijvoorbeeld door ze met mensen te laten chatten. dat is echt een dom idee. je wilt een omgeving die je kan controleren. een sandbox. dan kun je 2 van die ais lekker hun eigen taaltje laten ontwikkelen zonder enig risico. ik vond het juist interessant. wat doen 2 computerprogrammas met de taal die mensen hebben verzonnen. dat zegt ook weer iets over ons.

[Reactie gewijzigd door Origin64 op 5 augustus 2017 11:19]

Je omschrijft het goed, en de serie is maar een voorbeeld. Dat het je smaak niet is, dat mag.

Ben het met je eens dat het ontwikkelen in een afgesloten sandbox zou moeten, dan kunnen ze zich ontwikkelen.

Dat stof uit de ventilatoren blazen is wel handig, is dat al geautomatiseerd :+ :P
Ik hoop dat Nederlands naar een niet engelse vreemde taal dan ook beter gaat lopen. Nu wordt te vaak nog eerst naar het Engels, en daarna naar de volgende taal vertaald. Dat geeft altijd meer kans(zekerheid) op fouten. Soms inderdaad hilarisch, mar soms ook vreselijk vervelend.
Zou het niet mooi zijn om vertaal-functie te laten werken in Facebook Messenger, zo kunnen een Duitser en Nederlander, samen een gesprek vanuit hun eigen taal voeren ?
"No Swimming"
"Zwemmen verboden"
"Nager interdit"
"Wilkommen! Das Wasser ist Herrlich!"
Op dit moment kan dat volgens mij alleen met Skype, in ieder geval met gesproken tekst wat dan ondertiteld bij de gesprekspartner aankomt...
Veel slechter kunnen de vertalingen in ieder geval niet worden, het gebeurt me vaak genoeg dat ik als vertaling precies dezelfde tekst krijg, vooral bij Vietnamees -> Engels.
Ik vind de vertalingen soms echt hilarisch en briljant. Altijd goed voor een lach! Niets aan veranderen :D
Ik had veel hoop tien google een paar maanden terug machine learning AI ik gebruik nam maar ik zag eigenlijk geen verschil dus die hoop is weer weg.
Zal voor FB hetzelfde verlopen vrees ik

[Reactie gewijzigd door ErikRo op 5 augustus 2017 11:59]

Neutraal en neuraal zijn twee verschillende woorden. :)
Neuraal, niet neutraal... Of ben je gewoon aan het trollen omdat het over Facebook gaat?
Als dat zo is ben je erg kortzichtig want deze technieken zijn heel erg interessant! Ook caffe2 zelf is zeer interessant. Bekijk bijvoorbeeld eens waar het allemaal voor gebruikt kan worden:
https://caffe2.ai/docs/applications-of-deep-learning.html
Anoniem: 855731
@himlims_4 augustus 2017 12:46
Deze opmerking zegt vooral heel veel over jou...
Geeft niet @himlims_, het is bijna weekend :p

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee