het is geen geheim dat de Amerikaanse politiek sterk gepolariseerd is.
toch zijn er waarschijnlijk maar weinig levende Amerikanen die ooit iets hebben gezien dat zich verhoudt tot het eerste presidentiële debat van dit najaar. Was het echt zo dat de natie niet beter kon doen dan een verbaal voedselgevecht, waarbij twee kandidaten beledigingen uit de vierde klas gooiden en elkaar voorbij praatten?Voor ons was het disharmonische debat slechts een symptoom van het rafelige maatschappelijke discours van de natie, dat we in een recente studie konden laten zien zich uitstrekt tot de woorden die we gebruiken om over politiek te praten.Eerder dit jaar zijn we begonnen met de bouw van een dataset die bestaat uit alle commentaren van de kijker op YouTube – video ‘ s geplaatst door vier televisienetwerken – MSNBC, CNN, Fox News en One America News Network-die zich richten op Delen van het politieke spectrum. Samen bevat de dataset meer dan 85 miljoen Commentaren op meer dan 200.000 video ‘ s van 6,5 miljoen kijkers sinds 2014.
we hebben onderzocht of er verschillende varianten van het Engels zijn geschreven in de commentaren secties, vergelijkbaar met het onderscheid tussen Brits Engels en Amerikaans Engels.
met behulp van machine learning methoden, vonden we dat deze permutaties bestaan. Bovendien kunnen we ze rangschikken in termen van “links” en “rechts”.”Voor zover wij weten is dit de eerste empirische demonstratie van kwantificeerbare taalverschillen in het nieuwspubliek.
onze tweede bevinding was echter nog meer onverwacht.
ons Machine learning vertaalsysteem ontdekte dat woorden met enorm verschillende betekenissen, zoals “KKK” en “BLM”, in exact dezelfde contexten werden gebruikt, afhankelijk van het YouTube-kanaal dat werd geanalyseerd.
het bedrijf A word houdt
bij het vertalen van twee verschillende talen-laten we zeggen Spaans en Engels – beginnen geautomatiseerde vertaalsystemen zoals Google Translate met een grote Opleidingsset van teksten in beide talen. Het systeem past dan machine learning methoden om beter te worden in het vertalen. In de loop der jaren is deze technologie steeds nauwkeuriger geworden, dankzij twee belangrijke inzichten. De eerste datering dateert uit de jaren 1950, toen taalkundige John Rupert Firth met het aforisme kwam ” You shall know a word by the company it keeps.”
voor moderne automatische vertaalsystemen is het” bedrijf “dat een woord behoudt de” context ” of de woorden die eromheen staan. Bijvoorbeeld, het Engelse woord “druif” komt voor in contexten zoals ” druivensap “en” druif vine, ” terwijl het equivalente woord in het Spaans, uva, komt voor in dezelfde contexten – jugo de uva, vid de uva – in Spaanse zinnen.
de tweede belangrijke ontdekking kwam vrij recent. Een studie uit 2013 vond een manier om de context van een woord in de ene taal te identificeren en daarmee te koppelen aan de context in een andere taal. Moderne automatische vertaling is sterk afhankelijk van dit proces.
wat we hebben gedaan is dit type vertaling op een geheel nieuwe manier te gebruiken: het vertalen van Engels naar Engels.
wanneer ‘ Trumptards ”sneeuwvlokken’
worden, klinkt dat misschien bizar. Waarom Nederlands naar Engels vertalen?
denk aan Amerikaans Engels en Brits Engels. Veel woorden zijn hetzelfde in beide talen. Toch kunnen er subtiele verschillen zijn. Bijvoorbeeld, ” appartement “in Amerikaans Engels kan vertalen in” flat ” in Brits Engels.
ten behoeve van onze studie hebben we de gebruikte taal in de commentaarsectie van elk netwerk gelabeld als “MSNBC-English,” “CNN-English,” “Fox-English” en “OneAmerica-English.”Na het analyseren van de commentaren, onze vertaling algoritmen blootgelegd twee verschillende patronen van “verkeerd uitgelijnd woorden” – termen die niet identiek zijn in de commentaren secties, maar worden gebruikt in dezelfde contexten.
één type was vergelijkbaar met” flat “en” apartment”, in de zin dat beide ogenschijnlijk hetzelfde beschrijven. Echter, het woord paren we ontdekt hebben verschillende intonaties. Bijvoorbeeld, we ontdekten dat wat de ene gemeenschap “Pelosi” noemt, de andere “Pelousy” noemt; en “Trump” in een nieuwstaal vertaalt zich in “Drumpf” in een andere.
een tweede – en diepere-vorm van uitlijning deed zich voor wanneer de twee woorden verwijzen naar twee fundamenteel verschillende dingen.
bijvoorbeeld, we vonden dat in CNN-Engels, ” KKK “– de afkorting voor de Ku Klux Klan – is vertaald door ons algoritme naar” BLM ” – afkorting voor Black Lives Matter – in Fox-Engels. Het algoritme is in principe het vinden van dat de opmerkingen van de ene gemeenschap over KKK zijn zeer vergelijkbaar met de opmerkingen van de andere over BLM. Hoewel de geloofssystemen van de KKK en BLM ongeveer zo verschillend zijn als maar kan, afhankelijk van de commentaarsectie, lijken ze elk iets gelijkaardig onheilspellend en bedreigend te vertegenwoordigen.
CNN-English en Fox-English zijn niet de enige twee talen die dit soort afwijkingen vertonen. Het conservatieve einde van het spectrum zelf breekt in twee talen. Bijvoorbeeld, ” masker “in Fox-English vertaalt naar” muilkorf ” in Eeneamerica-Engels, een weerspiegeling van de verschillende attitudes in deze subcommunities.
er lijkt een spiegelachtige dualiteit in het spel te zijn. “Conservatisme “wordt” liberalisme”,” rood “wordt vertaald naar” blauw”, terwijl” Cooper “wordt omgezet in” Hannity.”
er is ook geen gebrek aan wat alleen kinderachtig schelden genoemd kan worden.
“Trumptards “in het CNN-Engels vertaalt naar” sneeuwvlokken “in het Fox-Engels;” Trumpty “in het CNN-Engels vertaalt naar” Obummer “in het Fox-Engels; en” republicunts “in het CNN-Engels vertaalt naar” democraps ” in het Fox-Engels. Taalkundigen hebben lang benadrukt hoe effectief communicatie tussen mensen met verschillende overtuigingen een gemeenschappelijke basis vereist. Onze bevindingen laten zien dat de manier waarop we praten over politieke kwesties steeds meer uiteenloopt; afhankelijk van wie er schrijft, kan een gemeenschappelijk woord worden doordrenkt met een heel andere betekenis. We vragen ons af: hoe ver zijn we van het punt waar geen weg terug is wanneer deze taalverschillen de gemeenschappelijke basis beginnen uit te hollen die nodig is voor productieve communicatie?Hebben echokamers op sociale media de politieke polarisatie verergerd tot het punt waarop deze taalkundige misalignments zijn ingebakken in het politieke discours?
Wanneer zal” democratie “in de ene taalvariant stoppen met vertalen in” democratie ” in de andere?