det er ingen hemmelighed, at amerikansk politik er blevet meget polariseret.
alligevel er der sandsynligvis få levende amerikanere, der nogensinde har været vidne til noget, der helt sammenligner med efterårets første præsidentdebat.
var det virkelig tilfældet, at nationen ikke kunne gøre noget bedre end en verbal madkamp, hvor to kandidater kastede fornærmelser i fjerde klasse og talte forbi hinanden?
for os var den uoverensstemmende debat blot endnu et symptom på nationens skrøbelige borgerlige diskurs, som vi i en nylig undersøgelse var i stand til at vise strækker sig til de ord, vi bruger til at tale om politik.
tidligere i år begyndte vi at konstruere et datasæt, der består af alle seerkommentarer på YouTube – videoer, der er indsendt af fire tv – netværk-MSNBC, CNN, Rævenyheder og et amerikansk nyhedsnetværk-der er målrettet mod skiver af det politiske spektrum. Tilsammen indeholder datasættet over 85 millioner kommentarer til over 200.000 Videoer fra 6,5 millioner seere siden 2014.
vi studerede, om der er forskellige varianter af engelsk skrevet i kommentarsektionerne, der ligner sondringen mellem britisk engelsk og amerikansk engelsk.
ved hjælp af maskinindlæringsmetoder fandt vi, at disse permutationer eksisterer. Desuden kan vi rangordne dem med hensyn til “venstre-ness” og “højre-ness.”Så vidt vi ved, er dette den første empiriske demonstration af kvantificerbare sproglige forskelle i nyhedsmålgrupper.
vores andet fund var imidlertid endnu mere uventet.
vores maskinlæringsoversættelsessystem fandt, at ord med meget forskellige betydninger, som “KKK” og “BLM”, blev brugt i nøjagtigt de samme sammenhænge afhængigt af den YouTube-kanal, der blev analyseret.
virksomheden et ord holder
ved oversættelse af to forskellige sprog – siger spansk og engelsk – automatiserede oversættelsessystemer som Google Translate begynder med et stort træningssæt af tekster på begge sprog. Systemet anvender derefter maskinindlæringsmetoder for at blive bedre til at oversætte.
i årenes løb er denne teknologi blevet mere og mere nøjagtig takket være to vigtige indsigter.
den første går tilbage til 1950 ‘ erne, da sprogforsker John Rupert Firth kom med aforismen “du skal kende et ord af det firma, det holder.”
til moderne maskinoversættelsessystemer er det “firma”, et ord holder, dets “kontekst” eller ordene omkring det. For eksempel forekommer det engelske ord “drue” i sammenhænge som “druesaft” og “drue vin”, mens det tilsvarende ord på spansk, uva, forekommer i de samme sammenhænge – jugo de uva, vid de uva – i spanske sætninger.
den anden vigtige opdagelse kom ret for nylig. En undersøgelse fra 2013 fandt en måde at identificere – og dermed forbinde – et ords kontekst på et sprog til dets kontekst på et andet. Moderne maskinoversættelse afhænger meget af denne proces.
hvad vi har gjort er at bruge denne type oversættelse på en helt ny måde: at oversætte engelsk til engelsk.
når ‘Trumptards’ bliver ‘snefnug’
det lyder måske bisarr. Hvorfor oversætte engelsk til engelsk?
nå, overvej amerikansk engelsk og britisk engelsk. Mange ord er de samme på begge sprog. Alligevel kan der være subtile forskelle. For eksempel kan” lejlighed “på amerikansk engelsk oversættes til” flad ” på britisk engelsk.
med henblik på vores undersøgelse mærkede vi det sprog, der blev brugt i hvert netværks kommentarsektion “MSNBC-English”, “CNN-English”, “ræv-engelsk” og “OneAmerica-English.”Efter at have analyseret kommentarerne afslørede vores oversættelsesalgoritmer to forskellige mønstre af “forkert justerede ord” – udtryk, der ikke er identiske på tværs af kommentarsektionerne, men bruges i de samme sammenhænge.
en type lignede “flad” og “lejlighed” i den forstand, at begge beskriver tilsyneladende det samme. Imidlertid har de ordpar, vi afdækkede, forskellige intonationer. For eksempel fandt vi, at det, som et samfund kalder “Pelosi”, den anden kalder “Pelousy”; og “Trump” på et nyhedssprog oversættes til “Drumpf” på et andet.
en anden – og dybere – slags forskydning opstod, da de to ord henviser til to fundamentalt forskellige ting.
for eksempel fandt vi, at i CNN-engelsk, “KKK” – forkortelsen for Ku Klan – er oversat af vores algoritme til “BLM” – stenografi for Black Lives Matter – i ræv-engelsk. Algoritmen finder dybest set, at kommentarerne fra det ene samfund om KKK ligner meget kommentarerne fra det andet om BLM. Mens trossystemerne i KKK og BLM er omtrent så forskellige, som det kan være, afhængigt af kommentarsektionen, de ser ud til at repræsentere noget lignende ildevarslende og truende.
CNN-engelsk og ræv-engelsk er ikke de eneste to sprog, der viser disse typer fejljusteringer. Den konservative ende af spektret selv bryder ind i to sprog. For eksempel oversættes” maske “på ræv-engelsk til” snude ” i Enamerika-engelsk, hvilket afspejler de forskellige holdninger på tværs af disse undersamfund.
Der synes at være en spejllignende dualitet på spil. “Konservatisme “bliver” liberalisme”,” rød “oversættes til” blå”, mens” Cooper “omdannes til” Hannity.”
Der er heller ingen mangel på, hvad der kun kan kaldes barnlig navneopkald.
“Trumptards” på CNN-engelsk Oversætter til “snefnug” på ræv-engelsk; “Trumpty” på CNN-engelsk Oversætter til “Obummer” på ræv-engelsk; og “republicunts” på CNN-engelsk Oversætter til “demokrater” på ræv-engelsk.
Uncharted territory
lingvister har længe understreget, hvor effektiv kommunikation mellem mennesker med forskellige overbevisninger kræver fælles grund. Vores resultater viser, at den måde, vi taler om politiske spørgsmål på, bliver mere divergerende; afhængigt af hvem der skriver, kan et almindeligt ord være gennemsyret af en helt anden betydning.
vi spekulerer på: hvor langt er vi fra punktet uden tilbagevenden, når disse sproglige forskelle begynder at erodere den fælles grund, der er nødvendig for produktiv kommunikation?
har echo chambers på sociale medier forværret politisk polarisering til det punkt, hvor disse sproglige skævheder er blevet indgroet i politisk diskurs?
Hvornår vil “demokrati” i en sprogvariant stoppe med at oversætte til “demokrati” i den anden?