det är ingen hemlighet att USA: s politik har blivit mycket polariserad.
trots det finns det förmodligen få levande amerikaner som någonsin bevittnat någonting som ganska jämför med höstens första presidentdebatt.
var det verkligen så att nationen inte kunde göra något bättre än en verbal matkamp, med två kandidater som slängde fjärde klassens förolämpningar och pratade förbi varandra?
för oss var den diskordanta debatten bara ett symptom på nationens fraying civic discourse, som vi i en ny studie kunde visa sträcker sig till de ord vi använder för att prata om politik.
tidigare i år började vi bygga en dataset som består av alla tittarkommentarer på YouTube – videor som publicerats av fyra tv – nätverk-MSNBC, CNN, Fox News och One America News Network-som riktar sig till det politiska spektrumet. Tillsammans innehåller datamängden över 85 miljoner kommentarer på över 200 000 videor från 6,5 miljoner tittare sedan 2014.
vi studerade om det finns olika varianter av engelska skrivna i kommentarsektionerna, liknande skillnaden mellan Brittisk Engelska och Amerikansk Engelska.
med hjälp av maskininlärningsmetoder fann vi att dessa permutationer existerar. Dessutom kan vi rangordna dem i termer av ”vänster-ness” och ”höger-ness.”Så vitt vi vet är detta den första empiriska demonstrationen av kvantifierbara språkliga skillnader i nyhetsgrupper.
vårt andra fynd var dock ännu mer oväntat.
vårt maskininlärningssystem fann att ord med väldigt olika betydelser, som ”KKK” och ”BLM”, användes i exakt samma sammanhang beroende på vilken YouTube-kanal som analyseras.
företaget a word behåller
när man översätter två olika språk – säg spanska och engelska – automatiserade översättningssystem som Google Translate börjar med en stor träningsuppsättning texter på båda språken. Systemet tillämpar sedan maskininlärningsmetoder för att bli bättre på att översätta.
genom åren har denna teknik blivit allt mer exakt tack vare två viktiga insikter.
den första går tillbaka till 1950-talet, när lingvist John Rupert Firth kom med aforismen ”du ska veta ett ord av företaget det håller.”
till moderna maskinöversättningssystem är ”företaget” som ett ord behåller sitt ”sammanhang” eller orden som omger det. Till exempel förekommer det engelska ordet ”druva” i sammanhang som ”druvsaft” och ”druvvin”, medan motsvarande ord på spanska, uva, förekommer i samma sammanhang – jugo de uva, vid de uva – i spanska meningar.
den andra viktiga upptäckten kom ganska nyligen. En studie från 2013 hittade ett sätt att identifiera – och därmed länka – ett ords sammanhang på ett språk till dess sammanhang i ett annat. Modern maskinöversättning beror starkt på denna process.
vad vi har gjort är att använda denna typ av översättning på ett helt nytt sätt: att översätta engelska till engelska.
när ’Trumptards’ blir ’snöflingor’
det kan låta Bisarrt. Varför översätta engelska till engelska?
Tja, överväga Amerikansk Engelska och brittisk engelska. Många ord är desamma på båda språken. Ändå kan det finnas subtila skillnader. Till exempel kan” lägenhet ”på Amerikansk Engelska översättas till” platt ” på brittisk engelska.
för vår studie märkte vi språket som används i varje nätverks kommentarsektion ”MSNBC-English”, ”CNN-English”, ”Fox-English” och ”OneAmerica-English.”Efter att ha analyserat kommentarerna avslöjade våra översättningsalgoritmer två olika mönster av” feljusterade ord ” – termer som inte är identiska i kommentarsektionerna men används i samma sammanhang.
en typ liknade ”platt” och ”lägenhet”, i den meningen att båda beskriver uppenbarligen samma sak. Men ordet par vi upptäckt har olika intonationer. Till exempel fann vi att det som en gemenskap kallar ”Pelosi”, den andra kallar ”Pelusy”; och ”Trump” på ett nyhetsspråk översätts till ”Drumpf” i en annan.
en andra – och djupare – typ av felinriktning inträffade när de två orden hänvisar till två fundamentalt olika saker.
till exempel fann vi att på CNN-engelska, ”KKK” – förkortningen för Ku Klux Klan – översätts av vår algoritm till ”BLM” – stenografi för Black Lives Matter – på Fox-engelska. Algoritmen finner i grunden att kommentarerna från en gemenskap om KKK är väldigt mycket som kommentarerna från den andra om BLM. Medan KKK: s och BLM: s trossystem är ungefär lika olika som det kan vara, beroende på kommentarsektionen, verkar de för varje representera något liknande olycksbådande och hotande.
CNN-engelska och Fox-engelska är inte de enda två språken som visar dessa typer av feljusteringar. Den konservativa änden av spektrumet bryter sig in i två språk. Till exempel översätts” mask ”på Fox-engelska till” nosparti ” på Enamerika-engelska, vilket återspeglar de olika attityderna i dessa undersamhällen.
det verkar finnas en spegellik dualitet på spel. ”Konservatism” blir ”liberalism”, ”röd” översätts till ”blå”, medan ”Cooper” omvandlas till ” Hannity.”
det saknas inte heller vad som bara kan kallas barnsligt namnkallande.
” Trumptards ”på CNN-engelska översätter till” snöflingor ”på Fox-engelska;” Trumpty ”på CNN-engelska översätter till” Obummer ”på Fox-engelska; och” republicunts ”på CNN-engelska översätter till” demokraper ” på Fox-engelska.
okänt territorium
lingvister har länge betonat hur effektiv kommunikation mellan människor med olika övertygelser kräver gemensam grund. Våra resultat visar att det sätt vi pratar om politiska frågor blir mer divergerande; beroende på vem som skriver kan ett vanligt ord vara genomsyrat av en helt annan mening.
vi undrar: hur långt är vi från punkten utan återvändo när dessa språkliga skillnader börjar erodera den gemensamma grunden som behövs för produktiv kommunikation?
har ekokammare på sociala medier förvärrat politisk polarisering till den punkt där dessa språkliga feljusteringar har blivit inblandade i politisk diskurs?
när kommer ”demokrati” i en språkvariant att sluta översättas till ”demokrati” i den andra?