není žádným tajemstvím, že americká politika se stala vysoce polarizovanou.
přesto je asi jen málo žijících Američanů, kteří byli někdy svědky něčeho, co by se docela srovnalo s letošní první prezidentskou debatou.
opravdu tomu tak bylo, že národ nemohl udělat nic lepšího než slovní Boj o jídlo, kdy dva kandidáti házeli urážky čtvrté třídy a mluvili kolem sebe?
pro nás byla rozporuplná debata jen dalším příznakem rozkolísaného občanského diskurzu národa, který jsme v nedávné studii dokázali ukázat na slova, která používáme k mluvení o politice.
začátkem tohoto roku jsme začali vytvářet soubor dat, který se skládá ze všech komentářů diváka k videím YouTube zveřejněným čtyřmi televizními sítěmi-MSNBC, CNN, Fox News A One America News Network-které se zaměřují na plátky politického spektra. Datová sada dohromady obsahuje přes 85 milionů Komentářů k více než 200 000 videím od 6,5 milionu diváků od roku 2014.
zkoumali jsme, zda existují odlišné varianty angličtiny napsané v komentářích, podobně jako rozdíl mezi britskou angličtinou a americkou angličtinou.
pomocí metod strojového učení jsme zjistili, že tyto permutace existují. Navíc je můžeme řadit z hlediska „levice“ a „pravice“.“Podle našeho nejlepšího vědomí se jedná o první empirickou demonstraci kvantifikovatelných jazykových rozdílů v publiku zpráv.
naše druhé zjištění však bylo ještě nečekanější.
náš překladový systém strojového učení zjistil, že slova s velmi odlišnými významy, jako “ KKK “ a „BLM“, byla použita ve stejných kontextech v závislosti na analyzovaném kanálu YouTube.
společnost slovo udržuje
při překladu dvou různých jazyků-například španělštiny a angličtiny-automatizované překladatelské systémy, jako je Google Translate, začínají velkou tréninkovou sadou textů v obou jazycích. Systém pak aplikuje metody strojového učení, aby se zlepšil v překladu.
v průběhu let se tato technologie díky dvěma klíčovým poznatkům stala stále přesnější.
první pochází z roku 1950, kdy lingvista John Rupert Firth přišel s aforismem „budete znát slovo společností, kterou drží.“
pro moderní systémy strojového překladu je“ společnost“, kterou slovo udržuje, jeho „kontext“ nebo slova, která ho obklopují. Například anglické slovo „hroznové“ se vyskytuje v kontextech, jako je „hroznová šťáva“ a „hroznová réva“, zatímco ekvivalentní slovo ve španělštině, uva, se vyskytuje ve stejných kontextech-jugo de uva, vid de uva – ve španělských větách.
druhý důležitý objev přišel poměrně nedávno. Studie z roku 2013 našla způsob, jak identifikovat – a tím propojit-kontext slova v jednom jazyce s jeho kontextem v jiném jazyce. Moderní strojový překlad do značné míry závisí na tomto procesu.
co jsme udělali, je použít tento typ překladu zcela novým způsobem: přeložit angličtinu do angličtiny.
když se z „Trumptardů“ stanou „sněhové vločky“
může to znít bizarně. Proč překládat z angličtiny do angličtiny?
zvažte americkou angličtinu a britskou angličtinu. Mnoho slov je v obou jazycích stejné. Přesto mohou existovat jemné rozdíly. Například, “ byt „v americké angličtině se může přeložit do“ bytu “ v britské angličtině.
pro účely naší studie jsme označili jazyk používaný v sekci komentářů každé sítě „MSNBC-angličtina“, „CNN-angličtina“, „Fox-angličtina“ a „OneAmerica-angličtina.“Po analýze komentářů naše Překladové algoritmy odhalily dva různé vzorce“ nevyrovnaných slov – – termíny, které nejsou identické v sekcích komentářů, ale používají se ve stejných kontextech.
jeden typ byl podobný „bytu“ a „bytu“, v tom smyslu, že oba popisují zdánlivě totéž. Nicméně, dvojice slov, které jsme odhalili, mají různé intonace. Například jsme zjistili, že to, co jedna komunita nazývá „Pelosi“, druhá nazývá „Pelousy“; a „Trump“ v jednom zpravodajském jazyce se překládá do „Drumpf“ v jiném.
druhý-a hlubší – druh nesouososti nastal, když tato dvě slova odkazují na dvě zásadně odlišné věci.
například jsme zjistili, že v CNN-angličtině je „KKK“ – zkratka pro Ku Klux Klan – přeložena naším algoritmem na „BLM“ – zkratka pro Black Lives Matter – v Fox-angličtině. Algoritmus v podstatě zjišťuje, že Komentáře jedné komunity o KKK jsou velmi podobné komentářům druhé o BLM. Zatímco systémy víry KKK a BLM jsou asi tak odlišné, jak mohou být, v závislosti na sekci komentářů, zdá se, že každý z nich představuje něco podobně zlověstného a hrozivého.
CNN-angličtina a Fox-angličtina nejsou jedinými dvěma jazyky zobrazujícími tyto typy vychýlení. Konzervativní konec spektra se rozpadá do dvou jazyků. Například „maska“ v Fox-angličtině se překládá do“ tlamy “ v Jednomamerica-angličtina, odrážející odlišné postoje napříč těmito subkomunitami.
zdá se, že ve hře je zrcadlová dualita. „Konzervatismus“ se stává „liberalismem“, „červená“ je přeložena do „modré“, zatímco „Cooper“ je přeměněn na „Hannity.“
chybí také to, co lze nazvat pouze dětinským nadáváním.
„Trumptards“ v CNN-angličtina překládá na“ sněhové vločky „v Fox-angličtina; „Trumpty“ v CNN-angličtina překládá na „Obummer“ v Fox-angličtina; a „republicunts“ v CNN-angličtina překládá na“ demokrapy “ v Fox-angličtina.
nezmapované území
lingvisté již dlouho zdůrazňují, jak efektivní komunikace mezi lidmi s různými přesvědčeními vyžaduje společnou půdu. Naše zjištění ukazují, že způsob, jakým mluvíme o politických otázkách, se stále více liší; v závislosti na tom, kdo píše, Může být běžné slovo naplněno zcela jiným významem.
Zajímalo by nás: jak daleko jsme od bodu, kdy není návratu, když tyto jazykové rozdíly začnou narušovat společnou půdu potřebnou pro produktivní komunikaci?
zhoršily echo komory na sociálních médiích politickou polarizaci do té míry, že se tyto jazykové nesouososti zakořenily v politickém diskurzu?
kdy se „demokracie“ v jedné jazykové variantě přestane překládat do „demokracie“ v druhé?