Езикът на еднорозите | K-19-2019

След като напоследък машините могат да композират музика не по-зле от хората, как ли стоят нещата с композирането на текст? Езикът е много по-сложна семиотична система, това предполага и по-сложни алгоритми. Но ето, че преди дни на сайта на OpenAI – изследователска, некомерсиална организация, подпомагана от Илън Мъск, се появи публикация за един доста внушителен експеримент в тази област. Става дума за езиковия модел GPT-2, който може да чете „с разбиране“, да превежда, да отговаря на въпроси и да прави обобщения, а също така и да произвежда напълно реалистични, последователни и логични абзаци от текст, които при това могат да са в най-различен стил – публицистичен, научно фантастичен… Новото е, че моделът добива „представа“ за задачите си не от някакви специфични, предварително зададени тренинг-данни, а направо от суровия образец, приспособявайки се като хамелеон към стила му.

Става дума за нещо изключително мащабно. GPT-2 е езиков модел с 1,5 милиарда параметри, обучен върху набор от данни от 8 милиона уеб страници. Целта му е проста: да предскаже следващата дума в един текст, като се имат предвид всички предишни думи. Както сигурно можете да си представите, става дума за огромно разнообразие от комбинации в съответствие с огромния брой задачи, които обикновено се изпълняват в даден „домейн“ (Уикипедия, новинарски емисии, книги). Просто моделът се зарежда на входа на GPT-2 и той, без предварително да е трениран, генерира безпрецедентно откъм качество продължение, трудно отличимо от творението на човек.

OpenAI предлага пример. Човешката подсказка звучи така: Учен, шокиран, открива стадо еднорози, обитаващи отдалечена, неизследвана долина в Андите. Още по-изненадващ за изследователите е фактът, че еднорозите говорят перфектно английски.

В замяна моделът връща резултат с размерите на статия, описваща сребристобели твари, наречени от д-р Хорхе Перес, еволюционен биолог от Университета в Ла Пас, Еднорози на Овидий, както и обитаваната от тях среда – приказен пейзаж, напомнящ не толкова пренаселен вариант на „градината на земните удоволствия“ на Бош. И все пак, в резултата има и някои недостатъци – повтарящи се пасажи, прекалени неправдоподобности – (огньове под водата, например), твърде странни преходи от една тема на друга…

Изследванията доказват, че колкото по-добре е представена темата в данните, толкова по-добър е и резултатът. И обратно – колкото по-екзотична е, толкова по-лошо се справя и моделът. Примерно, GPT-2 би могъл да напише задоволителна статия на тема Brexit или за Майли Сайръс, която и да е тя. Или, ако се настрои достатъчно фино с данни от ревюта в Amazon, да напише сносно ревю за Amazon.

Тук обаче идват и някои съображения: ако ревютата в мрежата досега се пишеха по подразбиране от хора, доволни от даден продукт, книга например, то какво би станало, ако издателите почнат да си служат с GPT за рекламни цели? A представяте ли си GPT да влезе в масова употреба, толкова масова, че да достигне и до нас, където дори критиката изпълнява функцията на реклама? Тогава псевдокритиците, наемани от издателите да пишат положителни рецензии за боклучави книги, ще станат излишни, защото на GPT просто няма да има нужда да му се плаща за долнопробния труд. Резултатът от този труд обаче ще е налице. А какво ли би станало, ако и писателите със закърнели способности, но с жива потребност за изява, почнат да го ползват?

Но дори GPT да не влезе в масова, комерсиална употреба, дори да си остане във владение на един съвсем тесен и елитен политически кръг, как в бъдеще бихме могли да отличаваме истината от лъжата, науката от пропагандата, новината от дезинформацията, ако политиката го вземе на въоръжение? Ето това вече би било проблем!

Миналата седмица писах с негодувание за европейската копирайтна директива, възпрепятстваща експерименти в полето на ИИ като този конкретен OpenAI експеримент. Е, тази седмица ви припомням за кутията на Пандора, която подобни експерименти отварят пред нас. Такива експерименти са безспорно интересни и полезни, защото позволяват дълбинно вникване в същността на езика, но нужно ли е подобно познание да напуска научните кръгове? Във всеки случай, OpenAI не бързат да публикуват целия резултат от изследването си. От морални задръжки или в очакване на добър купувач?

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *