Пак за текста | Култура – Брой 43 (2526), 12 декември 2008

Почнах сезона с колонка, посветена на трудностите, с които се сблъсква проектът ‛Тезей‛ на Катедрата по класическа филология на СУ в мрежата, за да получи разрешение за изследването на един или друг класически текст. Конкретно тези трудности идваха от невъзможността да се гарантират научните намерения на ресурса, тъй като само това би позволило свободното ползване според съществуващия в момента Закон за авторското право. Сега ще продължа с темата за някои видове комерсиална дейност в мрежата, също ползваща текстови корпуси и развивана без много шум от различни компании. Компаниите, упражняващи тази дейност, не срещат никакви затруднения да я легитимират, вероятно заради безплатността и вседостъпността на ползваните текстови масиви – статии в онлайн медии, блогове, форуми, коментари и прочие генерирано от потребителите съдържание под формата на свободно упражнено гражданско право на мнение.

Напоследък е актуално да се негодува срещу ‛подслушването‛ на интернет и ‛задържането на данни‛, т.е. изграждане на бази данни с досиета, съдържащи информация за онлайн навиците на потребителите. Някак не е прието обаче да се говори за възможностите, които отключва притежаването на такива бази данни. А крайната цел не винаги е малко контекстен спам в празното поле на пощенската ни кутия или в профила ни в някоя социална мрежа.

В началото на годината четох във WanityFair, а после и във Wired за някой си брокер на име Джон Аристотел Филипс (John Aristotle Phillips) и неговата Aristotle Inc., която притежава, според WF, една направо Оруеловска база данни с информация за американските гласоподаватели и се явява важен инструмент в изборите за всеки президент в Америка от Роналд Рейган насам. Част от тази информация (име, адрес на гласоподавателите и т.н.) се купува от администрацията на различните щати; след това се комбинира със строго лична и детайлна такава, примерно събирана чрез data mining (за доходи, за притежаване на лично оръжие, за ползвани медицински процедури) и накрая, добре пакетирана, бива продавана на кандидатите за президент, на политическите агенти или на комерсиалните субекти, интересуващи се от нея.

Ако може да се вярва на WanityFair, в базата данни на Aristotle има информация за 175 милиона американски гласоподаватели. Такава информация, правилно употребена, може доста да повлияе на изхода на едни избори.

Ако се вгледаме малко по-внимателно в дейността на някои тукашни компании, ще видим, че те от доста години прилагат статистически методи за анализ на текст, набавяйки си го именно от достъпни електронни публикации. Бих си спестила назоваването на конкретна компания, но ми е интересно по какъв начин всяка една от тях би гарантирала некомерсиалността на дейността си, примерно, в полза на Лондонската фондова борса? Или пък, че не се занимава с политически data mining (извличане на ценни данни от някакъв информационен масив)?

Всичко си остава в сферата на догадките, само едно е извън всяко съмнение – технологията и нейните възможности.

Ето например откъс от едно интервю в ‛Дневник‛ на мениджъра на проекти в ‛Ontotext‛ – научноизследователската лабораторията на Сирма груп, занимаваща се с научни разработки, свързани със семантичното бъдеще на мрежата, и експериментираща с достъпните безплатни масиви от текст на ‛Дневник‛:

„Дневник“ има огромно количество статии, които сами сте произвели, но и материали от други източници, които вземате предвид в работата си. Оказва се обаче, че това са само моментни снимки на реалността. Не можем сами автоматично да извеждаме тенденциите (от тези огромни масиви), не можем да правим анализ на причинно-следствените връзки, а тази технология ни помага да навържем събития, развивали се дълго време.‛

В това интервю сливането на науката с бизнеса изглежда някак естествено и дори желано, без намек за странични нежелани ефекти. А може пък безплатността на изследвания ресурс да не задължава ползващите го да гарантират чисто научните си намерения?

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *