На каких текстах обучается генеративный ИИ Google – СМИ

Апр 24, 2023

Чат-боты, получившие последнее время большую известность, разговаривают «как люди», благодаря тому, что искусственный интеллект (ИИ), обеспечивающий их работу, поглощает при обучении колоссальные объёмы текстов, полученных в основном из Интернета; при этом технологические компании скрывают, что именно они «скармливают» ИИ, пишет газета The Washington Post, которая исследовала один из датасетов, чтобы разобраться, с каких сайтов – а среди них есть небезопасные ресурсы – берётся информация для обучения ИИ.

Издание проанализировало датасет C4, скомпонованный Google и содержащий контент 15 миллионов сайтов. Он используется для обучения ряда широко известных англоязычных ИИ, включая T5 от Google и LLaMA от Facebook. (Компания OpenAI не раскрывает, какие датасеты используются для тренировки ChatGPT.)

Около трети сайтов на сегодняшний день уже исчезли из сети, поэтому в исследовании они не учитываются. Остальные 10 миллионов ресурсов были ранжированы в зависимости от того, как много данных («токенов») каждого из них задействовано в датасете. Токены в данном контексте – это небольшие отрывки текста, использующиеся для обучения ИИ, обычно это слово или фраза.

Основными источниками информации для датасета оказались сайты из сфер журналистики, развлечений, разработки программного обеспечения, медицины.

Сайтам присвоены категории:

Бизнес и индустрия
Технологии
Новости и медиа
Наука и здоровье
Хобби и досуг
Работа и образование
Дом и сад
Путешествия
Сообщества

Закон и правительство

Лидерами рейтинга стали patents.google.com (содержит тексты патентов со всего мира), wikipedia.org и scribd.com (цифровая библиотека, работающая только по подписке). Как минимум 28 сайтов из датасета признаны регуляторами США пиратскими или контрафактными, в том числе № 190 — b-ok.org, известный рынок пиратских электронных книг.

Топ-10 сайтов датасета:

patents.google.com
wikipedia.org
scribd.com
nytimes.com
journals.plos.org
latimes.com
theguardian.com
forbes.com
huffpost.com
patents.com

В топ рейтинга также входят немодерируемые сайты вроде wowhead.com (№ 181, форум игроков в World of Warcraft) или thriveglobal.com (№ 175, сайт по борьбе с выгоранием, основанный частным лицом).

Часть ресурсов вызывают подозрения о нарушении права людей на приватность. Например, два сайта из топ-100 — coloradovoters.info (№ 40) и flvoters.com (№ 73) – содержат копии баз данных избирателей. Хотя такие данные публичны, неизвестно, как именно чат-боты используют персональную информацию.

Бизнес и индустрия

Сайты из промышленной сферы составляют самую обширную категорию (16% от ранжированных токенов). Возглавляет категорию fool.com, дающий инвестиционные консультации. Также среди них — kickstarter.com, краудфандинговая площадка для креативных проектов, и patreon.com, помогающий создателям уникального контента получать ежемесячные гонорары от подписчиков.

На Kickstarter и Patreon ИИ может получить доступ к оригинальным творческим идеям – и скопировать их, выдав пользователям за свои. В настоящее время художники не получают компенсации за то, что ИИ учатся на их работах, и уже выдвигают обвинения в нарушении авторских прав генераторам изображений вроде Stable Diffusion, MidJourney и DeviantArt.

Аналитики предполагают, что впереди ИИ-разработчиков ждёт множество исков: символ копирайта в датасете C4 встречается более 200 миллионов раз.

Топ-10 бизнес- и индустриальных сайтов в датасете:

fool.com
kickstarter.com
sec.gov
marketwired.com
city-data.com
myemail.constantcontact.com
finance.yahoo.com
prweb.com
entrepreneur.com
globalresearch.ca

Технологические сайты

Второй крупнейшей категорией (15%) являются технологические ресурсы. Среди них – множество платформ для создания и ведения сайтов, вроде sites.google.com (№ 85), где хостятся страницы обо всём на свете – от еврейского клуба до католической воскресной школы, пишет WP.

Датасет содержит более полумиллиона персональных блогов (3,8% от всех категоризированных токенов). На издательской платформе medium.com, например, «живут» десятки тысяч блогов; также в датасет вошли блоги, созданные на платформах WordPress, Tumblr, Blogspot и Live Journal.

Эти онлайн-дневники значительно разнятся по качеству контента и содержат как профессиональные статьи, так и частные мнения, которые сложно назвать адекватными.

Топ-10 технологических сайтов:

instructables.com
ipfs.io
docs.microsoft.com
forums.macrumors.com
medium.com
makeuseof.com
sites.google.com
slideshare.net
s3.amazonaws.com
pcworld.com

Новости и медиа

Категория «Новости и медиа» – третья по величине в общем объёме сайтов. Но половина из ресурсов в первой десятке – это СМИ. Подобно художникам, некоторые новостные агентства критикуют IT-компании за использование их контента без разрешения или компенсации.

В обойме новостников также найдены ресурсы, считающиеся малонадёжными (согласно шкале NewsGuard). В качестве таковых называются vdare.com, антииммигрантский сайт, ассоциирующийся с идеей расового превосходства, breitbart.com – источник крайне правых новостей и мнений, и отнесённый сюда же (по причине модной нынче русофобии – ред.) русский RT.com, занявший 65 место по цитированию.

Выдавая информацию, чат-боты редко указывают источники, откуда она взята. Поэтому обучение ИИ на недостоверных данных может привести к распространению заблуждений, пропаганды и дезинформации, не давая пользователям возможности определить оригинальный источник данных, отмечают аналитики.

Топ-10 новостных сайтов в датасете:

nytimes.com
latimes.com
theguardian.com
forbes.com
huffpost.com
washingtonpost.com
businessinsider.com
chicagotribune.com
theatlantic.com
aljazeera.com

Религиозные сайты

Сайты, посвящённые сообществам, составляют около 5% контента; религиозные ресурсы доминируют в этой категории. Среди топ-20 религиозных сайтов 14 оказались христианскими, два – иудейскими, один – мусульманским, один – мормонским, один – Свидетелей Иеговы, один – экуменический.

Самый «весомый» христианский сайт – Grace to You (gty.org) – принадлежит евангелической мегацеркви в Калифорнии и рекомендует женщинам «продолжать подчиняться» «абьюзивным» отцам и мужам, избегая сообщать о проблемах полиции.

Наиболее интенсивно эксплуатируемый для обучения ИИ иудейский сайт jewishworldreview.com – это онлайн-журнал для ортодоксальных евреев. В декабре он опубликовал, например, статью, обвиняющую в подъёме антисемитизма в США «крайне правых исламистов-фундаменталистов» и афроамериканское сообщество.

Топ-10 религиозных сайтов:

patheos.com
gty.org
jewishworldreview.com
thekingdomcollective.com
biblehub.com
liveprayer.com
lds.org
wacriswell.com
wdtprs.com
bibleforums.org

Соцсети вроде Facebook и Twitter запрещают извлечение контента пользователей, таким образом он остаётся недоступным для большинства датасетов, на которых учатся ИИ. Владельцы же соцсетей, сидящие на гигантских залежах «диалоговых» данных, не проясняют, как персональная информация пользователей может быть использована для обучения ИИ-моделей, применяющихся для внутреннего пользования или продающихся как продукты.

Как и многие компании, Google тщательно готовит данные, прежде чем «скормить» их ИИ. Кроме удаления бессмыслицы и дубликатов текстов, компания использует open source-список стоп-слов («List of Dirty, Naughty, Obscene, and Otherwise Bad Words»), содержащий 402 термина на английском языке и один эмодзи.

Как выяснили исследователи, этот фильтр также не пропускает некоторый ЛГБТ-контент (несексуального содержания), зато проницаем для более серьёзных вещей: в датасете обнаружились сотни порносайтов и более 72 тысяч экземпляров свастики (при том, что термин «свастика» входит в список стоп-слов).

Также в датасете присутствуют ресурсы, посвящённые «белому превосходству», антиправительственной идеологии, теориям заговора, и 4chan.org – электронная доска анонимных объявлений, известная организацией кампаний по травле конкретных людей.

Датасет C4 создавался с апреле 2019 года некоммерческой организацией CommonCrawl, которая сообщила изданию, что старалась приоритезировать самые важные и достойные сайты, но не пыталась избегать лицензированного или защищённого авторскими правами контента.

Хотя C4 огромен, эксперты считают, что нынешние языковые модели используют ещё более крупные датасеты. К примеру, изначальный датасет для обучения опубликованного в 2020 году GPT-3 содержал в 40 раз больше веб-данных, чем С4. В дополнение в него были включены все статьи англоязычной «Википедии», коллекция свободно распространяемых неопубликованных романов и компиляция текстов из ссылок, часто используемых пользователями Reddit. (Reddit, который часто используют для обучения ИИ-моделей, заявил, что планирует подать иск к компаниям за подобный доступ.)

Эксперты заявляют, что многие компании не документируют содержание своих датасетов – из боязни, что в них содержится персональная информация, по которой можно идентифицировать граждан, материалы, защищённые авторскими правами и иные данные, собранные без согласия их законных владельцев.

MiniTasks

О сервисе

Категории

На каких текстах обучается генеративный ИИ Google – СМИ