Пятница, 29 марта, 2024

Как пылала современная библиотека Александрии, или Что стало с проектом оцифровки книг Google

В 2004 году мир замер с надеждой: почти все опубликованные человечеством книги должны были стать доступными каждому в мире. Это было похоже на Александрийскую библиотеку, которая была крупнейшим хранилищем знаний древнего мира, но ее умышленно уничтожили. Через десятилетие после запуска проект оцифровки книг Google постигла почти такая же судьба – его остановили. Из 130 млн запланированных к обработке книг успели оцифровать лишь 25 млн, но и они хранятся где-то на жестких дисках серверов, и доступ к ним имеет лишь небольшое количество инженеров. Историю цифровой библиотеки, которая сегодня трансформировалась в Google Books, рассказал журналист американского издания The Atlantic Джеймс Сомерс.

 Google Books

Идею отсканировать все существующие в мире книги подал соучредитель Google Ларри Пейдж. Он мечтал сделать цифровую копию наработанных человечеством знаний, умений и историй. Первой вехой проекта стала библиотека Университета Мичигана, которая имеет около семи миллионов томов, а также уже давно переводит их в цифровую форму. Специалисты подсчитали, что если бы на каждую книгу тратить всего по 40 минут, тогда на оцифровку всех понадобится около тысячи лет.

В ответ Google назвали другую цифру – шесть лет. А проект сканирования назвали Project Ocean. Пейдж планировал, что университетские и национальные библиотеки будут заимствовать Google свои книги, а компания – сканировать их и предоставлять бесплатную цифровую копию каждого произведения.

За два года Пейдж договорился о сотрудничестве с Университетом Мичигана, Гарвардом, Стэнфордом, Оксфордом, Нью-Йоркской публичной библиотекой и многими другими. Еженедельно в Google приезжали заполненные книгами грузовики. Книги отправлялись на специальные установки, которые сканировали до тысячи страниц в час.

Каждый такой стэн обошелся Google в несколько тысяч долларов и представлял собой несколько камер на штативе. Книгу закрепляли на специальном стенде, ее фотографировали, а дальше за дело брались алгоритмы, которые «сшивали» фото в одну цифровую копию, исправляли дефекты фото и тому подобное. Страницы при этом листал человек – только так бумагу удавалось не повредить.

До августа 2010 года Google потратила на проект 400 миллионов долларов. Именно тогда компания пообещала отсканировать все когда-либо опубликованные книги – 129 864 880 томов на то время. Однако этому помешали писатели и издатели.

Гильдия авторов против бесплатных книг

В Project Ocean с самого начала не собирались давать открытый доступ к цифровым копиям книг. Планировалось дать возможность искать по книгам и показывать лишь небольшой отрывок. В Google думали, что это убережет проект от судебных исков о нарушении авторских прав.

Однако писатели объединились в «Гильдию авторов» и при поддержке издателей подали совместный иск против Google. Они требовали за каждую копию книги в 150 тысяч долларов штрафа от компании. При этом они не увидели перспективы, которые давал Project Ocean – появление глобального рынка цифровых книг.

В итоге через 2,5 года судебной волокиты авторы, издатели и Google пришли к такому плану. Компания должна была заплатить 90 миллионов долларов штрафов и потратить 34,5 миллиона долларов на создание единого реестра. Google Books также позволили показать 20% книги, чтобы подтолкнуть читателя к покупке. Цена книги формировалась алгоритмом компании или устанавливалась издателем. Книги, которые уже не публикуются, собирали в «цифровую корзину» и отправляли в библиотеки университетов, где студенты могли читать их бесплатно.

После известия о таком мировом соглашении критиковать книжный проект Google начали обычные граждане. Они увидели, что компания хочет стать монополистом цифровой индустрии книг.

Спрятанные знания

Формально Google выиграла тяжбу против «Гильдии авторов». Суд постановил, что показывать отрывки защищенных авторским правом книг легально. Однако это не спасло проект Project Ocean – его закрыли. И теперь на серверах где находятся 25 миллионов уже отсканированных книг, которые никто не может прочитать. По подсчетам экспертов, это примерно 50-60 петабайтов данных, доступ к которым имеет полдюжины инженеров. Они отвечают за надежное блокирование библиотеки от других людей.

Журналисты спросили у одного из бывших сотрудников, насколько сложно открыть эту цифровую Александрийскую библиотеку человечеству. Бывшие инженеры ответили – одна строка кода в базе данных и несколько минут на выполнение. Но после этого у смельчака появится большая куча проблем с законом.

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися