П’ятниця, 22 Листопада, 2024

Як палала сучасна бібліотека Александрії, або Що стало з проектом оцифрування книг Google

У 2004 році світ завмер з надією: майже всі опубліковані людством книги повинні були стати доступними кожному у світі. Це було схоже на Александрійську бібліотеку, яка була найбільшим сховищем знань древнього світу, але її навмисне знищили. За десятиліття після запуску проект оцифрування книг Google спіткала майже така ж доля – його зупинили. Зі 130 млн запланованих до обробки книг встигли оцифрувати лише 25 млн, але і вони зберігаються десь на жорстких дисках серверів, і доступ до них має лише невелика кількість інженерів. Історію цифрової бібліотеки, яка сьогодні трансформувалася у Google Books, розповів журналіст американського видання The Atlantic Джеймс Сомерс.

 Google Books

Ідею відсканувати всі наявні у світі книги подав співзасновник Google Ларрі Пейдж. Він мріяв зробити цифрову копію напрацьованих людством знань, умінь та історій. Першою віхою проекту стала бібліотека Університету Мічигану, яка має близько семи мільйонів томів, а також уже давно переводить їх у цифрову форму. Фахівці підрахували, що якби на кожну книгу витрачати усього по 40 хвилин, тоді на оцифрування всіх знадобиться близько тисячі років.

У відповідь Google назвали іншу цифру – шість років. А проект сканування назвали Project Ocean. Пейдж планував, що університетські та національні бібліотеки позичатимуть Google свої книги, а компанія скануватиме їх і надаватиме безплатну цифрову копію кожного твору.

За два роки Пейдж домовився про співпрацю з Університетом Мічигану, Гарвардом, Стенфордом, Оксфордом, Нью-Йоркською публічною бібліотекою і багатьма іншими. Щотижня до Google приїжджали заповнені книжками вантажівки. Книги відправлялися на спеціальні установки, які сканували до тисячі сторінок на годину.

Кожен такий стен обійшовся Google у кілька тисяч доларів та являв собою кілька камер на штативі. Книгу закріплювали на спеціальному стенді, її фотографували, а далі за справу бралися алгоритми, які «зшивали» фото в одну цифрову копію, виправляли дефекти фото тощо. Сторінки при цьому гортала людина – лише так папір вдавалося не пошкодити.

До серпня 2010 року Google витратила на проект 400 мільйонів доларів. Саме тоді компанія пообіцяла відсканувати всі коли-небудь опубліковані книги – 129 864 880 томів на той час. Однак цьому перешкодили письменники і видавці.

Гільдія авторів проти безплатних книг

У Project Ocean із самого початку не збиралися давати відкритий доступ до цифрових копій книг. Планувалося дати можливість шукати по книгах і показувати лише невеликий уривок. У Google думали, що це вбереже проект від судових позовів про порушення авторських прав.

Однак письменники об’єдналися в «Гільдію авторів» та за підтримки видавців подали спільний позов проти Google. Вони вимагали за кожну копію книги до 150 тисяч доларів штрафу від компанії. При цьому вони не побачили перспективи, які давав Project Ocean – появу глобального ринку цифрових книг.

У підсумку через 2,5 роки судової тяганини автори, видавці та Google дійшли до такого плану. Компанія повинна була заплатити 90 мільйонів доларів штрафів і витратити 34,5 мільйона доларів на створення єдиного реєстру. Google Books також дозволили показати 20% книги, щоб підштовхнути читача до купівлі. Ціна книги формувалася алгоритмом компанії або встановлювалася видавцем. Книги, що вже не публікуються, збирали в «цифровий кошик» та відправляли до бібліотек університетів, де студенти могли читати їх безплатно.

Після звістки про таку мирову угоду критикувати книжковий проект Google почали звичайні громадяни. Вони побачили, що компанія хоче стати монополістом цифрової індустрії книг.

Заховані знання

Формально Google виграла судову тяганину проти «Гільдії авторів». Суд постановив, що показувати уривки захищені авторським правом книг – це легально. Однак це не врятувало проект Project Ocean – його закрили. І тепер на серверах десь знаходяться 25 мільйонів вже відсканованих книг, які ніхто не може прочитати. За підрахунками експертів, це приблизно 50-60 петабайтів даних, доступ до яких має півдюжини інженерів. Вони відповідають за надійне блокування бібліотеки від інших.

Журналісти запитали в одного з колишніх таких працівників, наскільки складно відкрити цю цифрову Александрійську бібліотеку людству. Колишні інженери відповіли – один рядок коду в базі даних та кілька хвилин на виконання. Але після цього в сміливця з’явиться велика купа проблем із законом.

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися