Daniil Kuznetsov (daniilk) wrote,
Daniil Kuznetsov
daniilk

Category:

Сколько книг на свете



Книжную тему на этой неделе продолжает Google. Есть в недрах этой компании такой проект как Google Books. В рамках проекта шаг за шагом создаются электронные копии книг которые выкладываются в сеть. В библиотеке есть три типа книг. Абсолютно бесплатные (их можно читать и скачивать), коммерческие (режим просмотра избранных страниц и возможность заказать) и те, на которые еще действует авторское право, но издание уже давно не найти в продаже (их потенциально можно будет заказать через сайт и это главная цель компании, как я понимаю). Все это дело, очевидно, создано с прицелом на мировой магазин электронных книг, который, одновременно будет являться самой большой в мире электронной библиотекой, хранилищем знаний цивилизации, если хотите. Создание такого проекта постоянно связано в прессе со множеством судебных дел от авторов, художников издателей, но работа продвигается и на сегодня в базе уже 10 000 000 книг. Тут стоит отметить, что подобной работой занимаются множество компаний, от Микрософта до национальных библиотек. Объединить бы им усилия, ну да ладно.

В общем на днях какие-то светлые головы внутри проекта решили подсчитать, сколько книг было издано человечеством за время его существования. Для начала ввели определение того, что является книгой. Это отдельный том, уникального издания (понятно, что от издания к изданию могут книга может обрастать новыми комментариями, правками автора и т.д) и на одном языке. Т.е. Дюма на русском и французском считается как две книги. Журналы и периодика в категорию книг не подпадают. Затем собрали воедино все базы, которые компания имела в наличии: ISBN, Библиотека Конгресса, каталоги национальных библиотек и т.д количеством 150 штук. После грубого слияния в базе оказалось 600 000 000 книг, а точнее карточек. Первым делом, из списка были выкинуты все копии внутри библиотек, т.е. когда одна книга имелась в 40 копиях и соответственно в 40 карточках. Затем началась война против книг с одинаковым ISBN и ошибочными кодами OCLC и LCCN (они не имеют контрольной суммы и вводятся часто с ошибками), после из ISBN реестра были выкинуты все товары, которые книгами не являются, вроде компакт-дисков и футболок.

Предварительное число уникальных библиотечных карточек составило 210 миллионов. Поскольку библиотеки собирают не только книги, были вычеркнуты - 8 млн. микрофильмов, 4.5 млн. аудиозаписей, 2 млн. карт, 2 млн. видеозаписей и прочих единиц хранения. Осталось 146 млн. записей. Минус периодические издания (то, что идет под кодом ISSN). Итого..

На 5 августа 129 864 880 книг, получается, что в библиотеке Google примерно 8% всех книг мира.

Линк

Tags: google, Литература
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 3 comments