Архив метки: книги

Новый сайт поиска по содержанию книжек www.tlibrary.ru

Доброе, сетевые жители

Предлагаю посмотреть на новый сайт, который сейчас разрабатывается — www.tlibrary.ru

Главная суть сайта — сделать возможность поиска по содержанию книжек. Да, вы скажете таких сайтов полно, но изюминка этого в том что на сайте постепенно появляется информация о книжках, в которых картинки автоматически распознаются.  То есть те книги, которых находятся в сканах проганяются через программы распознания (пока только часть книги) и полученое распознанное содержимое может быть использовано для поиска.

Пока конечно все сыро, и в распознанном контенте много ошибок, но такова цена бюджетности. Если сайт будет пользоваться популярностью, то многое можно исправить.

Начал формировать свою коллекцию книг (TBC)

Сегодня начал формировать свою коллекцию книг.

Первым этапом — обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом — описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации — описание, оглавления и т.п.

Книгомания

Любите ли Вы читать книги? А читаете? А кто то еще любит и собирать их, коллекционировать, так сказать.

Я вот люблю, но пока я вижу трудноразрешаемую задачу — сортировка и описание.

Сортировка…. если книги взяты из нормального источника, то, как правило, они уже называются типа АВТОР-НАЗВАНИЕ_КНИГИ и это , к сожалению, обычно максимум. А название может быть создано и по шаблону, или вообще без названия (как при «рыбалке»). При наличии нормального занятия можно и отсортировать, но вот при его отсутствии еще книжу придется еще и открыть, найти название и переименовать файл.

Описание…. Под этим я понимаю извлечение всех данных книги (название, автора, издтельства, год издания, описания, оглавления и т.п.) Тут то и есть самое затратное дело.

По своему опыту я могу сказать что на описание книги нужно потратить минимум 2-3 минуты. Становится понятно что описание коллекции из 1000 книг займет минимум 2000-3000 минут, или 4-6 рабочих дня. А если коллекция 100 тыс книг, то это 400-600 рабочих дней, то есть исчисление идет на года.

Интересно, есть ли где нибудь база книг с нужными мне данными?  Первое что приходит в голову — natahaus, но тут можно напарсить не все параметры, например там нет оглавления, но это уже что-то.

Я думаю так.

1. напасить описния книг и сложить их в какой нить базе.

2. Начать наполнять сайт книгами (сайт уже есть — http://www.bookshelfs.ru). В процессе наполения и индексации сайта сайт нужно будет монетизировать — сапа, лиекс, может быть какой нить контекст. Это даст денег на хостинг, и в будущем можно будет нанять людей для описания книг.

Если человек тратит на 1 книгу 3 минуты, то за рабочий день можно сделать 20*8=160 книг. За неделю 160*5=800 книг. За месяц 800*4=2400 книг. За эту работу думаю можно заплатить 6-8 тысяч рублей. Таким образом описние одной книги будет стоить 10 рублей (лучше 8 рублей).

Перспектива какая — большое количство старниц в индексе — доход с контекста и бирж.

Конечно, все это размышления и жизнь внесет свои коррективы, но думаю что стоит попробовать.