Архив метки: Книгомания

Торрентс.ру поменял адрес закачки торрентов.

На днях у меня перестали выкачиваться на автомате торренты с торрентс.ру. После детального разбора оказалось, что они поменяли источник загрузки torrent-файлов. Пришлось переписать функцию скачки torrent-файлов.

Поток восстановлен… а место уже качается… Придется подключать жесткий диск по USB-интерфейсу… и сливать туда что то. А может Док-станцию где нить взять и вставлять по мере необходимости туда диски, заполнять и откладывать.

Процесс идет.

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги — в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Скрипт для findISBN

Те кто увлекается собиранием книжек наверняка сталкивались с программой findISBN, которая ищет в книжках ISBN номера, а также название книги по ним в различных веб-библиотеках. В результате ее работы рядо с книжкой появляются  файлы с номерами ISBN и списком найденых названий.

Для того чтобы это собрать в одном CSV файле необходимую информацию и служит скрипт который был написам по просьбе Bill_G.

Его алгоритм.

Ищет все файлы с раширением ISBN, читает первые 4 сточки их него, потом берет 4 сточки из файла с расширением NameBook для этой книжки и первую строчку их файла txt для этой книжки. Из полученных данных форует сроку с разделитлем и пишет ее в файл.

В последствии этот файл можно где-нибудь обработать.

Сам скрипт: Скачать

Начал формировать свою коллекцию книг (TBC)

Сегодня начал формировать свою коллекцию книг.

Первым этапом — обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом — описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации — описание, оглавления и т.п.

Мой репозитарий книг.

Я уже писал ранее, что взялся за скачку книг из инета и составления своего репозитария книг. Для этого я должен написать скрипт, формирующий репозитарий в удобной форме.

Потратив некоторое время получился скрипт, который вскоре начнет формировать мой репозитарий.

Его основные возможности:

1 РАспаковывает запакованные книги

2 Достает текстовый слой

3 Выдирает первую страницу и конвертирует ее в JPG

4 Выдирает из PDF метатеги (иногда там бывает название книги, автор и т.п.)

5 считает MD5

Скрипт писался на perl под linux openSuse11.1 ( но будет работать и под другими, лиш бы были нужные утилиты для работы с файлами).

В данный момент скрипт проходит обкатку и скоро возьмется за работу. 🙂

Возможно объеденю усилия по составлению репозитария  с Bill_G (переговоры в процессе).

Выносим граббер инфанаты на сервер.

Сегодня вынес скрипты граббинга инфанаты с локальной машины в интернет на хостинг. Это позволить постоянно мониторить появление новых описаний, да и увеличит скорость обращения к инфанате.

Книгомания — парсер Инфанаты.

В предыдущем посте я озвучил проблему описания большого количества книг. Как один из путей повышения скорости описания я вскольз упоминул о возможности выдрать описания с какой либо онлайновской библиотеки, например, инфанаты. Что-ж, сказано — приступил к реализации.

Читать далее