Архив рубрики: Книгомания

Прикручиваю Transmission bittorent-клиент к своей качалке

На глаза попал очень интересный клиент под *nix который работает как демон-торрент-клиент — Transmission.

Мне такой клиент очень даже нужет, т.к. семейных нервирует что постоянно запускается командное окно с добавлением файлов на скачку uTorrent-у.

кроме того что этот демон будет работать на виртуалке он еще имеет огромный плюс в том, что существует класс на php (да и на Python тоже), с помощью которого можно добавлять, удалять, перемещать, проверять и т.п. торренты (вот спецификация)! Это как раз мне и нужно, чтобы сделать полностью автономный комплекс для скачки книг.

После недолгих экспериментов я прикрутил добавление заданий в трансмишшен для скачки из моей качалки торрентов. Процесс изучения идет!.

Обнаружилось то что с помощью класса на php нельзя получить информацию по сессии трансмишшена, но эта мелкая неприятность устраняется добавлением новой функции в класс!

Посмотрим как будет вести себя трансмишшен под нагрузкой в пару тысяч торрентов… В данный момент уТоррент начинает тормозить (ИМХО). Вообщем проводим эксперименты и смотрим.

2010-10-13 : Субъективно до 1000 торрентов трансмишшен работает нормально, но после этого порога вроде бы начинает тупить и качать очень медленно.

Новый рубеж TBC

Сегодня подошел к новому рубежу в сборе своей коллекции электронных книг — 330 тыс. книг.  Такое количество книг занимает весь массив объемом 4,5ТБ.

Что делать дальше? Вот это вопрос!

Автоскачка с rutracker.org

Все слышали, что произошло с доменом torrents.ru? Думаю да, но не все наверное знают что к тому же они еще и ввели ограничение на количество скачиваемых торрентов с одного аккаунта в день — в среднем 100 (при аплоаде более 5ГБ).

Это конечно печально, ведь в день на трекере появляется более 100 новых книжных постов, которые хотелось бы все забирать. Наверное я писал что я написал набор для автоматического скачивания торрентов с последующим добавлением задания utorrent-у через командный файл. Читать далее

Скачка кижек с торрентс.ру поставлена на поток.

Вчера наконец то оформилась процедура полавтоматичекской скачки книжек с торрентс.ру.

Принцип простой: изначально проходятся все книжные форумы, извлекаются описания книжек. Далее периодичски, допустим 1-2 раза в день делается поиск по трекеру новых книжек за последние Х дней.

Новые торренты скачиваются процедурой и для них формируется командный файл для добавления торрент-файлов торрент-клиенту. запускаешь командный файл и все торренты у тебя уже в клиенте.

Минимум действий — максимум успеха. 🙂

TBC — новый рубеж

books4Сегодня моя коллекция перевалила за 60000 рублеж. И это еще обработана не вся инфаната и на очереди Генезис (кторый, сокрее всего, весь уйдет в «уже отработанное», т.к. формируется из тех же библиотек что и моя коллекция).

Мне в голову пришла одна мысль: А что если брать уникальные (может быть даже и не уникальные) книги и делать по каждой сайт. Но сайт должен быть СДЛным и с одним условием — не публиковать всю книгу, а только часть. Почему? Да потому что не хорошо «обирать» правообладателей. 🙂

Зачем мне это нужно?

1. Еще один сайт на котором можно подзаработать копееючку.

Зачем это нужно правообладателям?

1. Дополнительная рекламма книги (а книга то не вся будет публиковаться, поэтому те кому она понравится — придется ее найти и купить в реалии).

Вот как то так…. надо еще подумать имеет ли офчинка выдлеки… Но по моим наблюдениям, даже на Автоблоге с нулевыми показателями можно зарабатывать по 2 рубля в день.. это 60 рублей в месяц и 720 рублей в год (сам домен стоит 100 рублей) а это чють ли не 700% годовых — помоему очень хороше вложение, вряд ли кто даст больший процент.

Процесс идет.

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги — в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Мой репозитарий книг.

Я уже писал ранее, что взялся за скачку книг из инета и составления своего репозитария книг. Для этого я должен написать скрипт, формирующий репозитарий в удобной форме.

Потратив некоторое время получился скрипт, который вскоре начнет формировать мой репозитарий.

Его основные возможности:

1 РАспаковывает запакованные книги

2 Достает текстовый слой

3 Выдирает первую страницу и конвертирует ее в JPG

4 Выдирает из PDF метатеги (иногда там бывает название книги, автор и т.п.)

5 считает MD5

Скрипт писался на perl под linux openSuse11.1 ( но будет работать и под другими, лиш бы были нужные утилиты для работы с файлами).

В данный момент скрипт проходит обкатку и скоро возьмется за работу. 🙂

Возможно объеденю усилия по составлению репозитария  с Bill_G (переговоры в процессе).