Архив за месяц: Май 2009

Процесс идет.

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги — в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Скрипт для findISBN

Те кто увлекается собиранием книжек наверняка сталкивались с программой findISBN, которая ищет в книжках ISBN номера, а также название книги по ним в различных веб-библиотеках. В результате ее работы рядо с книжкой появляются  файлы с номерами ISBN и списком найденых названий.

Для того чтобы это собрать в одном CSV файле необходимую информацию и служит скрипт который был написам по просьбе Bill_G.

Его алгоритм.

Ищет все файлы с раширением ISBN, читает первые 4 сточки их него, потом берет 4 сточки из файла с расширением NameBook для этой книжки и первую строчку их файла txt для этой книжки. Из полученных данных форует сроку с разделитлем и пишет ее в файл.

В последствии этот файл можно где-нибудь обработать.

Сам скрипт: Скачать

Начал формировать свою коллекцию книг (TBC)

Сегодня начал формировать свою коллекцию книг.

Первым этапом — обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом — описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации — описание, оглавления и т.п.

Задумка Системы Управления Вебработами

На днях я задумался о системе, в которой можно было бы вести все свои веб-дела, и не просто — а совместно с другими людьми.

Подумав, я решил что напишу такую для себя. Часть уже готова. В ней есть:

  1. Управление пользователями
  2. Каталог сайтов
  3. Каталог доменных регистраторов
  4. Каталог хостингов
  5. Система Заданий (о ней подробнее ниже).

Что собираюсь сделать:

  1. Система событий с сайтов
  2. Централизованный бэкап
  3. Система контроля целостности файлов сайтов

Что такое система управления Заданиями?

В двух словах: Есть несколько человек, которые работают в группе над несколькими сайтами. Есть, допустим, программист, оптимизатор и контеншик. В данной системе можно регитрировать все действия которые делаются людьми и которые нужно сделать кем-либо, буть до необхдимые доработки, наполение сайта или что то еще. Например координатор может открыть задание на контенщика, чтобы тот добавил несколько статей на сайти и Задание на Программиста, чтобы тот доработал сайт или исправил какую-либо обнаруженную ошибку. Причем, человек видит только те Задания, которые он создавал сам или в которых он стоит одним из Исполнителей.

После создания Задания в нем можно фиксировать какие-то моменты и вести переписку по данному заданию.

В кратце все. 🙂

Постепенно система будет дорабатываться и совершенствоваться.

список заданийокно создания/редактирования задания

Простой скрипт бэкапа

Попросили написать скрипт для бэкапирования каталогов, с возможностью указать сколько дней хранить файлы.

Вот что получилось:

#!/bin/bash

STORE=4
SRC=/tmp/kvlp
DST=/tmp/kvlp_backup

DATE=`date +%Y-%m-%d`
mkdir -p «$DST/$DATE»;

cp -R «$SRC»/* «$DST/$DATE/»
for item in $(find /tmp/kvlp_backup/ * -mtime +»$STORE» -type d)
do
rm -rfd «$item»
done

Думаю что тут все понятно:

STORE — количество дней которое нужно хранить бэкап.

SRC — Директория, данные их которой нужно бэкапировать

DST — Директория где храняться бэкапы.

Мой репозитарий книг.

Я уже писал ранее, что взялся за скачку книг из инета и составления своего репозитария книг. Для этого я должен написать скрипт, формирующий репозитарий в удобной форме.

Потратив некоторое время получился скрипт, который вскоре начнет формировать мой репозитарий.

Его основные возможности:

1 РАспаковывает запакованные книги

2 Достает текстовый слой

3 Выдирает первую страницу и конвертирует ее в JPG

4 Выдирает из PDF метатеги (иногда там бывает название книги, автор и т.п.)

5 считает MD5

Скрипт писался на perl под linux openSuse11.1 ( но будет работать и под другими, лиш бы были нужные утилиты для работы с файлами).

В данный момент скрипт проходит обкатку и скоро возьмется за работу. 🙂

Возможно объеденю усилия по составлению репозитария  с Bill_G (переговоры в процессе).