Архив за месяц: Март 2009

Простая система кэширования на php

<?

$cacheFile = ‘cache.html’;

if ( (file_exists($cacheFile)) && ((fileatime($cacheFile) + 600) > time()) )
{
$content = file_get_contents($cacheFile);
echo $content;
} else
{
ob_start();
// write content
echo ‘

Hello world to cache

‘;
$content = ob_get_contents();
ob_end_clean();
file_put_contents($cacheFile,$content);
echo $content;
}
?>

Это конечно все очень просто, для доработки надо чтобы название файла созадавалось как md5 строки запроса и если страниц много, то разбивалось по каталогам, называющимися первой буквой имени файла (это нужно, т.к. скорость доступа к большому количеству файлов в файловой системе при их большом количестве).

Я доработал такой алгоритм и скоро опубликую его.

Подсчет ошибок в логе messages.log

Сегодня понадобилось подсчитать количество ошибок по превышению температуры процессора. Данные находятся в messages.log.

Самое простое решение — это написать простенький perl скрипт, который бы брал месяц, число и считало количество появления ошибок в хеше.

Скрипт получилося такой:

 

#!/usr/bin/perl

$filename=’mess4.log’;

open FH,$filename or die $!;

while (<FH>) {

    ~/(\w+)\s*(\d+)\s+(\d+):/;

  #  print «$1 $2 $3\n»;

   if (exists($stat{«$1 $2»})) {$stat{«$1 $2»}+=1;} else { $stat{«$1 $2»}=1;}

}

while (($data,$count)=each(%stat)){

    print «$data\t$count\n»;

}

 

Результат — вывод двух из 3х колонок — МЕСЯЦ, ЧИСЛО, КОЛИЧЕСТВО ОШИБОК.

Скрипт очень прост, поэтому вывод нужно запихнуть в ексель и отсортировать по-человечески. Конечно все это можно сделать в скрипте, но на это пока нет времени.

Выносим граббер инфанаты на сервер.

Сегодня вынес скрипты граббинга инфанаты с локальной машины в интернет на хостинг. Это позволить постоянно мониторить появление новых описаний, да и увеличит скорость обращения к инфанате.

Книгомания — парсер Инфанаты.

В предыдущем посте я озвучил проблему описания большого количества книг. Как один из путей повышения скорости описания я вскольз упоминул о возможности выдрать описания с какой либо онлайновской библиотеки, например, инфанаты. Что-ж, сказано — приступил к реализации.

Читать далее

Книгомания

Любите ли Вы читать книги? А читаете? А кто то еще любит и собирать их, коллекционировать, так сказать.

Я вот люблю, но пока я вижу трудноразрешаемую задачу — сортировка и описание.

Сортировка…. если книги взяты из нормального источника, то, как правило, они уже называются типа АВТОР-НАЗВАНИЕ_КНИГИ и это , к сожалению, обычно максимум. А название может быть создано и по шаблону, или вообще без названия (как при «рыбалке»). При наличии нормального занятия можно и отсортировать, но вот при его отсутствии еще книжу придется еще и открыть, найти название и переименовать файл.

Описание…. Под этим я понимаю извлечение всех данных книги (название, автора, издтельства, год издания, описания, оглавления и т.п.) Тут то и есть самое затратное дело.

По своему опыту я могу сказать что на описание книги нужно потратить минимум 2-3 минуты. Становится понятно что описание коллекции из 1000 книг займет минимум 2000-3000 минут, или 4-6 рабочих дня. А если коллекция 100 тыс книг, то это 400-600 рабочих дней, то есть исчисление идет на года.

Интересно, есть ли где нибудь база книг с нужными мне данными?  Первое что приходит в голову — natahaus, но тут можно напарсить не все параметры, например там нет оглавления, но это уже что-то.

Я думаю так.

1. напасить описния книг и сложить их в какой нить базе.

2. Начать наполнять сайт книгами (сайт уже есть — http://www.bookshelfs.ru). В процессе наполения и индексации сайта сайт нужно будет монетизировать — сапа, лиекс, может быть какой нить контекст. Это даст денег на хостинг, и в будущем можно будет нанять людей для описания книг.

Если человек тратит на 1 книгу 3 минуты, то за рабочий день можно сделать 20*8=160 книг. За неделю 160*5=800 книг. За месяц 800*4=2400 книг. За эту работу думаю можно заплатить 6-8 тысяч рублей. Таким образом описние одной книги будет стоить 10 рублей (лучше 8 рублей).

Перспектива какая — большое количство старниц в индексе — доход с контекста и бирж.

Конечно, все это размышления и жизнь внесет свои коррективы, но думаю что стоит попробовать.

Глюк sape.ru

На днях встретился с глюком сапы — когда зашел  и у видел что у меня на балансе от куда то взялось 330 у.е. Причем, если смотреть по истории взаиморасчетов, как будьто они у меня были всегда. Конечно ясно что это был временный глюк и вывеси эти деньги не удалось. 🙁

Я даже скриншот сделал… так сказать на память.