Posts Tagged ‘Sphinx Search’

Увеличиваем производительность Sphinx BuildExcerpts

Posted in Performance, Sphinx Search, Tips And Tricks on August 7th, 2011 by Yaroslav Vorozhko – Be the first to comment

English version of this post.

Начиная с версии 2.0.1 в Sphinx появилась возможность параллельного построения поисковых сниппетов. Под параллельным построением имеется ввиду, что процесс обработки массива текста предназначенного для построения сниппетов будет распределен по нескольким CPU. Приведенная ниже реализация лучше всего подойдет системам в которых требуется генерировать сниппеты для сотен мегабайт текста.

Для распараллеливания процессов в Sphinx предусмотрена опция dist_threads, которая указывает searchd на сколько CPUs разбивать задачу. dist_threads используется как для обработки поисковых запросов в распределенных индексах, так и для обработки сниппетов, которые мы рассмотрим ниже.

Рассмотрим функцию SphinxAPI BuildExcerpt. По умолчанию функция BuildExcerpt в качестве первого параметра принимает массив текста для обработки,
но к сожалению такой вызов функции не использует параллельную обработку.

Но, начиная с версии 2.0.1, для BuildExcerpt был разработана новая опция load_files. load_files указывает Sphinx, что первый параметр функции BuildExcerpt должен содержать имена файлов, в которых должен находиться текст для обработки. Опция load_files совместно с опцией dist_threads позволяет Sphinx распаралеливать процесс построения сниппетов.

К сожалению у данной реализации есть узкое место - это необходимость использовать файловую систему. Так как, прежде чем генерировать сниппеты на основе файлов, надо эти файлы создать, а для жестких дисков это достаточно медленная операция. Поэтому, правильное решение, это создавать файлы в памяти, т.к. запись в память происходит в тысячи раз быстрее, чем на жесткий диск.

Для создания файлов в оперативной памяти в ядро Linux начиная с версии 2.4. включена файловой системой tmpfs, который мы и воспользуемся.

Файловая система

Для этого создадим директорию будущей системы и смонтируем ее.

CODE:
  1. mkdir /space
  2. mount -t tmpfs -o size=1G,nr_inodes=10k,mode=0700 tmpfs /space

В данном примере права на запись будут только у владельца директории /space, а максимальный размер файловой системы будет установлен в 1Gb.

Модифицируем BuildExcerpts

CODE:
  1. function buildExcerptFile($documents, $options = array())
  2. {
  3.     foreach($documents as $doc){
  4.             $file = "/space/".'snip_'.md5($doc).'_'.time();
  5.             file_put_contents($file, $doc);
  6.             $files[] = $file;
  7.         }
  8.  
  9.     $client = new SphinxClient();
  10.         $client->setServer('localhost', 9312);
  11.  
  12.     $res = $client->BuildExcerpts( $files, 'index', $keywords,
  13.         array(
  14.                     'around'=>10,
  15.                     'limit' => 300,
  16.                     'load_files' => 1
  17.                     )
  18.                 );
  19.  
  20.         foreach($files as $file){
  21.             unlink($file);
  22.         }
  23.  
  24.     return $res;
  25. }

Функция работает в три этапа:

  • Первый. Записываем все документы в файлы, причем имена файлов выбираются так, чтоб не получилось коллизий.
  • Второе. Вызываем функцию Sphinx BuildExcerpt, первым параметром передаем массив файлов вместо массива текста. А в третьем параметре указываем опцию load_files = 1
  • Третий. Удаляем созданные файлы для очистки памяти.

Sphinx.conf

В разделе searchd добавляем следующую строку:

CODE:
  1. dist_threads = 2

dist_thread лучше делать равным количеству CPU в системе.

На моих тестовых данных, данная реализация работает в два раза быстрее «стандартного» вызова BuildExcerpts на системе с двумя CPU. Средний размер документа 1-3 Mb, количество документов для одной было равным 100, т.е. один вызов обрабатывал в среднем 200 Mb текста.

Мастер-класс по Sphinx

Posted in Events, Sphinx Search on June 1st, 2011 by Yaroslav Vorozhko – Be the first to comment

В субботу, 18-го июня в Киеве пройдет мастер-класс СОЗДАТЕЛЯ  движка полнотекстового поиска Sphinx Андрея Аксенова "Как готовить Sphinx".

Мастер-класс будет интересен разработчикам, руководителям и владельцам проектов, которые сталкиваются с проблемой поиска при высоких нагрузках.

Sphinx используют такие монстры, как CraigsList, DailyMotion, Meetup, HupPages, HabraHabr и еще десятки высоконагруженных сайтов. Андрей Аксенов  выступал на многочисленных конференциях в России: "DevPoint 1-2", "РИТ", "DevConf 2011", "HighLoad ++". Организатор конференции пользователей Sphinx в Москве. Автор нашумевшего доклада “Как прекратить писать”.

Дополнительная информация и подробный план мастер-класса можно посмотреть на сайте http://www.smartme.com.ua/sphinx-workshop/

Отчет о Sphinx Search User Conference 2010

Posted in Events, Sphinx Search on October 30th, 2010 by Yaroslav Vorozhko – Be the first to comment

Занимаясь разработкой Sphinx Search приложений последние три года, я не смог упустить возможности посетить первую Sphinx Search User Conference.

Но, на конференцию я поехал не только как участник, а также как докладчик.
Тема моего выступления была "Sphinx Search Real Time индексы и их сравнение с обычными индексами".

Конференция была организована в одном из корпусов МГУ(Московского Государственного Университета),
участники заняли места за партами, а докладчики сменяли друг друга за лекторской трибуной.

Московской Государственный Университет

Московской Государственный Университет

Открыл конференцию и провел первый доклад конечно же Андрей Аксенов.
Рассказав про общие понятия Sphinx Search, Андрей таким образом подготовил аудиторию к более сложным темам.

Андрей рассказывает про новый тип стрингов

Андрей рассказывает про новый тип стрингов

Следом за Андреем выступил Слава Крюков с докладом о построении высокомасштабируемых систем на базе Sphinx Search.
Доклад Славы был очень глубоким и интересным, поэтому к нему было больше всего вопросов во время кофе-брейка.

Слава Крюков с докладом про BoardReader

Следующим интересным докладом, был доклад главного гостя конференции Пети Зайцева, который рассказал про применение Sphinx совместно с MySQL и без него.

Вторая часть конференции прошла под эгидой применения Sphinx Search в интернет магазинах.
И закрывал конференцию мой доклад о Real Time индексах Sphinx Search.

В конце конференции был проведен круглый стол с разработчиками Sphinx и докладчиками.
Было много интересных вопросов и пожеланий, Андрей провел несколько конкурсов где раздал много футболок с большим глазом на спине. :)

Круглый стол с разработчиками Sphinx и докладчиками

Круглый стол с разработчиками Sphinx и докладчиками

Конференцию считаю прошедшей удачно!
Спасибо Андрей!

Моя презентация Sphinx Search RT indexes

Скрипт миграции обычных индексов на real time индексы Sphinx Search

Posted in Sphinx Search on September 22nd, 2010 by Yaroslav Vorozhko – Be the first to comment
Скрипт предназначен для заполнения и обнволения real time индексов. Скрипт выполняет похожую работу, которую делал sphinx indexer для обычных индексов.
Поэтому конфигурационный файл sources.ini практически повторяет конфигурацию блока source из sphinx.conf.

Скрипт предназначен для заполнения и обнволения real time индексов. Скрипт выполняет похожую работу, которую делал sphinx indexer для обычных индексов.

Поэтому конфигурационный файл sources.ini практически повторяет конфигурацию блока source из sphinx.conf.

Возможности

  • Заполнять индекс данными
  • Дописывать в индекс новые данные
  • Обновлять в индексе существующие данные
  • Выполнять pre и post sql запросы
  • Поддерживает ranged запросы

Установка

Скачайте архив из launchpad.net

Распакуйте его в любую директорию вашего веб сервера.

Откройте sources.ini, в этом файле уже определен один раздел, используйте его как пример.

Определять можно столько разделов, сколько потребуется.

Каждый раздел описывает один источник данных для одного real time индекса.

Для поддержки добавления новых данных в индекс без перезаписи старых, необходимо использовать счетчик id для источника данных.

Вы должны будете выполнить следующие шаги:

  • Создать таблицу для счетчиков
  • Добавить счетчики в таблицу
  • Изменить sql_query для поддержки $start и $end
  • Изменить sql_query_range для выборки минимального и максимального id используя таблицу счетчик
  • Изменить sql_query_post_index для обновления таблицы счетчика

Подробнее про счетчик вы можете прочитать в документации к Sphinx Search

Теперь когда мы закончили с конфигурацией, можно начать заполнение индекса.

Для этого просто запустить indexer.php

CODE:
  1. php indexer.php

Спасибо!

Желаю удачи!

Тестирование производительности Обычных, Real Time и Смешанных индексов Sphinx Search

Posted in Sphinx Search on September 21st, 2010 by Yaroslav Vorozhko – Be the first to comment

Немного определенй

Обычный индекс - это индекс, который имеет блок source в конфигурационном файле Sphinx и заполняется путем вызова утилиты indexer.
Real time (RT) - не имеет блока source, а содержит только определение полей и атрибутов. Заполнение RT индекса уже не является обязанностью утилит Sphinx, а ложиться на плечи разработчика приложения.
Смешанный индекс - это индекс, который образуется путем создания распределенного индекса из обычного индекса и RT индекса.

Пример смешанного индекса:

CODE:
  1. index distributed
  2. {
  3. type = distributed
  4. local = plain_main_index
  5. local = real_time_increment_index
  6. }

В данном примере мы через один распределенный индекс можем обращаться одновременно к RT и обычным индексам.

Измерение производительности

Я провел несколько сравнительных тестов над всеми типами индексов, а именно:

  1. Сравнил использования HDD каждым из типов
  2. Сравнил скорость поиска по одиночному запросу
  3. Сравнил скорость поиска по мулти запросам

Все тесты проходили на четырех различных наборах данных. Данные были взяты из wikipedia и распределены на четыри части по:
10 тыс., 100 тыс., 1 млн. и 2 млн. записей.

Сравнение HDD

Я сравнил использование hdd, только для обычных и RT индексов.

hdd usage by RT and plain index

Красное поле RT индексы.
Синее поле обычные индексы.

Как видно из диаграммы, RT индексы для 1 млн. и 2 млн. данных используют примерно на 20% больше места.
Но, Я считаю, что RT индексы все таки по этому показателю лучше, так как для обычных индексов при переиндексации требуется в 2 раза больше места чем сам индекс. Соответственно используя RT мы сможем экономнее использовать hdd на сервере.

Сравнение скорости поиска по одинчоному запросу

Для запросов я создал словарь из 1000 самых популярных слов из каждого индекса. И по этим словам выполнил запросы.

single query performance tests

Красное поле RT индексы.
Синее поле обычные индексы.
Желтое поле смешанные индексы.

Из диаграммы мы видим, что на небольших индексах скорость поиска практически одинаковая.
В то время как на больших данных RT индексы существенно проигрывают обычным индексам, а смешанные индексы заняли положение посередине.

Сравнение скорости поиска по мулти запросам

Словарь я использовал тот же, что и для предыдущего теста, только поиск исполнял сразу по пять запросов паралельно.

multi query performance tests

Красное поле RT индексы.
Синее поле обычные индексы.
Желтое поле смешанные индексы.

Тут мы видим практически туже самую картину. На больших объемах RT индексы сильно проигрывают обычным индексам.
Но, стоит отметить, что производительность мультизапросов примерно в 5 раз лучше чем у одинчоных запросов.

Из этого можно сделать несколько выводов:

  • RT индексы работают быстро только на малых масивах данных
  • Для поддержки высокой производительности приложение стоит проектировать с поддержкой мульти запросов
  • RT индексы могуть стать хорошей заменой инкрементному индексу

Благодарю за внимание.
Желаю удачи!

Переходить ли на Sphinx Search real time индексы

Posted in Sphinx Search on September 20th, 2010 by Yaroslav Vorozhko – 2 Comments

Проблема обычных индексов

Основаня проблема обычных индексов заключается в скорости обновления.
Для того, чтобы обновить индекс необходимо его полностью перестраивать.

Для больших массивов данных, используется метод main + delta индексы.
Где main содержит основную часть данных, а delta - только последние изменения.

Таким образом, чтоб поддерживать индекс "свежим" необходимо перестраивать delta индекс, каждые 3-5 минут.
Но, чем больше становится delta индекс, тем дольше идет перестроение, поэтому delta индекс рекомендуется сбрасывать в
main индекс раз в сутки или неделю в зависимости от частоты обновления данных.

Отсюда возникает две проблемы:

  1. Из-за частой переиндексации система всегда нагружена.
  2. Данные попадают в индекс только спустя 3-5-10 минут.

Real time индексы

В версии 1.10 Sphinx включил поддержку нового типа индексов - real time индексы.
Основное преимущество и отличие от обычных индексов - это возможность обновить запись в индексе на "лету".
Также - это поддержка mysql протокола, что позволяет использовать существующие инструменты(mysql client, mysqldump) для работы с real time индексами.
Для обычных индексов доступ по mysql протоколу также поддерживается, но только в режиме чтения.
И - это SphinxQL, язык запросов основанный на SQL, поддерживающие такие операции как SELECT, DELETE, INSERT, REPLACE.

Но, в данный момент сущесвтует проблема с производительность в RT индексах на больших объемах данных.
Хотя, на малых объемах, скажем до 500.000 документов содержащих статьи из wikipedia, скорость работы не уступает обычным индексам.

Из этого можно сделать вывод, что простота работы и высокая скорость поиска на небольших объемах данных выгодно отличет real time
индексы от обычных индексов для delta (инкрементного) индекса.

Вывод
Real time индексы можно использовать как инкрементный delta индекс в Sphinx.
Это снизит нагрузку на сервер, и упростит обновление данных в инкрементном индексе.
А поддержка смешанных индексов позволит очень просто подключить RT индексы к работающему приложению.

Пример смешанного индекса.

CODE:
  1. index distributed
  2. {
  3. type = distributed
  4. local = plain_main_index
  5. local = real_time_increment_index
  6. }

В данном примере мы через один распределенный индекс обращаемся одновременно к RT и обычным индексам.

Как мы видим миграция на RT индексы может быть сделана очень просто, начать можно с малого не трогая при этом основу работающей системы.

Всем желаю удачи в этом непростом, но интересном деле!

Вышел долгожданный и многообещающий релиз Sphinx 1.10-beta

Posted in Sphinx Search on July 20th, 2010 by Yaroslav Vorozhko – 5 Comments

Чего же нам так нехватало в старых версиях, и что появилось в новой версии Sphinx?

Real time индексы

  • RT индексы позволяют моментально внести изменения в индекс
  • С ними стало также легко работать как с базой MySQL
  • Main+Delta схема обновления индекса ушла в прошлое
  • Больше нет необходимости в переиндексации

Режим работы prefork и threads

  • Позволяют легко организовывать многопоточность
  • Это лучше скажется на производительности запросов
  • Это позволит лучше утилизаровать мощности многоядерных CPU

Поддержка строковых атрибутов

Полная поддержка всех функций searchd в SphinxQL

Полный список изменений смотрите в оффициальной документации.

Если у вас есть вопросы или нужна консультация - пишите, я обязательно отвечу на все впоросы.