Sphinx Search

Увеличиваем производительность Sphinx BuildExcerpts

Posted in Performance, Sphinx Search, Tips And Tricks on August 7th, 2011 by Yaroslav Vorozhko – Be the first to comment

English version of this post.

Начиная с версии 2.0.1 в Sphinx появилась возможность параллельного построения поисковых сниппетов. Под параллельным построением имеется ввиду, что процесс обработки массива текста предназначенного для построения сниппетов будет распределен по нескольким CPU. Приведенная ниже реализация лучше всего подойдет системам в которых требуется генерировать сниппеты для сотен мегабайт текста.

Для распараллеливания процессов в Sphinx предусмотрена опция dist_threads, которая указывает searchd на сколько CPUs разбивать задачу. dist_threads используется как для обработки поисковых запросов в распределенных индексах, так и для обработки сниппетов, которые мы рассмотрим ниже.

Рассмотрим функцию SphinxAPI BuildExcerpt. По умолчанию функция BuildExcerpt в качестве первого параметра принимает массив текста для обработки,
но к сожалению такой вызов функции не использует параллельную обработку.

Но, начиная с версии 2.0.1, для BuildExcerpt был разработана новая опция load_files. load_files указывает Sphinx, что первый параметр функции BuildExcerpt должен содержать имена файлов, в которых должен находиться текст для обработки. Опция load_files совместно с опцией dist_threads позволяет Sphinx распаралеливать процесс построения сниппетов.

К сожалению у данной реализации есть узкое место - это необходимость использовать файловую систему. Так как, прежде чем генерировать сниппеты на основе файлов, надо эти файлы создать, а для жестких дисков это достаточно медленная операция. Поэтому, правильное решение, это создавать файлы в памяти, т.к. запись в память происходит в тысячи раз быстрее, чем на жесткий диск.

Для создания файлов в оперативной памяти в ядро Linux начиная с версии 2.4. включена файловой системой tmpfs, который мы и воспользуемся.

Файловая система

Для этого создадим директорию будущей системы и смонтируем ее.

CODE:
  1. mkdir /space
  2. mount -t tmpfs -o size=1G,nr_inodes=10k,mode=0700 tmpfs /space

В данном примере права на запись будут только у владельца директории /space, а максимальный размер файловой системы будет установлен в 1Gb.

Модифицируем BuildExcerpts

CODE:
  1. function buildExcerptFile($documents, $options = array())
  2. {
  3.     foreach($documents as $doc){
  4.             $file = "/space/".'snip_'.md5($doc).'_'.time();
  5.             file_put_contents($file, $doc);
  6.             $files[] = $file;
  7.         }
  8.  
  9.     $client = new SphinxClient();
  10.         $client->setServer('localhost', 9312);
  11.  
  12.     $res = $client->BuildExcerpts( $files, 'index', $keywords,
  13.         array(
  14.                     'around'=>10,
  15.                     'limit' => 300,
  16.                     'load_files' => 1
  17.                     )
  18.                 );
  19.  
  20.         foreach($files as $file){
  21.             unlink($file);
  22.         }
  23.  
  24.     return $res;
  25. }

Функция работает в три этапа:

  • Первый. Записываем все документы в файлы, причем имена файлов выбираются так, чтоб не получилось коллизий.
  • Второе. Вызываем функцию Sphinx BuildExcerpt, первым параметром передаем массив файлов вместо массива текста. А в третьем параметре указываем опцию load_files = 1
  • Третий. Удаляем созданные файлы для очистки памяти.

Sphinx.conf

В разделе searchd добавляем следующую строку:

CODE:
  1. dist_threads = 2

dist_thread лучше делать равным количеству CPU в системе.

На моих тестовых данных, данная реализация работает в два раза быстрее «стандартного» вызова BuildExcerpts на системе с двумя CPU. Средний размер документа 1-3 Mb, количество документов для одной было равным 100, т.е. один вызов обрабатывал в среднем 200 Mb текста.

Мастер-класс по Sphinx

Posted in Events, Sphinx Search on June 1st, 2011 by Yaroslav Vorozhko – Be the first to comment

В субботу, 18-го июня в Киеве пройдет мастер-класс СОЗДАТЕЛЯ  движка полнотекстового поиска Sphinx Андрея Аксенова "Как готовить Sphinx".

Мастер-класс будет интересен разработчикам, руководителям и владельцам проектов, которые сталкиваются с проблемой поиска при высоких нагрузках.

Sphinx используют такие монстры, как CraigsList, DailyMotion, Meetup, HupPages, HabraHabr и еще десятки высоконагруженных сайтов. Андрей Аксенов  выступал на многочисленных конференциях в России: "DevPoint 1-2", "РИТ", "DevConf 2011", "HighLoad ++". Организатор конференции пользователей Sphinx в Москве. Автор нашумевшего доклада “Как прекратить писать”.

Дополнительная информация и подробный план мастер-класса можно посмотреть на сайте http://www.smartme.com.ua/sphinx-workshop/

WordPress Sphinx Search plugin version 3.0

Posted in Sphinx Search, WPSphinx plugin on April 8th, 2011 by Yaroslav Vorozhko – Be the first to comment

Мы рады представить новую третью версию плагина поиска для WordPress.

Стоит отметить что мы разработали целый набор новых инструментов который поможет не только улучшить поиск, но так же и улучшить поисковую оптимизацию всего вебсайта.

Кратко о плагине:

  • поиск с помощью Sphinx Search;
  • поддержка Google like запросов;
  • виджеты релевантных, последних и ТОП поисковых запросов;
  • набор инструментов по управлению поисковыми фразами;
  • мастер автоматической установки Sphinx Search;
  • статистика поисковых фраз;
  • все компоненты используют Sphinx Search, количество SQL запросов сведено к минимуму.

Больше информации на официальной странице плагина.

Как увеличить производительность Sphinx Real Time индексов в 5-10 раз?

Posted in Performance, Sphinx Search on March 25th, 2011 by Yaroslav Vorozhko – Be the first to comment

На презентации доклада о Sphinx Real Time индексах на HighLoad++  я показал RT индексы не с лучшей стороны. По сути в докладе я показал, что RT индексы уступают обычным индексам минимум в 5 раз по производительности.

Соответсвенно обсуждение этой проблемы подтолкнуло меня провести эксперименты в поисках оптимальной настройки Sphinx для RT индексов. Задача была обойти или хотя бы достичь производительности обычных индексов.

Результаты и подробности исследования читайте на блоге компании Ivinco целиком посвященному Sphinx Search.

Отчет о Sphinx Search User Conference 2010

Posted in Events, Sphinx Search on October 30th, 2010 by Yaroslav Vorozhko – Be the first to comment

Занимаясь разработкой Sphinx Search приложений последние три года, я не смог упустить возможности посетить первую Sphinx Search User Conference.

Но, на конференцию я поехал не только как участник, а также как докладчик.
Тема моего выступления была "Sphinx Search Real Time индексы и их сравнение с обычными индексами".

Конференция была организована в одном из корпусов МГУ(Московского Государственного Университета),
участники заняли места за партами, а докладчики сменяли друг друга за лекторской трибуной.

Московской Государственный Университет

Московской Государственный Университет

Открыл конференцию и провел первый доклад конечно же Андрей Аксенов.
Рассказав про общие понятия Sphinx Search, Андрей таким образом подготовил аудиторию к более сложным темам.

Андрей рассказывает про новый тип стрингов

Андрей рассказывает про новый тип стрингов

Следом за Андреем выступил Слава Крюков с докладом о построении высокомасштабируемых систем на базе Sphinx Search.
Доклад Славы был очень глубоким и интересным, поэтому к нему было больше всего вопросов во время кофе-брейка.

Слава Крюков с докладом про BoardReader

Следующим интересным докладом, был доклад главного гостя конференции Пети Зайцева, который рассказал про применение Sphinx совместно с MySQL и без него.

Вторая часть конференции прошла под эгидой применения Sphinx Search в интернет магазинах.
И закрывал конференцию мой доклад о Real Time индексах Sphinx Search.

В конце конференции был проведен круглый стол с разработчиками Sphinx и докладчиками.
Было много интересных вопросов и пожеланий, Андрей провел несколько конкурсов где раздал много футболок с большим глазом на спине. :)

Круглый стол с разработчиками Sphinx и докладчиками

Круглый стол с разработчиками Sphinx и докладчиками

Конференцию считаю прошедшей удачно!
Спасибо Андрей!

Моя презентация Sphinx Search RT indexes

Скрипт миграции обычных индексов на real time индексы Sphinx Search

Posted in Sphinx Search on September 22nd, 2010 by Yaroslav Vorozhko – Be the first to comment
Скрипт предназначен для заполнения и обнволения real time индексов. Скрипт выполняет похожую работу, которую делал sphinx indexer для обычных индексов.
Поэтому конфигурационный файл sources.ini практически повторяет конфигурацию блока source из sphinx.conf.

Скрипт предназначен для заполнения и обнволения real time индексов. Скрипт выполняет похожую работу, которую делал sphinx indexer для обычных индексов.

Поэтому конфигурационный файл sources.ini практически повторяет конфигурацию блока source из sphinx.conf.

Возможности

  • Заполнять индекс данными
  • Дописывать в индекс новые данные
  • Обновлять в индексе существующие данные
  • Выполнять pre и post sql запросы
  • Поддерживает ranged запросы

Установка

Скачайте архив из launchpad.net

Распакуйте его в любую директорию вашего веб сервера.

Откройте sources.ini, в этом файле уже определен один раздел, используйте его как пример.

Определять можно столько разделов, сколько потребуется.

Каждый раздел описывает один источник данных для одного real time индекса.

Для поддержки добавления новых данных в индекс без перезаписи старых, необходимо использовать счетчик id для источника данных.

Вы должны будете выполнить следующие шаги:

  • Создать таблицу для счетчиков
  • Добавить счетчики в таблицу
  • Изменить sql_query для поддержки $start и $end
  • Изменить sql_query_range для выборки минимального и максимального id используя таблицу счетчик
  • Изменить sql_query_post_index для обновления таблицы счетчика

Подробнее про счетчик вы можете прочитать в документации к Sphinx Search

Теперь когда мы закончили с конфигурацией, можно начать заполнение индекса.

Для этого просто запустить indexer.php

CODE:
  1. php indexer.php

Спасибо!

Желаю удачи!

Тестирование производительности Обычных, Real Time и Смешанных индексов Sphinx Search

Posted in Sphinx Search on September 21st, 2010 by Yaroslav Vorozhko – Be the first to comment

Немного определенй

Обычный индекс - это индекс, который имеет блок source в конфигурационном файле Sphinx и заполняется путем вызова утилиты indexer.
Real time (RT) - не имеет блока source, а содержит только определение полей и атрибутов. Заполнение RT индекса уже не является обязанностью утилит Sphinx, а ложиться на плечи разработчика приложения.
Смешанный индекс - это индекс, который образуется путем создания распределенного индекса из обычного индекса и RT индекса.

Пример смешанного индекса:

CODE:
  1. index distributed
  2. {
  3. type = distributed
  4. local = plain_main_index
  5. local = real_time_increment_index
  6. }

В данном примере мы через один распределенный индекс можем обращаться одновременно к RT и обычным индексам.

Измерение производительности

Я провел несколько сравнительных тестов над всеми типами индексов, а именно:

  1. Сравнил использования HDD каждым из типов
  2. Сравнил скорость поиска по одиночному запросу
  3. Сравнил скорость поиска по мулти запросам

Все тесты проходили на четырех различных наборах данных. Данные были взяты из wikipedia и распределены на четыри части по:
10 тыс., 100 тыс., 1 млн. и 2 млн. записей.

Сравнение HDD

Я сравнил использование hdd, только для обычных и RT индексов.

hdd usage by RT and plain index

Красное поле RT индексы.
Синее поле обычные индексы.

Как видно из диаграммы, RT индексы для 1 млн. и 2 млн. данных используют примерно на 20% больше места.
Но, Я считаю, что RT индексы все таки по этому показателю лучше, так как для обычных индексов при переиндексации требуется в 2 раза больше места чем сам индекс. Соответственно используя RT мы сможем экономнее использовать hdd на сервере.

Сравнение скорости поиска по одинчоному запросу

Для запросов я создал словарь из 1000 самых популярных слов из каждого индекса. И по этим словам выполнил запросы.

single query performance tests

Красное поле RT индексы.
Синее поле обычные индексы.
Желтое поле смешанные индексы.

Из диаграммы мы видим, что на небольших индексах скорость поиска практически одинаковая.
В то время как на больших данных RT индексы существенно проигрывают обычным индексам, а смешанные индексы заняли положение посередине.

Сравнение скорости поиска по мулти запросам

Словарь я использовал тот же, что и для предыдущего теста, только поиск исполнял сразу по пять запросов паралельно.

multi query performance tests

Красное поле RT индексы.
Синее поле обычные индексы.
Желтое поле смешанные индексы.

Тут мы видим практически туже самую картину. На больших объемах RT индексы сильно проигрывают обычным индексам.
Но, стоит отметить, что производительность мультизапросов примерно в 5 раз лучше чем у одинчоных запросов.

Из этого можно сделать несколько выводов:

  • RT индексы работают быстро только на малых масивах данных
  • Для поддержки высокой производительности приложение стоит проектировать с поддержкой мульти запросов
  • RT индексы могуть стать хорошей заменой инкрементному индексу

Благодарю за внимание.
Желаю удачи!