Пятничная оптимизация / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Пятничная оптимизация

21 сообщений из 21, страница 1 из 1

Пятничная оптимизация

#36780097

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Есть база IP2Location. Пока - в текстовом файле.

Возникла мысль, как-бы ускорить по ней поиск. Т.е. стоит задача - по заданному IP адресу найти локацию как можно быстрее.

Описание полей:

FIELD # FIELD NAME DATA TYPE FIELD DESCRIPTION1 IP_FROM NUMERICAL (DOUBLE)Beginning of IP address range. The data is represented in IP number1 format.2IP_TO NUMERICAL (DOUBLE)Ending of IP address range. The data is represented in IP number1 format.3 COUNTRY_CODE CHAR(2) Two-character country code based on ISO 3166.4 COUNTRY_NAME VARCHAR(64) Country name based on ISO 3166.5 REGION VARCHAR(128) Region name.6 CITY VARCHAR(128) City name.7 LATITUDE NUMERICAL (DOUBLE) City latitude. Default to capital city latitude if city is unknown. 8 LONGITUDE NUMERICAL (DOUBLE) City longitude. Default to capital city longitude if city is unknown.9 ISP_NAME VARCHAR(256) Internet Service Provider registered under the IP address range.10 DOMAIN_NAME VARCHAR(128) Domain name assigned to Internet network.

Вот фрагмент таблицы локаций

Код: plaintext

1.
2.
3.
4.
5.
6.
7.

"1038267904","1038268159","TW","TAIWAN","T'AI-PEI","TAIPEI","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038268160","1038269183","TW","TAIWAN","-","-","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038269184","1038269439","TW","TAIWAN","T'AI-PEI","TAIPEI","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038269440","1038271999","TW","TAIWAN","-","-","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038272000","1038272767","TW","TAIWAN","T'AI-PEI","TAIPEI","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038272768","1038279167","TW","TAIWAN","-","-","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038279168","1038279423","TW","TAIWAN","T'AI-PEI","TAIPEI","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"
"1038279424","1038291199","TW","TAIWAN","-","-","25.017","121.45","CHTD CHUNGHWA TELECOM CO. LTD","HINET.NET"

Использование в БД - как-то некрасиво. Индексы дают логарифмическое время поиска и кроме того неэффективно работают с интервалами.

Я ищу время поиска близкое к константе и реализацию - в виде C++ библиотеки.

Делитесь мыслями. Я приветствую мозговой штурм.

...

Рейтинг:

0 / 0

06.08.2010, 19:14

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780102

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

maytonЯ ищу время поиска близкое к константеувы, при таких требованиях на ум приходит только libastral...

...

Рейтинг:

0 / 0

06.08.2010, 19:16

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780111

k0rvin

Участник

Сообщения: 527

Рейтинг: 0 / 0

гм... использовать ипы в качестве индексов массива? правда массив получается весьма большой.

у хеш-таблиц какое время доступа?

...

Рейтинг:

0 / 0

06.08.2010, 19:20

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780117

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

k0rvinгм... использовать ипы в качестве индексов массива? правда массив получается весьма большой.

у хеш-таблиц какое время доступа?
При отсутствии промахов - константа. Теория говорит, что правильно выбранное соотношение ключей/элементов гарантирует попадание практически в 99.9%.

...

Рейтинг:

0 / 0

06.08.2010, 19:26

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780119

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

tanglirmaytonЯ ищу время поиска близкое к константеувы, при таких требованиях на ум приходит только libastral...
Спасибо, я там уже был.

...

Рейтинг:

0 / 0

06.08.2010, 19:27

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780204

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

mayton, зачем текстовый файл, если с geoip прилагается библиотека для работы с бинарным файлом?
она уделает все, что бы вы там ни придумали. за исключением специальных вырожденных случаев, типа определения страны по смещению в большом промаппленом в память файле.
судя по полям у вас какая-то комбинированная база. вроде такую maxmind не раздает, а раздает несколько разных.

...

Рейтинг:

0 / 0

06.08.2010, 20:53

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780213

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

кстати, и с базой не так все страшно,как вы думаете
все там вполне эффективно, при некоторых ухищрениях
http://sql.ru/forum/actualthread.aspx?tid=772393

...

Рейтинг:

0 / 0

06.08.2010, 21:02

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780215

eNose

Участник
[не активирован]
[не одобрен]

Сообщения: 196 663

Рейтинг: 0 / 0

mayton,

БерклиДБ.
в чистом виде: хэш-значение.

...

Рейтинг:

0 / 0

06.08.2010, 21:05

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780217

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

mayton, кстати если вы сможете собрать под win msvc эту библиотеку собрать нормально - расскажите как и чем.
там в maxmind настолько юникс-ориентированные программисты, что у меня ничего не получилось. хотя я и не практикующий программист, чтобы глубоко покопаться.

...

Рейтинг:

0 / 0

06.08.2010, 21:06

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780221

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Моя мысль - в другом направлении. Как оптимально искать интервалы (отрезки) в диапазоне DWORD ? GeoIP - всего-лишь практическое применение. Я пока не собираюсь устраивать бенчмарки я-vs-maxmind. Интерес - в поиске подходящего метода индексирования.

...

Рейтинг:

0 / 0

06.08.2010, 21:10

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780225

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

netwindкстати, и с базой не так все страшно,как вы думаете
все там вполне эффективно, при некоторых ухищрениях
http://sql.ru/forum/actualthread.aspx?tid=772393
Я понял направление. Вы думаете что RDBMS оптимально исполнит это?

?tid=772393EXPLAIN SELECT * FROM GeoIP WHERE startIpNum <=1834451198 AND endIpNum >=1834451198

Я к сожалению не умею интерпретировать планы MySQL, но если просветите, что делает ядро исполняющей машины для такого курсора - буду рад.

...

Рейтинг:

0 / 0

06.08.2010, 21:15

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780231

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

eNosemayton,

БерклиДБ.
в чистом виде: хэш-значение.
(отхлёбывая пиво)

Я тоже думал о Бекли. Это всего-лишь исполняющая машина которая юзает алгоритмы поиска Hash и BTree. Но эффективность решения в базе Беркли будет СИЛЬНО зависеть от того в КАКОМ ВИДЕ мы подадим на вход значения пары IP_FROM - IP_TO.

Есть конечно тривиальное решение. Все четыре миллиарда IP номеров забиваем ключами в хеш-таблицу. Но это оверхедно по памяти и глуповато. Мы не учитывает кусочно-линейный характер данных.

Кроме того, как быть с IPv6 в подобном примере. Я, как видите, смотрю в будущее...

...

Рейтинг:

0 / 0

06.08.2010, 21:21

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780234

eNose

Участник
[не активирован]
[не одобрен]

Сообщения: 196 663

Рейтинг: 0 / 0

maytonEXPLAIN SELECT * FROM GeoIP WHERE startIpNum <=1834451198 AND endIpNum >=1834451198
в оракле:
INDEX (UNIQUE SCAN)--PK_1 (UNIQUE)

...

Рейтинг:

0 / 0

06.08.2010, 21:24

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780235

eNose

Участник
[не активирован]
[не одобрен]

Сообщения: 196 663

Рейтинг: 0 / 0

да, забыл. coast 1

...

Рейтинг:

0 / 0

06.08.2010, 21:25

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780236

eNose

Участник
[не активирован]
[не одобрен]

Сообщения: 196 663

Рейтинг: 0 / 0

то есть если оптимизатор написан нормально, то он это преобразует в единственное условие "=".

...

Рейтинг:

0 / 0

06.08.2010, 21:26

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780243

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

mayton, рассуждать об общих случаях совсем неинтересно. Интересные оптимизации появляются, когда известно что-то еще о данных. Например, округление. Без существенного ухудшения точности, можно эту базу "округлить", обозначив в одной байте целых 256 ip адресов и код страны от 0 до 255.
получится файл на 16 мб. Проецировать его в память и читать байт как массив. Вероятно, это самый быстрый прикладной способ определения страны по таким базам.

Из того, что мне удалось узнать о бинарном формате maxmind, они называют его дерево остатков - radix tree. Они хранят подобным образом не только страну, но и кучу информации, причем двоичным редактором там не просматривается текст, а значит используется какая-то упаковка префиксов.

Я cчитаю, что использование субд тут вполне допустимо.
В том примере mysql использует сбалансированное бинарное дерево (да как и все субд).
там план mysql плохой и неоптимистичный, а вот по фактическому счетчику элементарных операций (show session status like 'handler%';) он очень хорош оказывается, потому что limit 1. На счетчике лишь две операции позиционирования по индексу. А по логике должна быть одна. Думаю, это там в моем инструметарии dbforge studio ошибка. Там есть тонкие моменты и dbforge могли ошибиться.

...

Рейтинг:

0 / 0

06.08.2010, 21:33

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780248

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Да. Я думал об этом. Надо поисследовать как диапазоны адресов распределены по сегментам. Всегда-ли он отображается 1:1. Если это так - то алгоритм действительно сильно упощается.

Эххх... придётся всё-таки грузануть это в базу.

Ладно. Всем - до завтра.

...

Рейтинг:

0 / 0

06.08.2010, 21:39

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780261

k0rvin

Участник

Сообщения: 527

Рейтинг: 0 / 0

maytonЕсть конечно тривиальное решение. Все четыре миллиарда IP номеров забиваем ключами в хеш-таблицу. Но это оверхедно по памяти и глуповато. Мы не учитывает кусочно-линейный характер данных.

Кроме того, как быть с IPv6 в подобном примере. Я, как видите, смотрю в будущее...

зачем все? в том-то и отличие хеш-таблицы от вектора, что мы забиваем только нужные, но как Вы же написали, гарантии константного доступа нет, в отличие от вектора

...

Рейтинг:

0 / 0

06.08.2010, 21:56

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780262

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

mayton, не понял о чем вы, но диапазоны там не пересекаются - инфа 100%.
radix tree создано для экономии места,поэтому если вы программируете на C++ какой-то софт не привязанный к субд, объем бинарной базы может оказаться настолько маленьким, что она вся или самые горячие ее участки (а участки такие обязательно будут) поместится в память. Уж точно будет меньше по сравнению с субд.
Как я уже говорил, лучше всего будет использовать их библиотеку.

...

Рейтинг:

0 / 0

06.08.2010, 21:57

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780430

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Диапазоны вроде-бы не пересекаются. Но сегменты сеток не такие ровные. Или мне по крайней мере в некоторых Locations не удаётся выделить диапазон хостов так гладко, как пишут в умных книжках по проектированию сетей.

...

Рейтинг:

0 / 0

07.08.2010, 08:38

| Ответить | Цитировать | Написать

Пятничная оптимизация

#36780432

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

mayton, они объединили рядом стоящие "ровные" сети. с точки зрения из api ровные сети совсем не нужны .
надеюсь, вы там не программный маршрутизатор IP собрались писать :)

...

Рейтинг:

0 / 0

07.08.2010, 08:46

| Ответить | Цитировать | Написать

21 сообщений из 21, страница 1 из 1

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Пятничная оптимизация

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=36780234&tid=1343534]:	0ms
get settings:	8ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	176ms
get topic data:	9ms
get forum data:	2ms
get page messages:	56ms
get tp. blocked users:	1ms
others:	214ms

total:	488ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы