Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Есть у меня тут задача, накидал вариант решения Если коротко, условие задачи выглядит примерно так:
В общем почитал статью А. Шарахова, исходники дельфийского словаря И получилась примерно такая концепция: - размер равен степени 2 минус 1 (минимальный размер 7) - бакет это некоторое виртуальное место, куда можно положить элемент, количество бакетов равно размеру таблицы - индекс это позиция, в которой хранится элемент - бакет может быть меньше индекса, это значит, что было несколько элементов с одним бакетом - если бакет сильно больше индекса, значит было переполнение в конце - при удалении возвращается True если есть дубликат Я зафигачил тестовый проект, где есть проверки: элементарные в случае Release и доскональные в случае Debug Смущает производительность. Даже 100k элементов без дубликатов считаются 1,5 секунды в Release . С дубликатами - уже 6 секунд. В общем есть ощущение, что я что-то делаю не так и производительность должна быть на порядок выше. Смотрите аттач Немного кода под катом: Код: pascal 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174. 175. 176. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.03.2021, 23:59 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOU, Там к статье исходники прилагаются, взял бы и не парился. P.S. Как будет время планирую еще ускорить для очень больших таблиц, но это не твой случай. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 02:23 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Aleksandr Sharahov, Во-первых, у тебя там юзается другая организация данных Во-вторых, не рассчитана на дубликаты В-третьих, у тебя там используются индексы как признак пустой ячейки. У меня могут быть «спец» указатели, совпадающие с индексом ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 02:47 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOU Aleksandr Sharahov, Во-первых, у тебя там юзается другая организация данных Во-вторых, не рассчитана на дубликаты В-третьих, у тебя там используются индексы как признак пустой ячейки. У меня могут быть «спец» указатели, совпадающие с индексом 1. Ну да, другая, более быстрая, тебе же это надо? 2. Рассчитана, но не по-твоему. А ты правда не знаешь, как сделать их различимыми или как хранить цепочку дубликатоа? 3. И как одно помешает другому? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 09:22 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Aleksandr Sharahov, Посмотри код Скажи, что там не так Потому что вроде бы всё так Первый приоритет - это потребление памяти Производительность - по остаточному принципу Но 1/4 свободных ячеек - норм ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 11:23 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
В несколько раз ускорил, когда сделал Код: pascal 1. 2. Но всё равно мне кажется не то ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 12:07 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Сделал размер степени двойки 100k в Release считается за 400мс Вроде неплохо Но стоит добавить хотя бы по одному дубликату - проседает почти до 2 сек ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 12:52 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Код: pascal 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Код: pascal 1. 2. 3. 4. 5. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 12:56 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Kazantsev Alexey, Да, ты прав Небо и земля Может что-то попроще взять? Типа седжвика, например Вот неплохой вариант (от hash_table2.zip): Код: pascal 1. 2. 3. 4. 5. 6. 7. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 13:17 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOU, Попроще - это для x86 без хеша вообще, а для x64 брать младшие 4 байта. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 13:47 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Что-то я совсем не догоняю Почему это работает супер быстро: Код: pascal 1. 2. 3. 4. А вот это вот супер медленно: Код: pascal 1. 2. 3. 4. По идее наоборот. Если большинство указателей выровнены на 16 байт, то смещение наоборот должно дать хорошее распределение ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2021, 14:46 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOUВозможны дубликаты (не часто), функция удаления должна возвращать, остался ли дубликат реализация из дельфи очень плохо ложится на "условие возможности дуликатов" и вообще на "исключающий поиск" т.е. "спрашивать то чего нет" это очень тормознуто это возникает из-за того что для разруливания коллизий используется алгоритм "проверять до пустой", а обычно все значения кучкуются (теоретически вероятность встретить значение типа деградирует как (Size/Capacity)^i, но поди найди идеальную хэш-функцию), т.е. проверка наличия обычно деградирует на поиск совпадающего кеша по большому куску таблицы. лучше поискать реализации с устранением коллизий с помощью бинарных деревьев (есть реализации на плоском массиве, ищи), либо искать очень хорошую хэш-функцию и разряжать массив (Size/Capacity -> 0), что бы дырки были чаще ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 06:47 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOU, В стандартной либе дельфи нет хеш-таблиц? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 06:54 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOU Что-то я совсем не догоняю Почему это работает супер быстро: Код: pascal 1. 2. 3. 4. А вот это вот супер медленно: Код: pascal 1. 2. 3. 4. По идее наоборот. Если большинство указателей выровнены на 16 байт, то смещение наоборот должно дать хорошее распределение ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 07:04 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
kealon(Ruslan), Действительно в Delphi поиск до пустого Я же ищу только в рамках бакета Насчёт кучковаться. Наоборот скученность должна давать много коллизий Соответственно быть медленной ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 07:56 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
SOFT FOR YOU kealon(Ruslan), Действительно в Delphi поиск до пустого Я же ищу только в рамках бакета Насчёт кучковаться. Наоборот скученность должна давать много коллизий Соответственно быть медленной ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 09:16 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
kealon(Ruslan), Робин Гуд очень хорошо помогает в ситуации, когда в таблице формируются большие кластеры. Заполненность таблицы можно довести до 0.99 (если правильно помню, в расте хеш-таблицы с робин гудом, и там 0.9 по дефолту). Когда я с ним экспериментировал на обычных данных, то не впечатлился (скорость вставки несколько снижается, по сравнению с линейной схемой), однако, впоследствии, встретил ситуацию, при которой таблица без робин гуда адово тормозила. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 11:33 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Kazantsev Alexey, Тормозит на 20-30% потому, что "скакать надо" по массиву в произвольном порядке реализации с деревьми тоже такой-же эффект имеют на современных процах, но они не дают обвалиться производительности на плохих случаях - за всё надо платить. В той же jave хвалятся, что реализовали устранение коллизий через бинарное дерево, но факт выше как-то умалчивают, и про перерасход памяти раза в 3 тоже молчат. Можно бы было как вариант поддерживать сортировку по (Hash & C) - это бы позволило не гулять по всему куску при удалении и поиске, но он уже таблицу хешей срезал, что разумно. В его случае, что бы побороться за производительность придётся пустить съэкономленную память на "слабое заполнение". "Открытая адресация" других вариантов не оставляет. Ну и хорошо подбирать хэш-функцию под ситуацию. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 12:22 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
kealon(Ruslan) Тормозит на 20-30% Не совсем понял, что тормозит? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 14:22 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Kazantsev Alexey kealon(Ruslan) Тормозит на 20-30% Не совсем понял, что тормозит? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 15:27 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
kealon(Ruslan), В смысле, робингуд тормозит? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 15:30 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
Kazantsev Alexey, да, так же как и 2-choice hashing чем тупее код, тем он в идеальном варианте быстрее (при прочих равных естественно: хэш-функция, ёмкость) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 15:40 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
kealon(Ruslan), Ты чего-то путаешь. У робингуда на вставке снижение очень незначительное, ни о каких десятках процентов нет и речи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 15:52 |
|
||
|
Linear probing хеш-таблица с дубликатами (просьба подключиться А. Шарахова)
|
|||
|---|---|---|---|
|
#18+
kealon(Ruslan), И ещё на счёт: kealon(Ruslan) "спрашивать то чего нет" это очень тормознуто Берём таблицу с робингудом на 300K элементов (указателей). Примем условие, что только 30% ключей являются уникальными. Усложним задачу, установив заполнение таблицы: 0.99 Код: plaintext 1. 2. 3. 4. Как видим, поиск существующих и не существующих ключей выполняется за одинаковое время. Теперь посмотрим как выглядит эта таблица: Код: plaintext 1. 2. 3. 4. 5. 6. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2021, 16:23 |
|
||
|
|

start [/forum/topic.php?fid=58&msg=40057713&tid=2037343]: |
0ms |
get settings: |
10ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
187ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
73ms |
get tp. blocked users: |
2ms |
| others: | 14ms |
| total: | 323ms |

| 0 / 0 |
