|
|
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Попалась задачка. Есть ее решение. Но не могу понять хоть убей, как ее решает автор. Пожалуйста помогите. Растолкуйте решение. http://www.lotos-khv.narod.ru/dist/lek6.htm ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 18:34 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Ее автор - хабаровская "школа программистов". Она и должна растолковывать и пояснять потоки своего сознания. При чём здесь sql.ru - непонятно. P.S. Просто мнение.... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 19:11 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Высосали проблему из пальца. При известной нижней границе "наименьшее отсутствующее" или "ничего" или "нижняя граница". Соответственно, требуется проверить, есть ли в выборке число, равное нижней границе. Один проход. Даже если переформулировать идиотскую формулировку - всё равно один проход. Без всяких сортировок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:08 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovПри известной нижней границе "наименьшее отсутствующее" или "ничего" или "нижняя граница".Это почему же? Вполне может быть, что "нижняя граница" занята, а "наименьшее отсутствующее" где-то больше. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:15 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
miksoftВполне может быть, что "нижняя граница" занята, а "наименьшее отсутствующее" где-то больше.Да, в этой формулировке больше похоже на правду, но это всё равно один проход. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:25 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovДа, в этой формулировке больше похоже на правду, но это всё равно один проход.Два. Первый на поиск наименьшего, второй - на поиск дырки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:27 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovmiksoftВполне может быть, что "нижняя граница" занята, а "наименьшее отсутствующее" где-то больше.Да, в этой формулировке больше похоже на правду, но это всё равно один проход.Числа не отсортированы. Как? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:27 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
miksoftЧисла не отсортированы. Как?Как искать наименьшее в один проход? Сравнивать очередного кандидата с уже найденным претендентом. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:30 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Задача ниочем авторИз числового интервала от единицы до миллиарда выбираются случайным образом без повторений миллион чисел и записываются в файл. Необходимо за приемлемое время выяснить, какое наименьшее число отсутствует в файле. Использовать массивы или иные структуры данных, их заменяющие, запрещается. Там в решении предлагается сначала отсортировать, затем искать дырки между соседними. Алгоритмы сортировки в куче источников описаны. Только наполнение 0,1% (миллион из миллиарда), т.е. вероятность 1000 к 1 что нет первого, поэтому можно тупо перебирать 1,2,3,4,5, сканировать весь файл и с большой вероятностью получить отсутствующее за несколько проходов. Скорость чтения со среднего диска 70-80 Мб/сек, т.е. 4Мб (миллион int`ов) прочитаются 20 раз в секунду . Можно предположить случай что последовательность 1-999`999 непрерывна, затем 1`000`001, тогда потребуется 13-14 часов, но это из области невероятного, т.к. генератор случайных чисел не дает такие последовательности. Даже если так и изначально прочитать в память (в кэш проца все войдет), то 4000-8000 сканов в секунду или 3-5 минут в худшем случае, задача параллелится и на 4 ядрах можно за минуту уложиться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:31 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovmiksoftЧисла не отсортированы. Как?Как искать наименьшее в один проход? Сравнивать очередного кандидата с уже найденным претендентом.Вы совсем не вчитались в задачу. Ищется не наименьшее присутствующее, а наименьшее отсутствующее. В файле вполне могут быть числа 1,2,3, ... 1000, 1002, ... (только в произвольном порядке). А 1001 нужно найти. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:33 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Dima TТам в решении предлагается сначала отсортироватьСортировка нужна для поиска медианы. Для поиска граничных значений сортировка избыточна. После того, как граничное значение известно - поиск дырки становится тривиальным. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:36 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovПосле того, как граничное значение известно - поиск дырки становится тривиальным.Погорячился. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:38 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Dima T, Решение "в лоб" можно ускорить тем, что переписать из исходного в промежуточный файл числа, которые меньше или равны миллиону. При равномерном распределении чисел это даст сокращение объема файла в тысячу раз. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:40 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
miksoftDima T, Решение "в лоб" можно ускорить тем, что переписать из исходного в промежуточный файл числа, которые меньше или равны миллиону. При равномерном распределении чисел это даст сокращение объема файла в тысячу раз. можно 1000 если будет 1000, то следующую 1000 и т.д. пока меньше 1000 за раз не считается. Случайное распределение заданное в ТЗ тоже надо использовать. 1000 условно, точнее его можно рассчитать из скорости записи и чтения файла и параметра "приемлемое время" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 20:47 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Миллион четырёхбайтовых чисел - меньше четырёх мегабайт. Даже в рамках идиотских ограничений сортировка миллиона чисел не может дать миллиарды файловых операций. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 21:59 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
maxtravПопалась задачка. Есть ее решение. Но не могу понять хоть убей, как ее решает автор. Пожалуйста помогите. Растолкуйте решение. http://www.lotos-khv.narod.ru/dist/lek6.htm Больше всего улыбнуло желание автора статьи доказать свою правоту, а потому "неудачные" решения расчитываются исходя их миллиарда элементов, а удачное - из миллиона. Круто конечно ))) откуда взято число миллиард?! Да от балды... Перефразирую. В файле записаны 1'000'000 чисел из интервала 1 - 1'000'001 в случайном порядке. Найти пропущенное число. Как уже сказали, и в том и в другом случае будет как минимум одно число пропущено, нам осталось его найти. Вот теперь оцениваем задачу правильно. :) В итоге представленное решение (точнее идея) неплохое. Хотя я предложу немного лучше :) Я по подобному принципу (на основании, кстати, метода быстрой сортировки) сортировал все числа у себя в программках (когда учился или участвовал в олимпиадах). Сортировка разумеется была побитная (то есть меняем местами числа, если число с соответствующим битом равным 1 стоит левее числа с тем же битом равным нулю. Таким образом рекурсия уходит максимум на n уровней, где n - число бит в числе) Отвлёкся :) Итак... поясняю решение автора: У нас есть миллион чисел, которыми можно заполнить без пробелов только миллион первых позиций. Потому, если есть пробел, то он находится в позиции от 1 до 1000000. Этот интервал мы и проверяем. Берём число 500000, начинаем читать файл и сравнивать каждое число с данным. Если прочитанное из файла меньше - прибавляем 1 к счётчику. Если в итоге счётчик равен 500000 - значит первые пол миллиона позиций заполнены без пробелов и нас интересует вторая половина миллиона. Итак, когда мы узнали в какой половине миллиона интересующий нас пропуск, повторяем то же действие для соответствующей половины миллиона, и делим ещё на 2 интервала... и так пока у нас не останется интервал в 1... именно он и будет нашим искомым пропуском. Это всё нормальными словами и без лишних действий, которые он описал... Не буду сильно комментировать его решение... из недостатков отмечу - он говорит о миллиардах операций, зато его программа сама вынуждена провести чтение 20'000'000 чисел по 4 байта (при чтении с диска в 512 байт, то есть по одному сектору, это будет около 16000 операций чтения). Замечу что методу быстрой сортировки потребуется приблизительно столько же... просто у него ещё будут затраты на запись чисел в их новые позиции. На практике такая задача решилась бы в разы легче (мной по крайней мере). Я бы завёл файл на миллион байт и заполнил бы его нулями. А потом читая число из первого файла, выставлял бы байт во втором файле с соответствующим смещением в единицу (можно и с битами работать конечно, но тут вопрос простоты реализации. С битами не удобно работать). В итоге, задача свелась бы к чтению и записи миллиона чисел. После записи второго файла читаем его побайтово и смещении байта со значением 0 даёт нам искомое число (пропущенную позицию). Кстати... на практике не бывает ограничения "не использовать массивы". :) А учитывая метод решения, если заюзать массив как напрерывный набор двоичных флагов, то и памяти на такой массив потребуется 8МБ. Большинству даже вэб приложений такое количество памяти спокойно выделяется (им выделяется даже в разы больше). Потому правильно тут сказали, при разумных ограничениях задача решаема в 2 прохода... 1 - пишем массив, второй - ищем пропуск. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 22:52 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
что то мне кажется автор там слишком мудрит так же непонятно ограничение на массивы, сам он вполне их использует видимо имеется ввиду что весь файл напрямую в массив загонять нельзя если так, то достаточно выполнить подсчёт пройдясь по всему файлу Код: pascal 1. 2. 3. 4. 5. 6. 7. 8. 9. и уже дальше анализировать в этом русле решить задачу наверное будет легче ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.05.2014, 23:18 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Ограничение на "неиспользование" массивов выглядит весьма странно. Особенно на фоне сортировок. Ну... на малых выборки объёмах можно было задействовать массив с биткартой. Идея - похожа на поиск неуникального целого числа в потоке целых. А на больших объёмах - merge-сортировкой и 1 проходом по результату. Или - гибридный вариант. Биткарта (по оценке) превышает memory двукратно - бъём диапазон на два поддиапазона. И в два прохода находим дырку в "биткарте". Всяко лучше чем сортировка. Кстати совершенно напрасно автор ограничился типом integer... :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 00:46 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
Тьфу ты, спать надо по ночам простая задача, там действительно не надо массивов, щас время появится накатаю решение ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 06:03 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
никакой сортировки там не надо просто пройтись по файлу с подсчётом Log2(MaxN) раз Код: pascal 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 06:49 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
maytonЕе автор - хабаровская "школа программистов". Она и должна растолковывать и пояснять потоки своего сознания. При чём здесь sql.ru - непонятно. именно в кавычках, поддерживаю miksoftВы совсем не вчитались в задачу. Ужасная постановка задачи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 06:56 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
ПрограмёрБольше всего улыбнуло желание автора статьи доказать свою правоту, а потому "неудачные" решения расчитываются исходя их миллиарда элементов, а удачное - из миллиона. Круто конечно ))) откуда взято число миллиард?! Да от балды... Перефразирую. В файле записаны 1'000'000 чисел из интервала 1 - 1'000'001 в случайном порядке. Найти пропущенное число. Как уже сказали, и в том и в другом случае будет как минимум одно число пропущено, нам осталось его найти. такая постановка решается очень просто :), код примерно такой: Код: plaintext 1. 2. 3. 4. 5. 6. 7. если индексы не напутал, но смысл думаю понятен :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 07:11 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
гадкое решение ужасно поставленной задачиПоделим миллиардный интервал на два интервала по 500 миллионов. Где может находиться искомое число? Очевидно, в первом, так как 500-миллионный интервал миллионом чисел не заполнить. Теперь поделим первый 500-миллионный интервал на два и т. д. Рано или поздно заключение о том, что интервал, содержащий искомое число, будет первым, окажется несправедливым. Поэтому давайте для любой пары интервалов разработаем более универсальный метод. а где в постановке задачи написано что все числа должны быть подряд ????? ужасная постановка задачиИз числового интервала от единицы до миллиарда выбираются случайным образом без повторений миллион чисел и записываются в файл. Необходимо за приемлемое время выяснить, какое наименьшее число отсутствует в файле. Использовать массивы или иные структуры данных, их заменяющие, запрещается. а если они подряд, то можно найти мак и мин, и сделать через код приведённый мной выше. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 07:18 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
SashaMercury, для олимпиады задача вполне нормальная автора где в постановке задачи написано что все числа должны быть подряд ????? как раз написано обратное авторИз числового интервала от единицы до миллиарда выбираются случайным образом без повторений миллион чисел и записываются в файл авторНеобходимо за приемлемое время выяснить, какое наименьшее число отсутствует в файле. т.е. нет если в файле 1 - значит единица задача на бинарный поиск - сложность C(log(N)*N), где N - количество цифр в файле я правда в начальных условиях погорячился Код: pascal 1. 2. достаточно Код: pascal 1. 2. искомое число может быть в интервале [1..N+1] никаких сортировок тут делать не нужно ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 08:54 |
|
||
|
Выборка из миллиарда
|
|||
|---|---|---|---|
|
#18+
maxtrav, Код: vbnet 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. подобные задачи решаю поиском в строке здесь сложность --в длине строки(1000000 по 6 символов и 2 разделителя=8млн символов), несколько меньше с учетом длины числа количество чиселзначностьразделители91 цифра2902290032900042900005290000062 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.05.2014, 09:11 |
|
||
|
|

start [/forum/search_topic.php?author=Urolog&author_mode=last_posts&do_search=1]: |
0ms |
get settings: |
7ms |
get forum list: |
15ms |
get settings: |
6ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
41ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
40ms |
get tp. blocked users: |
1ms |
| others: | 429ms |
| total: | 564ms |

| 0 / 0 |
