|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
Я хочу парсить HTML страницы. Сегодня делаю так: Код: c# 1. 2. 3. 4. 5. 6. 7.
Когда страниц 1-10 все нормально, когда 100-500 приходиться долго ждать. Есть ли какой нибудь более быстрый способ? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 11:23 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
Приведенные цифры ничего не доказывают. Ищи проблему в алгоритме парсинга строки html документа, а не в самой строке. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 11:27 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
то есть в принципе можно использовать StreamReader? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 11:34 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7то есть в принципе можно использовать StreamReader? Кто-то скручивает руки и запрещает это делать? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 11:40 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7то есть в принципе можно использовать StreamReader?Есть другая альтернатива? Совет: не пользуйтесь регулярками, скорость возрастет. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 11:44 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
WPFjenya7то есть в принципе можно использовать StreamReader?Есть другая альтернатива? Совет: не пользуйтесь регулярками, скорость возрастет. А как сделать сплит по стрингу без регулярки? Я делаю так: Код: c# 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 11:53 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
спасибо, буду пробовать. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:08 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7спасибо, буду пробовать.Если html валидный, попробуй распарсить его в xml ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:10 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7, .. кстати, в некоторых случаях быстрее получается сначала использовать метод ReadLine в StreamReader-e и парсить отдельные строки, нежели всю страницу целиком ... ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:17 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7WPFпропущено... Есть другая альтернатива? Совет: не пользуйтесь регулярками, скорость возрастет. А как сделать сплит по стрингу без регулярки? Я делаю так: Код: c# 1.
Применить RegexOptions.Compiled ? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:28 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
Html Agility Pack в помощь. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:39 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
Алексей К, если не путаю, Regex кэшируется. авторНачиная с платформы .NET Framework 2.0 кэшируются только регулярные выражения, используемые в вызовах статических методов. По умолчанию обработчик регулярных выражений кэширует 15 последних использованных статических регулярных выражений. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:40 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
Я думал про Html Agility Pack. Вопрос так ли он ускоряет процесс парсинга? Узким местом тут конечно является алгоритм, оптимальные сплиты, вытаскивание сабстрингов и.т.д. Сабстринг я кстати вытаскиваю так Код: c# 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
А сплит я сделал так Код: c# 1. 2.
... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 12:45 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7Я думал про Html Agility Pack. Вопрос так ли он ускоряет процесс парсинга? Возьми и проверь. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2013, 13:04 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
может дело то не в парсинге, а у кого то инет хреновый, или загружаемые странички расположены на тормозных сайтах. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 09:16 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
парсю регэкспом. по ~10000 страниц зараз. скоростm парсинга строки вообще значения не имеет т.к. частоту чтения страниц специально понижаю, иначе некоторые банят по ипу. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 10:10 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
sldможет дело то не в парсинге, а у кого то инет хреновый, или загружаемые странички расположены на тормозных сайтах. ну не знаю, не знаю....страницы загружаються мгновенно. ЫLL HEADпарсю регэкспом. по ~10000 страниц зараз. скоростm парсинга строки вообще значения не имеет т.к. частоту чтения страниц специально понижаю, иначе некоторые банят по ипу. можете привести пример? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 09:04 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
пример чего вашего языка не знаю (1) алгоритмтм изложен (2) пишите как хотите ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 09:11 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
я уже несколько дней сижу и упираюсь в именно в проблему парсинга. 1. Сначала разбиваю страницу на секции. В каждой секции данные пользователя. Код: c# 1. 2. 3. 4. 5. 6.
2. Потом нужно парсить каждую секцию и вытащить данные. Код: c# 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102.
и так 500 страниц. сидел над каждой строчкой, не нашел способа оптимизировать. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 09:27 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
наставь временных меток и понятно будет в каком месте тормозит ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 12:22 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
jenya7Я думал про Html Agility Pack. Вопрос так ли он ускоряет процесс парсинга? Точных замеров не делал, но на глаз ускоряет, и удобно. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 13:02 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
временные метки это интересно, надо попробовать. насчет Html Agility Pack, насколько я понял, дает удобство и компактность кода, скорость парсинга не увеличивается. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 13:12 |
|
Парсинг больших стрингов.
|
|||
---|---|---|---|
#18+
МСУ 14223565 в любом парсинге мы придем к низкоуровневым операциям: Contains(), Split(), InexOf(), Substring(),StartsWith(),EndsWith() все остальное это красивые обертки - нужные, удобные, но не прибавляющие скорости. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2013, 14:01 |
|
|
start [/forum/topic.php?fid=20&fpage=166&tid=1404770]: |
0ms |
get settings: |
9ms |
get forum list: |
11ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
79ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
94ms |
get tp. blocked users: |
2ms |
others: | 11ms |
total: | 227ms |
0 / 0 |