|
|
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Камрады, поделитесь вашим мнением по сабжу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 16:16 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
2 Random_Goodman: Можно пример? Типа, вот есть такой-то HTML-код, и хочется на выходе получить то-то. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 17:07 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Вот например: http://vz.ru/society/2008/8/26/200676.html требуется текст от "Праздник «выстраданного признания» Абхазия и Южная Осетия празднуют признание своего..." до "Мы на века с Россией". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 17:13 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
найте где наибольшее расстояние между <td> и </td> среди тех, что не имеют вложенных <td> ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 17:56 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
А если таблицы нет и все в div? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 18:47 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Будем рассматривать пессимистичный вариант, когда весь текст страницы создан из JScript? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 19:22 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Как вам мой 0-вариант? Выделяем тексты из всех div-тегов, с учетом их вложенности. Для простоты считаем что мы заранее удалили из html-кода все не-div теги. То же самое можно проделать и для <td> тегов (т.е. для тегов где обычно помещают куски текста). Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 19:47 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. Образчик работы: Пусто <div id="blogger-code-text-wrapper" class="ta">ЭТО САМЫЙ ПЕРВЫЙ DIV БЕЗ ВЛОЖЕНИЙ</div> Пусто <div class="text"> <p><B>Две кавказские республики ликуют: Дмитрий Медведев решил признать суверенитет Абхазии и Южной Осетии. Как рассказали газете ВЗГЛЯД жители Сухуми и Цхинвали, в данный момент там начался настоящий праздник: люди едут по городу с осетинскими, абхазскими и российскими флагами, стреляют в воздух, накрывают столы и раздают шампанское. И в Абхазии, и в Южной Осетии не сомневаются, что вслед за Россией их признает весь мир.</B> <p>В понедельник депутаты верхней и нижней палат российского парламента, досрочно вернувшиеся с каникул, единодушно <a href= http://www.vz.ru/politics/2008/8/25/200317.html target=_blank>одобрили</a> обращения к президенту Дмитрию Медведеву с предложением признать суверенитет Сухуми и Цхинвали. <p> <p><p><cite>«Отмечать праздник в Абхазии начали еще вчера. Но так, очень тихо, чтобы нечаянно не сглазить. Сегодня уже ничего не страшно»</cite> <div id="6">Сенсация дня: обрушение коровника в Нью-Васюках!</div> ПИПЕЦ <div id="7">Шубы на любой вкус: лучшие сорта рыбьего и воробьиного мехов!</div> В специальном <a href= http://www.vz.ru/politics/2008/8/26/200633.html target=_blank>телеобращении</a> во вторник Дмитрий Медведев заявил, что отныне Россия официально признает независимость Абхазии и Южной Осетии. Глава государства уже подписал соответствующие указы и призвал другие страны последовать примеру России. При этом Дмитрий Медведев подчеркнул, что неоднократные попытки Грузии решить проблему своей территориальной целостности силой фактически не оставили России выбора. <p> <p>«После того, что произошло в Южной Осетии, народы Южной Осетии и Абхазии имеют право самостоятельно решать свою судьбу. Учитывая их свободное волеизъявление, я подписал указы о признании независимости Южной Осетии и Абхазии», – подчеркнул он. <p> <p>«Это нелегкое решение, но это единственный способ сохранить жизни людей», – сказал Медведев. <p> <p>Долгожданное решение главы российского государства в Абхазии и Южной Осетии превратилось в праздник. <p> <p>«Мы выстрадали это признание! Выстрадали! Столько лет! 15 лет! – не скрывая своих эмоций, рассказывал газете ВЗГЛЯД по телефону о своих ощущениях житель Сухуми, 28-летний Гурам. – Слышишь, как стреляют?» <p> <p>На том конце провода слышен звон бокалов, стрельба, восторги и поздравления. <p> <p> <div id="related" style="width:180px;"> <h3 class="nomargin red" style="width:100%">Третий див</h3> <div class="hot2" style="width:100%">---- Это <div class="hoti"> <table cellspacing="0" cellpadding="0" border="0"><tr><td> <a href="/r/"><img src="http://img.vz.ru/upimg/ne_/ne_200687.jpg"></a> <a href="/r/" >Грузия готова разорвать дипотношения с Россией</a> </td></tr></table> -- ЭТО ПЯТЫЙ ДИВ --</div> четвертый див ----</div> ---- КОНЕЦ ТРЕТЬЕГО ДИВА ----</div> ---- КОНЕЦ ВТОРОГО ДИВА ----</div> <!> >>> ================ RESTART ===================================== >>> ЭТО САМЫЙ ПЕРВЫЙ DIV БЕЗ ВЛОЖЕНИЙ --------------------------------------------------------- Две кавказские республики ликуют: Дмитрий Медведев решил признать суверенитет Абхазии и Южной Осетии. Как рассказали газете ВЗГЛЯД жители Сухуми и Цхинвали, в данный момент там начался настоящий праздник: люди едут по городу с осетинскими, абхазскими и российскими флагами, стреляют в воздух, накрывают столы и раздают шампанское. И в Абхазии, и в Южной Осетии не сомневаются, что вслед за Россией их признает весь мир. В понедельник депутаты верхней и нижней палат российского парламента, досрочно вернувшиеся с каникул, единодушно одобрили обращения к президенту Дмитрию Медведеву с предложением признать суверенитет Сухуми и Цхинвали. «Отмечать праздник в Абхазии начали еще вчера. Но так, очень тихо, чтобы нечаянно не сглазить. Сегодня уже ничего не страшно» ПИПЕЦ В специальном телеобращении во вторник Дмитрий Медведев заявил, что отныне Россия официально признает независимость Абхазии и Южной Осетии. Глава государства уже подписал соответствующие указы и призвал другие страны последовать примеру России. При этом Дмитрий Медведев подчеркнул, что неоднократные попытки Грузии решить проблему своей территориальной целостности силой фактически не оставили России выбора. «После того, что произошло в Южной Осетии, народы Южной Осетии и Абхазии имеют право самостоятельно решать свою судьбу. Учитывая их свободное волеизъявление, я подписал указы о признании независимости Южной Осетии и Абхазии», – подчеркнул он. «Это нелегкое решение, но это единственный способ сохранить жизни людей», – сказал Медведев. Долгожданное решение главы российского государства в Абхазии и Южной Осетии превратилось в праздник. «Мы выстрадали это признание! Выстрадали! Столько лет! 15 лет! – не скрывая своих эмоций, рассказывал газете ВЗГЛЯД по телефону о своих ощущениях житель Сухуми, 28-летний Гурам. – Слышишь, как стреляют?» На том конце провода слышен звон бокалов, стрельба, восторги и поздравления. ---- КОНЕЦ ВТОРОГО ДИВА ---- --------------------------------------------------------- Сенсация дня: обрушение коровника в Нью-Васюках! --------------------------------------------------------- Шубы на любой вкус: лучшие сорта рыбьего и воробьиного мехов! --------------------------------------------------------- Третий див ---- КОНЕЦ ТРЕТЬЕГО ДИВА ---- --------------------------------------------------------- ---- Это четвертый див ---- --------------------------------------------------------- Грузия готова разорвать дипотношения с Россией -- ЭТО ПЯТЫЙ ДИВ -- --------------------------------------------------------- >>> ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 23:36 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
maytonБудем рассматривать пессимистичный вариант, когда весь текст страницы создан из JScript? поржал подоброму! :) ну ты понял... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 23:38 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
maytonБудем рассматривать пессимистичный вариант, когда весь текст страницы создан из JScript? Гугл не понимает и нам не надо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 05:57 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Random_GoodmanА если таблицы нет и все в div? тогда нужно рассматривать вариант с div в любом случае, если в тексте содержатся таблицы, то уже работать не будет нужно искать начальную и конечную точку для каждого конкретного сайта по шаблону. ИМХО, лушче реализовать в виде шаблонов для сайтов, типа, кто-то настраивает для сайта шаблон, и программа потом по нему ищет текст. можно даже чтобы пользователь это делал - просто выделить мышью то что нужно, найти к html коде начало и конец выделенного, найти ближайшие контейнерные теги от начала и от конца, ну и от них проследить иерархию и куда-нибудь сохранить, а при последующей работой с этим сайтом использовать этот шаблон. Или ещё как вариант - искать всё так же самый большой контейнер без вложенных контейнеров более заданного размера и это принимать за основной текст, хотя, ИМХО, работать будет от случая к случаю ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 10:45 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
mayton Что-нибудь интересного раскопали про функциональные языки? (Читал тот эпический топик с Ксеноцефалом и сам заинтересовался) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 11:21 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
zloy den mayton Что-нибудь интересного раскопали про функциональные языки? (Читал тот эпический топик с Ксеноцефалом и сам заинтересовался) Увы мне... увы... Пашу как вол на ниве баз данных. Времени совсем нету. Пора завязывать с Ораклом. :) ЗЫ. Топ с Луговским действительно захватывающий. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 11:49 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
maytonЗЫ. Топ с Луговским действительно захватывающий. ссылочкой не кинетесь, если не в лом? не могу после отпуска в работу войти. автор - сорри за офтоп ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 12:01 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
egorych maytonЗЫ. Топ с Луговским действительно захватывающий. ссылочкой не кинетесь, если не в лом? не могу после отпуска в работу войти. автор - сорри за офтоп Кажется вот этот ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 12:11 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
Эх, взять бы небольшой проектик и написать его на лиспе:) Заодно бы научился и принял истинную веру ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 12:37 |
|
||
|
Алгоритм выбора наибольшего фрагмента текста из html страницы
|
|||
|---|---|---|---|
|
#18+
zloy denЭх, взять бы небольшой проектик и написать его на лиспе:) генератор постов Луговского. на Common Lisp. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.08.2008, 14:12 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=35507240&tid=1345068]: |
0ms |
get settings: |
6ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
68ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
1ms |
| others: | 237ms |
| total: | 383ms |

| 0 / 0 |
