
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
28.08.2010, 07:47:10
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
Как наиболее просто можно переварить HTML-страницу с сообщениями, на которую вы щас смотрите, в (например) такие простые массивы строк: Код: plaintext 1. 2. 3. 4. 5. При этом, у каждого сообщения внутри могут быть всякие гадские цвета, цитаты, шрифты , таблицы, списки и прочее барахлище. Было бы клёво видеть на выходе: Код: plaintext 1. 2. 3. 4. Спасибо. P.S. 1. Регекспы, awk... :( :( :( 2. Конвертировать HTML в XML (что не всегда можно сделать) и заюзать XPath. 3. Ещё? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
28.08.2010, 10:40:04
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
mriadus, вы действительно готовы изучать новый язык ради этой фигни? ну попробуйте perl и модуль web::scraper /topic/773396 со шрифтами придется повозиться, но их можно довольно легко выкинуть HTML::FormatText (наверное, я не пробовал) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
28.08.2010, 10:42:57
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
netwind, А что, на C++ фигачить разбор? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
28.08.2010, 11:14:59
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
mriadus, пришло время изучить еще один язык. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
28.08.2010, 11:30:47
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
Я ничё не понял ) То учить не надо, то надо... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 12:46:10
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
в Python для таких целей хорош модуль BeautifulSoup ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 15:45:15
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
mriadus >> Код: plaintext 1. 2. 3. 4. Тебе нравится BB-code? Это такой-же отстой как и HTML-разметка. Куча старт-стопных символов, которые парсеру в принципе не нужны. Я-бы сделал так: Код: plaintext ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 15:50:20
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
maytonmriadus >> Код: plaintext 1. 2. 3. 4. Тебе нравится BB-code? Это такой-же отстой как и HTML-разметка. Куча старт-стопных символов, которые парсеру в принципе не нужны. Я-бы сделал так: Код: plaintext Кул! Подумаю (-; ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 16:10:29
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
mayton, ббкоды настолько стали стандартными, что есть даже библиотека на С - http://pecl.php.net/package/bbcode. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 16:17:54
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
Да-да... знаю.. даже на нашем форуме есть свои ББ-коды. Создатели ББ-кодов панически боялись HTML-эксплоитов и не нашли ничего лучше чем заменить угловые скобки на квадратные. Вот такие вот пирожки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 16:47:41
|
|||
|---|---|---|---|
Поиск языка под задачу. |
|||
|
#18+
Я бы их назвал пассатижеедами и корнеплодогрызами, будь моя именовательная воля. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2010, 20:15:22
|
|||
|---|---|---|---|
|
|||
Поиск языка под задачу. |
|||
|
#18+
netwindmayton, ббкоды настолько стали стандартными, что есть даже библиотека на С - http://pecl.php.net/package/bbcode. s-expressions вряд ли можно считать менее "стандартными". И библиотеки на С/С++ для них тоже есть . ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=16&tablet=1&tid=1343491]: |
0ms |
get settings: |
7ms |
get forum list: |
14ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
173ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
50ms |
get tp. blocked users: |
1ms |
| others: | 214ms |
| total: | 474ms |

| 0 / 0 |
