|
|
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
Как наиболее просто можно переварить HTML-страницу с сообщениями, на которую вы щас смотрите, в (например) такие простые массивы строк: Код: plaintext 1. 2. 3. 4. 5. При этом, у каждого сообщения внутри могут быть всякие гадские цвета, цитаты, шрифты , таблицы, списки и прочее барахлище. Было бы клёво видеть на выходе: Код: plaintext 1. 2. 3. 4. Спасибо. P.S. 1. Регекспы, awk... :( :( :( 2. Конвертировать HTML в XML (что не всегда можно сделать) и заюзать XPath. 3. Ещё? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2010, 07:47 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
mriadus, вы действительно готовы изучать новый язык ради этой фигни? ну попробуйте perl и модуль web::scraper /topic/773396 со шрифтами придется повозиться, но их можно довольно легко выкинуть HTML::FormatText (наверное, я не пробовал) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2010, 10:40 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
netwind, А что, на C++ фигачить разбор? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2010, 10:42 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
mriadus, пришло время изучить еще один язык. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2010, 11:14 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
Я ничё не понял ) То учить не надо, то надо... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2010, 11:30 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
в Python для таких целей хорош модуль BeautifulSoup ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 12:46 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
mriadus >> Код: plaintext 1. 2. 3. 4. Тебе нравится BB-code? Это такой-же отстой как и HTML-разметка. Куча старт-стопных символов, которые парсеру в принципе не нужны. Я-бы сделал так: Код: plaintext ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 15:45 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
maytonmriadus >> Код: plaintext 1. 2. 3. 4. Тебе нравится BB-code? Это такой-же отстой как и HTML-разметка. Куча старт-стопных символов, которые парсеру в принципе не нужны. Я-бы сделал так: Код: plaintext Кул! Подумаю (-; ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 15:50 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
mayton, ббкоды настолько стали стандартными, что есть даже библиотека на С - http://pecl.php.net/package/bbcode. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 16:10 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
Да-да... знаю.. даже на нашем форуме есть свои ББ-коды. Создатели ББ-кодов панически боялись HTML-эксплоитов и не нашли ничего лучше чем заменить угловые скобки на квадратные. Вот такие вот пирожки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 16:17 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
Я бы их назвал пассатижеедами и корнеплодогрызами, будь моя именовательная воля. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 16:47 |
|
||
|
Поиск языка под задачу.
|
|||
|---|---|---|---|
|
#18+
netwindmayton, ббкоды настолько стали стандартными, что есть даже библиотека на С - http://pecl.php.net/package/bbcode. s-expressions вряд ли можно считать менее "стандартными". И библиотеки на С/С++ для них тоже есть . ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2010, 20:15 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=36816818&tid=1343491]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
181ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
47ms |
get tp. blocked users: |
1ms |
| others: | 234ms |
| total: | 509ms |

| 0 / 0 |
