Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск языка под задачу. / 13 сообщений из 13, страница 1 из 1
28.08.2010, 07:47:10
    #36816737
mriadus
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
Как наиболее просто можно переварить HTML-страницу с сообщениями, на которую вы щас смотрите, в (например) такие простые массивы строк:

Код: plaintext
1.
2.
3.
4.
5.
message[ 0 ]="Как наиболее просто можно взять HTML-страницу с сообщениями, на которую вы сейчас смотрите, и переварить её в массив структур:..."
author[ 0 ]="mriadus"
message[ 1 ]="Ох, ну и вопросы..."
author[ 1 ]="supergenius"
...

При этом, у каждого сообщения внутри могут быть всякие гадские цвета, цитаты, шрифты , таблицы, списки и прочее барахлище.

Было бы клёво видеть на выходе:
Код: plaintext
1.
2.
3.
4.
message[ 0 ]="всякие [color=brown]ц[/color][color=red]в[/color]е[color=gray]т[/color][color=orange]а[/color],
цитаты, [SIZE=3]шрифты[/SIZE], таблицы, списки и прочее барахлище."
author[ 0 ]="mriadus"
...

Спасибо.

P.S.
1. Регекспы, awk... :( :( :(
2. Конвертировать HTML в XML (что не всегда можно сделать) и заюзать XPath.
3. Ещё?
...
Рейтинг: 0 / 0
28.08.2010, 10:40:04
    #36816792
netwind
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
mriadus, вы действительно готовы изучать новый язык ради этой фигни?
ну попробуйте perl и модуль web::scraper /topic/773396

со шрифтами придется повозиться, но их можно довольно легко выкинуть HTML::FormatText (наверное, я не пробовал)
...
Рейтинг: 0 / 0
28.08.2010, 10:42:57
    #36816795
mriadus
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
netwind,

А что, на C++ фигачить разбор?
...
Рейтинг: 0 / 0
28.08.2010, 11:14:59
    #36816811
netwind
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
mriadus, пришло время изучить еще один язык.
...
Рейтинг: 0 / 0
28.08.2010, 11:30:47
    #36816818
mriadus
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
Я ничё не понял ) То учить не надо, то надо...
...
Рейтинг: 0 / 0
30.08.2010, 12:46:10
    #36818794
jenta
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
в Python для таких целей хорош модуль BeautifulSoup
...
Рейтинг: 0 / 0
30.08.2010, 15:45:15
    #36819383
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
mriadus >>
Код: plaintext
1.
2.
3.
4.
message[ 0 ]="всякие [color=brown]ц[/color][color=red]в[/color]е[color=gray]т[/color][color=orange]а[/color],
цитаты, [SIZE=3]шрифты[/SIZE], таблицы, списки и прочее барахлище."
author[ 0 ]="mriadus"
...

Тебе нравится BB-code? Это такой-же отстой как и HTML-разметка. Куча старт-стопных символов, которые парсеру в принципе не нужны. Я-бы сделал так:

Код: plaintext
(всякие (color brown ц) (color red в) е (color gray т) (color orange а) )
...
Рейтинг: 0 / 0
30.08.2010, 15:50:20
    #36819401
mriadus
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
maytonmriadus >>
Код: plaintext
1.
2.
3.
4.
message[ 0 ]="всякие [color=brown]ц[/color][color=red]в[/color]е[color=gray]т[/color][color=orange]а[/color],
цитаты, [SIZE=3]шрифты[/SIZE], таблицы, списки и прочее барахлище."
author[ 0 ]="mriadus"
...

Тебе нравится BB-code? Это такой-же отстой как и HTML-разметка. Куча старт-стопных символов, которые парсеру в принципе не нужны. Я-бы сделал так:

Код: plaintext
(всякие (color brown ц) (color red в) е (color gray т) (color orange а) )

Кул! Подумаю (-;
...
Рейтинг: 0 / 0
30.08.2010, 16:10:29
    #36819462
netwind
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
mayton, ббкоды настолько стали стандартными, что есть даже библиотека на С - http://pecl.php.net/package/bbcode.
...
Рейтинг: 0 / 0
30.08.2010, 16:17:54
    #36819486
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
Да-да... знаю.. даже на нашем форуме есть свои ББ-коды. Создатели ББ-кодов панически боялись HTML-эксплоитов и не нашли ничего лучше чем заменить угловые скобки на квадратные. Вот такие вот пирожки.
...
Рейтинг: 0 / 0
30.08.2010, 16:47:41
    #36819559
mriadus
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
Я бы их назвал пассатижеедами и корнеплодогрызами, будь моя именовательная воля.
...
Рейтинг: 0 / 0
30.08.2010, 20:15:22
    #36819934
junior  idiot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
netwindmayton, ббкоды настолько стали стандартными, что есть даже библиотека на С - http://pecl.php.net/package/bbcode.
s-expressions вряд ли можно считать менее "стандартными".
И библиотеки на С/С++ для них тоже есть .
...
Рейтинг: 0 / 0
30.08.2010, 21:47:28
    #36820027
netwind
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск языка под задачу.
junior idiot, у меня от этих ваших скобок клавиша " " перестала работать.
а на форумах ббкоды редактируются WIYSIWYG-редакторами.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск языка под задачу. / 13 сообщений из 13, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]