powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
16 сообщений из 16, страница 1 из 1
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769557
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Штука называется "Tagstractor". От слов "tags", "tractor" и "extractor"...

Описание: http://dramele.livejournal.com/122607.html .

Кратко: простой язык запросов данных из HTML-страниц. Позволяет за минуту решать вопрос выдирания топиков из форумов, новостей и ещё чего-нибудь с сайтов.

Программе скармливается html-файл и файл с запросами. Результат - в консоли. Важно заметить, что в консоль данные запишутся в той кодировке, в какой они лежат в html-файле и иногда приходится использовать iconv. Например кодировка этого форума - cp1251, а моя консоль - UTF-8 и мне приходится делать так:

Код: plaintext
1.
2.
wget -O /tmp/1.html "http://sql.ru/forum/actualtopics.aspx?bid=24"
./tagstractor.bin /tmp/1.html sqlruforum.ttcode | iconv -f cp1251 -t utf-8

Вижу:

$TOPICLINK = "actualthread.aspx?tid=766879"
$TOPICTEXT = "Объявления и анонсы о форумах, конференциях и др. событиях +"
$AUTHORLINK = "memberinfo.aspx?mid=26832"
$AUTHORNAME = "VLD"
$REPLIES = "0"
$VIEWS = "224"
$TIME = "14 июн 10, 11:31"
$TOPICLINK = "actualthread.aspx?tid=194595"
$TOPICTEXT = "e-Books постим сюда"
$AUTHORLINK = "memberinfo.aspx?mid=20450"
$AUTHORNAME = "Berkut"
$REPLIES = "102"
$VIEWS = "104305"
$TIME = "21 апр 10, 21:41"
$TOPICLINK = "actualthread.aspx?tid=778283"
$TOPICTEXT = "На чем программировать... (см. тему)"
$AUTHORLINK = "memberinfo.aspx?mid=42571"
$AUTHORNAME = "gesper"
$REPLIES = "0"
$VIEWS = "14"
$TIME = "сегодня, 14:52"
$TOPICLINK = "actualthread.aspx?tid=418324"
$TOPICTEXT = "Определение полиморфизма?"
$AUTHORLINK = "memberinfo.aspx?mid=80396"
$AUTHORNAME = "GerdaS"
$REPLIES = "39"
$VIEWS = "1795"
$TIME = "сегодня, 06:03"
$TOPICLINK = "actualthread.aspx?tid=778238"
$TOPICTEXT = "Assembler"
$AUTHORLINK = "memberinfo.aspx?mid=146449"
$AUTHORNAME = "Фунтик Иньетю"
$REPLIES = "3"
$VIEWS = "56"
$TIME = "сегодня, 00:29"
$TOPICLINK = "actualthread.aspx?tid=778169"
$TOPICTEXT = "Архивация данных на Windows Mobile"
$AUTHORLINK = "memberinfo.aspx?mid=26776"
$AUTHORNAME = "AndreyJordan"
$REPLIES = "1"
$VIEWS = "43"
$TIME = "вчера, 23:36"
$TOPICLINK = "actualthread.aspx?tid=777311"
$TOPICTEXT = "Кто мне объяснит, что такое "SQL-инъекция"?"
$AUTHORLINK = "memberinfo.aspx?mid=141000"
$AUTHORNAME = "Lonely_hermit"
$REPLIES = "34"
$VIEWS = "373"
$TIME = "вчера, 14:46"
$TOPICLINK = "actualthread.aspx?tid=777649"
$TOPICTEXT = "Справочники по Ассемблеру и др."
$AUTHORLINK = "memberinfo.aspx?mid=146277"
$AUTHORNAME = "Анонимный мастер"
$REPLIES = "3"
$VIEWS = "67"
$TIME = "29 июл 10, 14:47"
$TOPICLINK = "actualthread.aspx?tid=777206"
$TOPICTEXT = "Вопрос по GNU linker"
$AUTHORLINK = "memberinfo.aspx?mid=63489"
$AUTHORNAME = "MasterZ"
$REPLIES = "2"
$VIEWS = "72"
$TIME = "29 июл 10, 09:31"
$TOPICLINK = "actualthread.aspx?tid=777636"
$TOPICTEXT = "Драйвер на сетевушку"
$AUTHORLINK = "memberinfo.aspx?mid=146277"
$AUTHORNAME = "Анонимный мастер"
$REPLIES = "0"
$VIEWS = "41"
$TIME = "29 июл 10, 06:50"
$TOPICLINK = "actualthread.aspx?tid=776555"
$TOPICTEXT = "Как открыть склад в двух окнах"
$AUTHORLINK = "memberinfo.aspx?mid=133501"
$AUTHORNAME = "Mishel97"
$REPLIES = "4"
$VIEWS = "163"
$TIME = "29 июл 10, 00:03"
$TOPICLINK = "actualthread.aspx?tid=771167"
$TOPICTEXT = "Ультракороткий язык программирования RS"
$AUTHORLINK = "memberinfo.aspx?mid=144049"
$AUTHORNAME = "rstudio"
$REPLIES = "557"
$VIEWS = "5668"
$TIME = "28 июл 10, 17:23"
$TOPICLINK = "actualthread.aspx?tid=774173"
$TOPICTEXT = "Вопрос из требований вакансии. Про многопоточность."
$AUTHORLINK = "memberinfo.aspx?mid=135835"
$AUTHORNAME = "mriadus"
$REPLIES = "37"
$VIEWS = "940"
$TIME = "28 июл 10, 17:15"
$TOPICLINK = "actualthread.aspx?tid=777232"
$TOPICTEXT = "Масштабируемость"
$AUTHORLINK = "memberinfo.aspx?mid=75052"
$AUTHORNAME = "XDiaBLo"
$REPLIES = "10"
$VIEWS = "225"
$TIME = "28 июл 10, 15:20"
$TOPICLINK = "actualthread.aspx?tid=777418"
$TOPICTEXT = "Как определить эл. адрес текущй учетной записи в Outlook силами vba"
$AUTHORLINK = "memberinfo.aspx?mid=146335"
$AUTHORNAME = "TAV 1975"
$REPLIES = "0"
$VIEWS = "27"
$TIME = "28 июл 10, 12:20"
$TOPICLINK = "actualthread.aspx?tid=777097"
$TOPICTEXT = "Дайте намек как передать из vba (Outlook) файл в качестве параметра к процедуре SQL"
$AUTHORLINK = "memberinfo.aspx?mid=146335"
$AUTHORNAME = "TAV 1975"
$REPLIES = "2"
$VIEWS = "55"
$TIME = "28 июл 10, 12:06"
$TOPICLINK = "actualthread.aspx?tid=777392"
$TOPICTEXT = "Отбрасывание правых нулей у чисел с плавающей точкой"
$AUTHORLINK = "memberinfo.aspx?mid=50025"
$AUTHORNAME = "Andrew4fr"
$REPLIES = "0"
$VIEWS = "47"
$TIME = "28 июл 10, 10:55"
$TOPICLINK = "actualthread.aspx?tid=776802"
$TOPICTEXT = "файлы bin (асм)"
$AUTHORLINK = "memberinfo.aspx?mid=146277"
$AUTHORNAME = "Анонимный мастер"
$REPLIES = "6"
$VIEWS = "121"
$TIME = "26 июл 10, 10:59"
$TOPICLINK = "actualthread.aspx?tid=776691"
$TOPICTEXT = "Открыть Blob не через файл"
$AUTHORLINK = "memberinfo.aspx?mid=53198"
$AUTHORNAME = "AIS"
$REPLIES = "2"
$VIEWS = "88"
$TIME = "24 июл 10, 23:43"
$TOPICLINK = "actualthread.aspx?tid=775770"
$TOPICTEXT = "Ненужный компонент: скрывать или дисаблить?"
$AUTHORLINK = "memberinfo.aspx?mid=133489"
$AUTHORNAME = "slavik1986"
$REPLIES = "41"
$VIEWS = "421"
$TIME = "23 июл 10, 12:07"
$TOPICLINK = "actualthread.aspx?tid=776431"
$TOPICTEXT = "как открыть файл с расширением (.RES)?...."
$AUTHORLINK = "memberinfo.aspx?mid=146187"
$AUTHORNAME = "m_a_x_23"
$REPLIES = "9"
$VIEWS = "104"
$TIME = "23 июл 10, 12:06"
$TOPICLINK = "actualthread.aspx?tid=776289"
$TOPICTEXT = "FCOM?"
$AUTHORLINK = "memberinfo.aspx?mid=146187"
$AUTHORNAME = "m_a_x_23"
$REPLIES = "0"
$VIEWS = "79"
$TIME = "22 июл 10, 17:14"
$TOPICLINK = "actualthread.aspx?tid=776065"
$TOPICTEXT = "Audit object access: получить значение программно"
$AUTHORLINK = "memberinfo.aspx?mid=1895"
$AUTHORNAME = "jimmers"
$REPLIES = "0"
$VIEWS = "57"
$TIME = "21 июл 10, 23:48"
$TOPICLINK = "actualthread.aspx?tid=775855"
$TOPICTEXT = "работа с ISO файлами"
$AUTHORLINK = "memberinfo.aspx?mid=116660"
$AUTHORNAME = "pureproft"
$REPLIES = "12"
$VIEWS = "148"
$TIME = "21 июл 10, 16:00"
$TOPICLINK = "actualthread.aspx?tid=775830"
$TOPICTEXT = "Dll в с#"
$AUTHORLINK = "memberinfo.aspx?mid=144302"
$AUTHORNAME = "lincoln"
$REPLIES = "2"
$VIEWS = "104"
$TIME = "21 июл 10, 10:18"
$TOPICLINK = "actualthread.aspx?tid=775582"
$TOPICTEXT = "Передача файла"
$AUTHORLINK = "memberinfo.aspx?mid=126206"
$AUTHORNAME = "m200"
$REPLIES = "2"
$VIEWS = "119"
$TIME = "20 июл 10, 17:03"
$TOPICLINK = "actualthread.aspx?tid=775610"
$TOPICTEXT = "Помогите люди добрые в 1с"
$AUTHORLINK = "memberinfo.aspx?mid=146047"
$AUTHORNAME = "Strol"
$REPLIES = "0"
$VIEWS = "119"
$TIME = "20 июл 10, 12:18"
$TOPICLINK = "actualthread.aspx?tid=775574"
$TOPICTEXT = "Нет доступа к списку Build Types из Team Explorer"
$AUTHORLINK = "memberinfo.aspx?mid=58020"
$AUTHORNAME = "UVG"
$REPLIES = "1"
$VIEWS = "56"
$TIME = "20 июл 10, 11:38"
$TOPICLINK = "actualthread.aspx?tid=773402"
$TOPICTEXT = "Что нужно для того чтоб стать программистом, а не кодером"
$AUTHORLINK = "memberinfo.aspx?mid=145681"
$AUTHORNAME = "jijidesign"
$REPLIES = "224"
$VIEWS = "3331"
$TIME = "20 июл 10, 10:11"
$TOPICLINK = "actualthread.aspx?tid=775276"
$TOPICTEXT = "Подскажите по поводу студии"
$AUTHORLINK = "memberinfo.aspx?mid=100417"
$AUTHORNAME = "OracleLover"
$REPLIES = "6"
$VIEWS = "194"
$TIME = "20 июл 10, 09:53"
$TOPICLINK = "actualthread.aspx?tid=412782"
$TOPICTEXT = "Бенчмарки C#, C++, Java, Delphi"
$AUTHORLINK = "memberinfo.aspx?mid=53909"
$AUTHORNAME = "Master Alex"
$REPLIES = "263"
$VIEWS = "24425"
$TIME = "18 июл 10, 17:10"
$TOPICLINK = "actualthread.aspx?tid=772125"
$TOPICTEXT = "На чём написать GUI к MySQL/SQLite?"
$AUTHORLINK = "memberinfo.aspx?mid=145437"
$AUTHORNAME = "mclaudt"
$REPLIES = "18"
$VIEWS = "547"
$TIME = "18 июл 10, 15:37"
$TOPICLINK = "actualthread.aspx?tid=774651"
$TOPICTEXT = "Посоветуйте книгу по Unit-тестированию"
$AUTHORLINK = "memberinfo.aspx?mid=31019"
$AUTHORNAME = "Raziel"
$REPLIES = "4"
$VIEWS = "168"
$TIME = "15 июл 10, 15:20"
$TOPICLINK = "actualthread.aspx?tid=774222"
$TOPICTEXT = "Подскажите пожалуйста где бы мне скомпилировать вот этот код"
$AUTHORLINK = "memberinfo.aspx?mid=100417"
$AUTHORNAME = "OracleLover"
$REPLIES = "3"
$VIEWS = "247"
$TIME = "14 июл 10, 12:41"
$TOPICLINK = "actualthread.aspx?tid=773920"
$TOPICTEXT = "проблемы с битрексом"
$AUTHORLINK = "memberinfo.aspx?mid=4849"
$AUTHORNAME = "Pablo_new"
$REPLIES = "1"
$VIEWS = "110"
$TIME = "13 июл 10, 12:38"
$TOPICLINK = "actualthread.aspx?tid=773781"
$TOPICTEXT = "не нашел ниче, нужен алгоритм :)"
$AUTHORLINK = "memberinfo.aspx?mid=142622"
$AUTHORNAME = "grasoff.net"
$REPLIES = "11"
$VIEWS = "264"
$TIME = "13 июл 10, 11:15"
$TOPICLINK = "actualthread.aspx?tid=773759"
$TOPICTEXT = "Каким редактором для написания sql пользуетесь?"
$AUTHORLINK = "memberinfo.aspx?mid=115333"
$AUTHORNAME = "solo8"
$REPLIES = "14"
$VIEWS = "420"
$TIME = "13 июл 10, 10:57"
$TOPICLINK = "actualthread.aspx?tid=459914"
$TOPICTEXT = "Помогите написать батник"
$AUTHORLINK = "memberinfo.aspx?mid=37757"
$AUTHORNAME = "JulT"
$REPLIES = "18"
$VIEWS = "837"
$TIME = "13 июл 10, 06:44"
$TOPICLINK = "actualthread.aspx?tid=773327"
$TOPICTEXT = "ускоритель для ie8"
$AUTHORLINK = "memberinfo.aspx?mid=134149"
$AUTHORNAME = "Iber"
$REPLIES = "2"
$VIEWS = "202"
$TIME = "12 июл 10, 19:12"
$TOPICLINK = "actualthread.aspx?tid=773664"
$TOPICTEXT = "Еще раз о защите flash контента"
$AUTHORLINK = "memberinfo.aspx?mid=79260"
$AUTHORNAME = "Zeleboba"
$REPLIES = "2"
$VIEWS = "137"
$TIME = "12 июл 10, 18:27"
$TOPICLINK = "actualthread.aspx?tid=769766"
$TOPICTEXT = "jscript. Поиск тэга в xml-файле"
$AUTHORLINK = "memberinfo.aspx?mid=128957"
$AUTHORNAME = "worsvch"
$REPLIES = "4"
$VIEWS = "222"
$TIME = "12 июл 10, 15:10"
$TOPICLINK = "actualthread.aspx?tid=572781"
$TOPICTEXT = "Программа Электронных заявок для ИТ отделов"
$AUTHORLINK = "memberinfo.aspx?mid=108468"
$AUTHORNAME = "Leisan_ka"
$REPLIES = "26"
$VIEWS = "1801"
$TIME = "11 июл 10, 08:22"
$TOPICLINK = "actualthread.aspx?tid=34834"
$TOPICTEXT = "Форматирование даты в JavaScript"
$AUTHORLINK = "memberinfo.aspx?mid=1260"
$AUTHORNAME = "Andrey"
$REPLIES = "4"
$VIEWS = "1009"
$TIME = "8 июл 10, 12:34"
$TOPICLINK = "actualthread.aspx?tid=772109"
$TOPICTEXT = "Как программно создать текст возле указателя мыши"
$AUTHORLINK = "memberinfo.aspx?mid=133501"
$AUTHORNAME = "Mishel97"
$REPLIES = "7"
$VIEWS = "280"
$TIME = "8 июл 10, 01:53"
$TOPICLINK = "actualthread.aspx?tid=772435"
$TOPICTEXT = "Корректность цикла"
$AUTHORLINK = "memberinfo.aspx?mid=134770"
$AUTHORNAME = "1nTrO88"
$REPLIES = "20"
$VIEWS = "340"
$TIME = "7 июл 10, 18:16"
$TOPICLINK = "actualthread.aspx?tid=772515"
$TOPICTEXT = "изменение типа переменной в таблиц"
$AUTHORLINK = "memberinfo.aspx?mid=145507"
$AUTHORNAME = "Ks2010"
$REPLIES = "7"
$VIEWS = "129"
$TIME = "7 июл 10, 17:01"



http://ymap.org/tagstractor/tagstractor.bin - the tagstractor binary, x86 64bit, static.
http://ymap.org/tagstractor/echomskrunews.ttcode - An example ttcode for extracting news from site http://echo.msk.ru/news/
http://ymap.org/tagstractor/sqlruforum.ttcode - запрос на списки топиков форумов SQL.RU.

Спасибо.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769589
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А как "вложенность" тегов разбирать? Квотирование.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769676
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadus, Чувааак, вот это http://sql.ru/forum/actualthread.aspx?tid=773396#9082718 - язык запросов.
А у тебя курсовая по С и linux.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769744
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вобщем-то проблема не XPath. Он-вполне самодостаточный язык. А в конверсии html->XML. И в неоднозначности самой постановки.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769782
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonА как "вложенность" тегов разбирать? Квотирование.
HTML-документ рассматривается тупо как линейный поток тегов и "текстов".
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769785
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindmriadus, Чувааак, вот это http://sql.ru/forum/actualthread.aspx?tid=773396#9082718 - язык запросов.
А у тебя курсовая по С и linux.
О, интересно... Надо почитать) Прочти краткую лекцию по отличию твоего языка и моего? )
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769795
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadus, краткая лекция :
вместо написания очередной студенческой поделки, игнорируя практически весь опыт в этой области, мудрый японец решил объединить развитые технологии такие как perl, lwp, xpath, css для достижения синергетического эффекта в виде легкого доступа к данным на удобном скриптовом языке.
если это курсовая, то все нормально и вопросов нет.
Если ты на самом деле думаешь, что это окажется кому-то полезным на практике - ты ошибаешься.

Язык там обычный xpath, дополненный css-селекторами. Полистай презентацию там ниже по теме.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769801
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadusmaytonА как "вложенность" тегов разбирать? Квотирование.
HTML-документ рассматривается тупо как линейный поток тегов и "текстов".
По тому, что выбрасывает на выходе tagstractor скорее всего невозможно будет восстановить семантику или AST документа. Почитай, как работают SAX-парсеры, какие они генерят типы событий. В данном конкретном случае SAX не применИм, но его интерфейс универсален и может быть использован при разборе любых документов где есть "фреймовая" структура.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769861
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть такой вопрос. Как ведут себя HTML-парсеры, "встречающие" html-документ перед тем, как он преобразуется в XML и потом с ним будет работать XPath (то есть одобренные минздравом html-парсеры), когда встречают javascript с куском HTML внутри, например:
Код: plaintext
1.
2.
3.
4.
5.
<script>
...
var q1 = myObject.write ( "<b>hahaha</b>" );
...
</script>

Хватает ли им ума понять синтаксис javasctipt для того, чтобы в конструкции
Код: plaintext
myObject.write ( "<b>hahaha</b>" );
не реагировать на "<b>hahaha</b>" как на HTML?
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769869
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
С самого начала не было желания строить иерархию документа, а работать с плоским потоком "html-объектов" из-за суровостей реального мира, в котором не всякий нормально рендерящийся html является валидным xml... Не хотелось возиться с автоматическим исправлением этих ошибок верстальщиков. И, вроде как, есть неоднозначности при их исправлении. В общем, я в это не полез и оставил "одно измерение".

Ну и конечно тут большая доля just for fun. Несмотря на то, что в природе есть html-парсеры, сделать свой руки чесались всё равно, выражения поразбирать, порешать такие задачки... Просто кайф личный, никаких претензий на завоевание мира.

Cпособ выдачи результатов, работа с переменными, добавление новых возможностей - вопрос не закрытый, меня самого не всё устраивает.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769883
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadusЕсть такой вопрос. Как ведут себя HTML-парсеры, "встречающие" html-документ перед тем, как он преобразуется в XML... Хватает ли им ума понять синтаксис javasctipt для того, чтобы в конструкции
Код: plaintext
myObject.write ( "<b>hahaha</b>" );
не реагировать на "<b>hahaha</b>" как на HTML?

Тривиальности вроде SCRIPT, ессно, понимаются. Напр., у нашего парсера есть три базовых режима --- строго валидируемый XML, относительно чистый HTML, предположительно очень грязный HTML. Для борьбы с двумя последними разновидностями на борту есть таблица свойств различных HTML-ных тэгов (кто кого и как закрывает, что делать с содержимым и т.п.). Но такой парсер --- достаточно замысловатая штука, особенно если валидировать XML надо быстро и документы могут быть сколь угодно большими и к тому же составными. Больше полумегабайта сишных сорцов.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36769888
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_rumriadusЕсть такой вопрос. Как ведут себя HTML-парсеры, "встречающие" html-документ перед тем, как он преобразуется в XML... Хватает ли им ума понять синтаксис javasctipt для того, чтобы в конструкции
Код: plaintext
myObject.write ( "<b>hahaha</b>" );
не реагировать на "<b>hahaha</b>" как на HTML?

Тривиальности вроде SCRIPT, ессно, понимаются. Напр., у нашего парсера есть три базовых режима --- строго валидируемый XML, относительно чистый HTML, предположительно очень грязный HTML. Для борьбы с двумя последними разновидностями на борту есть таблица свойств различных HTML-ных тэгов (кто кого и как закрывает, что делать с содержимым и т.п.). Но такой парсер --- достаточно замысловатая штука, особенно если валидировать XML надо быстро и документы могут быть сколь угодно большими и к тому же составными. Больше полумегабайта сишных сорцов.
У-у-у (-;
По поводу SCRIPT: встречая тег <SCRIPT ...>, ваш html-парсер подключает к делу процедуры, поторые "имеют представление" о JavaSctipt?
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36770096
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadusПо поводу SCRIPT: встречая тег <SCRIPT ...>, ваш html-парсер подключает к делу процедуры, поторые "имеют представление" о JavaSctipt?

Технически --- нет проблем: получатель данных event-driven, в обработчики событий "открылся тэг" и "закрылся тэг" разработчик приложения может что угодно воткнуть, в т.ч. и какой-то свой интерпретатор ECMA-262. Но смыcл? Парсер-то внутри СУБД, а не в браузере. Сюрпри-и-из! Немногие страницы с яваскриптом сделают что-то осмысленное без доступа в сеть и без всех событий включая onLoad.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36770230
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_rumriadusПо поводу SCRIPT: встречая тег <SCRIPT ...>, ваш html-парсер подключает к делу процедуры, поторые "имеют представление" о JavaSctipt?

Технически --- нет проблем: получатель данных event-driven, в обработчики событий "открылся тэг" и "закрылся тэг" разработчик приложения может что угодно воткнуть, в т.ч. и какой-то свой интерпретатор ECMA-262. Но смыcл? Парсер-то внутри СУБД, а не в браузере. Сюрпри-и-из! Немногие страницы с яваскриптом сделают что-то осмысленное без доступа в сеть и без всех событий включая onLoad.
Согласен, немногие ява-скрипты что-то полезное сделают, живя в такой тюрьме, но я не про интерпретацию интересовался полную. А наверное только про "холодный" синтаксический разбор ява-скрипта для того, чтобы парсер смог дойти до конца скрипта, не споткнувшись о какие-то куски HTML внутри его... Чтобы всегда поток тегов был: "SCRIPT", "TEXT", "/SCRIPT", где "TEXT" - весь скрипт.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36770233
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadus
...для того, чтобы парсер смог дойти до конца скрипта, не споткнувшись о какие-то куски HTML внутри его... Чтобы всегда поток тегов был: "SCRIPT", "TEXT", "/SCRIPT", где "TEXT" - весь скрипт.
Хороший парсер всегда различает контекст разбора. Я пользовался каким-то Java-шным конвертером HTML-XML и кажется у меня не возникало проблем неправильной интерпретации скрипта. Или я о таких случаях не помню.
...
Рейтинг: 0 / 0
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
    #36770421
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mriadusдойти до конца скрипта, не споткнувшись о какие-то куски HTML внутри его... Чтобы всегда поток тегов был: "SCRIPT", "TEXT", "/SCRIPT", где "TEXT" - весь скрипт.

Это делается прямо парсером, никакого внешнего кода не требуется.
...
Рейтинг: 0 / 0
16 сообщений из 16, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]