|
|
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
Штука называется "Tagstractor". От слов "tags", "tractor" и "extractor"... Описание: http://dramele.livejournal.com/122607.html . Кратко: простой язык запросов данных из HTML-страниц. Позволяет за минуту решать вопрос выдирания топиков из форумов, новостей и ещё чего-нибудь с сайтов. Программе скармливается html-файл и файл с запросами. Результат - в консоли. Важно заметить, что в консоль данные запишутся в той кодировке, в какой они лежат в html-файле и иногда приходится использовать iconv. Например кодировка этого форума - cp1251, а моя консоль - UTF-8 и мне приходится делать так: Код: plaintext 1. 2. Вижу: $TOPICLINK = "actualthread.aspx?tid=766879" $TOPICTEXT = "Объявления и анонсы о форумах, конференциях и др. событиях +" $AUTHORLINK = "memberinfo.aspx?mid=26832" $AUTHORNAME = "VLD" $REPLIES = "0" $VIEWS = "224" $TIME = "14 июн 10, 11:31" $TOPICLINK = "actualthread.aspx?tid=194595" $TOPICTEXT = "e-Books постим сюда" $AUTHORLINK = "memberinfo.aspx?mid=20450" $AUTHORNAME = "Berkut" $REPLIES = "102" $VIEWS = "104305" $TIME = "21 апр 10, 21:41" $TOPICLINK = "actualthread.aspx?tid=778283" $TOPICTEXT = "На чем программировать... (см. тему)" $AUTHORLINK = "memberinfo.aspx?mid=42571" $AUTHORNAME = "gesper" $REPLIES = "0" $VIEWS = "14" $TIME = "сегодня, 14:52" $TOPICLINK = "actualthread.aspx?tid=418324" $TOPICTEXT = "Определение полиморфизма?" $AUTHORLINK = "memberinfo.aspx?mid=80396" $AUTHORNAME = "GerdaS" $REPLIES = "39" $VIEWS = "1795" $TIME = "сегодня, 06:03" $TOPICLINK = "actualthread.aspx?tid=778238" $TOPICTEXT = "Assembler" $AUTHORLINK = "memberinfo.aspx?mid=146449" $AUTHORNAME = "Фунтик Иньетю" $REPLIES = "3" $VIEWS = "56" $TIME = "сегодня, 00:29" $TOPICLINK = "actualthread.aspx?tid=778169" $TOPICTEXT = "Архивация данных на Windows Mobile" $AUTHORLINK = "memberinfo.aspx?mid=26776" $AUTHORNAME = "AndreyJordan" $REPLIES = "1" $VIEWS = "43" $TIME = "вчера, 23:36" $TOPICLINK = "actualthread.aspx?tid=777311" $TOPICTEXT = "Кто мне объяснит, что такое "SQL-инъекция"?" $AUTHORLINK = "memberinfo.aspx?mid=141000" $AUTHORNAME = "Lonely_hermit" $REPLIES = "34" $VIEWS = "373" $TIME = "вчера, 14:46" $TOPICLINK = "actualthread.aspx?tid=777649" $TOPICTEXT = "Справочники по Ассемблеру и др." $AUTHORLINK = "memberinfo.aspx?mid=146277" $AUTHORNAME = "Анонимный мастер" $REPLIES = "3" $VIEWS = "67" $TIME = "29 июл 10, 14:47" $TOPICLINK = "actualthread.aspx?tid=777206" $TOPICTEXT = "Вопрос по GNU linker" $AUTHORLINK = "memberinfo.aspx?mid=63489" $AUTHORNAME = "MasterZ" $REPLIES = "2" $VIEWS = "72" $TIME = "29 июл 10, 09:31" $TOPICLINK = "actualthread.aspx?tid=777636" $TOPICTEXT = "Драйвер на сетевушку" $AUTHORLINK = "memberinfo.aspx?mid=146277" $AUTHORNAME = "Анонимный мастер" $REPLIES = "0" $VIEWS = "41" $TIME = "29 июл 10, 06:50" $TOPICLINK = "actualthread.aspx?tid=776555" $TOPICTEXT = "Как открыть склад в двух окнах" $AUTHORLINK = "memberinfo.aspx?mid=133501" $AUTHORNAME = "Mishel97" $REPLIES = "4" $VIEWS = "163" $TIME = "29 июл 10, 00:03" $TOPICLINK = "actualthread.aspx?tid=771167" $TOPICTEXT = "Ультракороткий язык программирования RS" $AUTHORLINK = "memberinfo.aspx?mid=144049" $AUTHORNAME = "rstudio" $REPLIES = "557" $VIEWS = "5668" $TIME = "28 июл 10, 17:23" $TOPICLINK = "actualthread.aspx?tid=774173" $TOPICTEXT = "Вопрос из требований вакансии. Про многопоточность." $AUTHORLINK = "memberinfo.aspx?mid=135835" $AUTHORNAME = "mriadus" $REPLIES = "37" $VIEWS = "940" $TIME = "28 июл 10, 17:15" $TOPICLINK = "actualthread.aspx?tid=777232" $TOPICTEXT = "Масштабируемость" $AUTHORLINK = "memberinfo.aspx?mid=75052" $AUTHORNAME = "XDiaBLo" $REPLIES = "10" $VIEWS = "225" $TIME = "28 июл 10, 15:20" $TOPICLINK = "actualthread.aspx?tid=777418" $TOPICTEXT = "Как определить эл. адрес текущй учетной записи в Outlook силами vba" $AUTHORLINK = "memberinfo.aspx?mid=146335" $AUTHORNAME = "TAV 1975" $REPLIES = "0" $VIEWS = "27" $TIME = "28 июл 10, 12:20" $TOPICLINK = "actualthread.aspx?tid=777097" $TOPICTEXT = "Дайте намек как передать из vba (Outlook) файл в качестве параметра к процедуре SQL" $AUTHORLINK = "memberinfo.aspx?mid=146335" $AUTHORNAME = "TAV 1975" $REPLIES = "2" $VIEWS = "55" $TIME = "28 июл 10, 12:06" $TOPICLINK = "actualthread.aspx?tid=777392" $TOPICTEXT = "Отбрасывание правых нулей у чисел с плавающей точкой" $AUTHORLINK = "memberinfo.aspx?mid=50025" $AUTHORNAME = "Andrew4fr" $REPLIES = "0" $VIEWS = "47" $TIME = "28 июл 10, 10:55" $TOPICLINK = "actualthread.aspx?tid=776802" $TOPICTEXT = "файлы bin (асм)" $AUTHORLINK = "memberinfo.aspx?mid=146277" $AUTHORNAME = "Анонимный мастер" $REPLIES = "6" $VIEWS = "121" $TIME = "26 июл 10, 10:59" $TOPICLINK = "actualthread.aspx?tid=776691" $TOPICTEXT = "Открыть Blob не через файл" $AUTHORLINK = "memberinfo.aspx?mid=53198" $AUTHORNAME = "AIS" $REPLIES = "2" $VIEWS = "88" $TIME = "24 июл 10, 23:43" $TOPICLINK = "actualthread.aspx?tid=775770" $TOPICTEXT = "Ненужный компонент: скрывать или дисаблить?" $AUTHORLINK = "memberinfo.aspx?mid=133489" $AUTHORNAME = "slavik1986" $REPLIES = "41" $VIEWS = "421" $TIME = "23 июл 10, 12:07" $TOPICLINK = "actualthread.aspx?tid=776431" $TOPICTEXT = "как открыть файл с расширением (.RES)?...." $AUTHORLINK = "memberinfo.aspx?mid=146187" $AUTHORNAME = "m_a_x_23" $REPLIES = "9" $VIEWS = "104" $TIME = "23 июл 10, 12:06" $TOPICLINK = "actualthread.aspx?tid=776289" $TOPICTEXT = "FCOM?" $AUTHORLINK = "memberinfo.aspx?mid=146187" $AUTHORNAME = "m_a_x_23" $REPLIES = "0" $VIEWS = "79" $TIME = "22 июл 10, 17:14" $TOPICLINK = "actualthread.aspx?tid=776065" $TOPICTEXT = "Audit object access: получить значение программно" $AUTHORLINK = "memberinfo.aspx?mid=1895" $AUTHORNAME = "jimmers" $REPLIES = "0" $VIEWS = "57" $TIME = "21 июл 10, 23:48" $TOPICLINK = "actualthread.aspx?tid=775855" $TOPICTEXT = "работа с ISO файлами" $AUTHORLINK = "memberinfo.aspx?mid=116660" $AUTHORNAME = "pureproft" $REPLIES = "12" $VIEWS = "148" $TIME = "21 июл 10, 16:00" $TOPICLINK = "actualthread.aspx?tid=775830" $TOPICTEXT = "Dll в с#" $AUTHORLINK = "memberinfo.aspx?mid=144302" $AUTHORNAME = "lincoln" $REPLIES = "2" $VIEWS = "104" $TIME = "21 июл 10, 10:18" $TOPICLINK = "actualthread.aspx?tid=775582" $TOPICTEXT = "Передача файла" $AUTHORLINK = "memberinfo.aspx?mid=126206" $AUTHORNAME = "m200" $REPLIES = "2" $VIEWS = "119" $TIME = "20 июл 10, 17:03" $TOPICLINK = "actualthread.aspx?tid=775610" $TOPICTEXT = "Помогите люди добрые в 1с" $AUTHORLINK = "memberinfo.aspx?mid=146047" $AUTHORNAME = "Strol" $REPLIES = "0" $VIEWS = "119" $TIME = "20 июл 10, 12:18" $TOPICLINK = "actualthread.aspx?tid=775574" $TOPICTEXT = "Нет доступа к списку Build Types из Team Explorer" $AUTHORLINK = "memberinfo.aspx?mid=58020" $AUTHORNAME = "UVG" $REPLIES = "1" $VIEWS = "56" $TIME = "20 июл 10, 11:38" $TOPICLINK = "actualthread.aspx?tid=773402" $TOPICTEXT = "Что нужно для того чтоб стать программистом, а не кодером" $AUTHORLINK = "memberinfo.aspx?mid=145681" $AUTHORNAME = "jijidesign" $REPLIES = "224" $VIEWS = "3331" $TIME = "20 июл 10, 10:11" $TOPICLINK = "actualthread.aspx?tid=775276" $TOPICTEXT = "Подскажите по поводу студии" $AUTHORLINK = "memberinfo.aspx?mid=100417" $AUTHORNAME = "OracleLover" $REPLIES = "6" $VIEWS = "194" $TIME = "20 июл 10, 09:53" $TOPICLINK = "actualthread.aspx?tid=412782" $TOPICTEXT = "Бенчмарки C#, C++, Java, Delphi" $AUTHORLINK = "memberinfo.aspx?mid=53909" $AUTHORNAME = "Master Alex" $REPLIES = "263" $VIEWS = "24425" $TIME = "18 июл 10, 17:10" $TOPICLINK = "actualthread.aspx?tid=772125" $TOPICTEXT = "На чём написать GUI к MySQL/SQLite?" $AUTHORLINK = "memberinfo.aspx?mid=145437" $AUTHORNAME = "mclaudt" $REPLIES = "18" $VIEWS = "547" $TIME = "18 июл 10, 15:37" $TOPICLINK = "actualthread.aspx?tid=774651" $TOPICTEXT = "Посоветуйте книгу по Unit-тестированию" $AUTHORLINK = "memberinfo.aspx?mid=31019" $AUTHORNAME = "Raziel" $REPLIES = "4" $VIEWS = "168" $TIME = "15 июл 10, 15:20" $TOPICLINK = "actualthread.aspx?tid=774222" $TOPICTEXT = "Подскажите пожалуйста где бы мне скомпилировать вот этот код" $AUTHORLINK = "memberinfo.aspx?mid=100417" $AUTHORNAME = "OracleLover" $REPLIES = "3" $VIEWS = "247" $TIME = "14 июл 10, 12:41" $TOPICLINK = "actualthread.aspx?tid=773920" $TOPICTEXT = "проблемы с битрексом" $AUTHORLINK = "memberinfo.aspx?mid=4849" $AUTHORNAME = "Pablo_new" $REPLIES = "1" $VIEWS = "110" $TIME = "13 июл 10, 12:38" $TOPICLINK = "actualthread.aspx?tid=773781" $TOPICTEXT = "не нашел ниче, нужен алгоритм :)" $AUTHORLINK = "memberinfo.aspx?mid=142622" $AUTHORNAME = "grasoff.net" $REPLIES = "11" $VIEWS = "264" $TIME = "13 июл 10, 11:15" $TOPICLINK = "actualthread.aspx?tid=773759" $TOPICTEXT = "Каким редактором для написания sql пользуетесь?" $AUTHORLINK = "memberinfo.aspx?mid=115333" $AUTHORNAME = "solo8" $REPLIES = "14" $VIEWS = "420" $TIME = "13 июл 10, 10:57" $TOPICLINK = "actualthread.aspx?tid=459914" $TOPICTEXT = "Помогите написать батник" $AUTHORLINK = "memberinfo.aspx?mid=37757" $AUTHORNAME = "JulT" $REPLIES = "18" $VIEWS = "837" $TIME = "13 июл 10, 06:44" $TOPICLINK = "actualthread.aspx?tid=773327" $TOPICTEXT = "ускоритель для ie8" $AUTHORLINK = "memberinfo.aspx?mid=134149" $AUTHORNAME = "Iber" $REPLIES = "2" $VIEWS = "202" $TIME = "12 июл 10, 19:12" $TOPICLINK = "actualthread.aspx?tid=773664" $TOPICTEXT = "Еще раз о защите flash контента" $AUTHORLINK = "memberinfo.aspx?mid=79260" $AUTHORNAME = "Zeleboba" $REPLIES = "2" $VIEWS = "137" $TIME = "12 июл 10, 18:27" $TOPICLINK = "actualthread.aspx?tid=769766" $TOPICTEXT = "jscript. Поиск тэга в xml-файле" $AUTHORLINK = "memberinfo.aspx?mid=128957" $AUTHORNAME = "worsvch" $REPLIES = "4" $VIEWS = "222" $TIME = "12 июл 10, 15:10" $TOPICLINK = "actualthread.aspx?tid=572781" $TOPICTEXT = "Программа Электронных заявок для ИТ отделов" $AUTHORLINK = "memberinfo.aspx?mid=108468" $AUTHORNAME = "Leisan_ka" $REPLIES = "26" $VIEWS = "1801" $TIME = "11 июл 10, 08:22" $TOPICLINK = "actualthread.aspx?tid=34834" $TOPICTEXT = "Форматирование даты в JavaScript" $AUTHORLINK = "memberinfo.aspx?mid=1260" $AUTHORNAME = "Andrey" $REPLIES = "4" $VIEWS = "1009" $TIME = "8 июл 10, 12:34" $TOPICLINK = "actualthread.aspx?tid=772109" $TOPICTEXT = "Как программно создать текст возле указателя мыши" $AUTHORLINK = "memberinfo.aspx?mid=133501" $AUTHORNAME = "Mishel97" $REPLIES = "7" $VIEWS = "280" $TIME = "8 июл 10, 01:53" $TOPICLINK = "actualthread.aspx?tid=772435" $TOPICTEXT = "Корректность цикла" $AUTHORLINK = "memberinfo.aspx?mid=134770" $AUTHORNAME = "1nTrO88" $REPLIES = "20" $VIEWS = "340" $TIME = "7 июл 10, 18:16" $TOPICLINK = "actualthread.aspx?tid=772515" $TOPICTEXT = "изменение типа переменной в таблиц" $AUTHORLINK = "memberinfo.aspx?mid=145507" $AUTHORNAME = "Ks2010" $REPLIES = "7" $VIEWS = "129" $TIME = "7 июл 10, 17:01" http://ymap.org/tagstractor/tagstractor.bin - the tagstractor binary, x86 64bit, static. http://ymap.org/tagstractor/echomskrunews.ttcode - An example ttcode for extracting news from site http://echo.msk.ru/news/ http://ymap.org/tagstractor/sqlruforum.ttcode - запрос на списки топиков форумов SQL.RU. Спасибо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.07.2010, 17:33:40 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
А как "вложенность" тегов разбирать? Квотирование. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.07.2010, 18:49:24 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadus, Чувааак, вот это http://sql.ru/forum/actualthread.aspx?tid=773396#9082718 - язык запросов. А у тебя курсовая по С и linux. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.07.2010, 20:57:04 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
Вобщем-то проблема не XPath. Он-вполне самодостаточный язык. А в конверсии html->XML. И в неоднозначности самой постановки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.07.2010, 22:43:49 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
maytonА как "вложенность" тегов разбирать? Квотирование. HTML-документ рассматривается тупо как линейный поток тегов и "текстов". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.07.2010, 23:51:36 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
netwindmriadus, Чувааак, вот это http://sql.ru/forum/actualthread.aspx?tid=773396#9082718 - язык запросов. А у тебя курсовая по С и linux. О, интересно... Надо почитать) Прочти краткую лекцию по отличию твоего языка и моего? ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.07.2010, 23:55:21 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadus, краткая лекция : вместо написания очередной студенческой поделки, игнорируя практически весь опыт в этой области, мудрый японец решил объединить развитые технологии такие как perl, lwp, xpath, css для достижения синергетического эффекта в виде легкого доступа к данным на удобном скриптовом языке. если это курсовая, то все нормально и вопросов нет. Если ты на самом деле думаешь, что это окажется кому-то полезным на практике - ты ошибаешься. Язык там обычный xpath, дополненный css-селекторами. Полистай презентацию там ниже по теме. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 00:45:05 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadusmaytonА как "вложенность" тегов разбирать? Квотирование. HTML-документ рассматривается тупо как линейный поток тегов и "текстов". По тому, что выбрасывает на выходе tagstractor скорее всего невозможно будет восстановить семантику или AST документа. Почитай, как работают SAX-парсеры, какие они генерят типы событий. В данном конкретном случае SAX не применИм, но его интерфейс универсален и может быть использован при разборе любых документов где есть "фреймовая" структура. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 00:55:50 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
Есть такой вопрос. Как ведут себя HTML-парсеры, "встречающие" html-документ перед тем, как он преобразуется в XML и потом с ним будет работать XPath (то есть одобренные минздравом html-парсеры), когда встречают javascript с куском HTML внутри, например: Код: plaintext 1. 2. 3. 4. 5. Хватает ли им ума понять синтаксис javasctipt для того, чтобы в конструкции Код: plaintext ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 05:31:16 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
С самого начала не было желания строить иерархию документа, а работать с плоским потоком "html-объектов" из-за суровостей реального мира, в котором не всякий нормально рендерящийся html является валидным xml... Не хотелось возиться с автоматическим исправлением этих ошибок верстальщиков. И, вроде как, есть неоднозначности при их исправлении. В общем, я в это не полез и оставил "одно измерение". Ну и конечно тут большая доля just for fun. Несмотря на то, что в природе есть html-парсеры, сделать свой руки чесались всё равно, выражения поразбирать, порешать такие задачки... Просто кайф личный, никаких претензий на завоевание мира. Cпособ выдачи результатов, работа с переменными, добавление новых возможностей - вопрос не закрытый, меня самого не всё устраивает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 06:59:47 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadusЕсть такой вопрос. Как ведут себя HTML-парсеры, "встречающие" html-документ перед тем, как он преобразуется в XML... Хватает ли им ума понять синтаксис javasctipt для того, чтобы в конструкции Код: plaintext Тривиальности вроде SCRIPT, ессно, понимаются. Напр., у нашего парсера есть три базовых режима --- строго валидируемый XML, относительно чистый HTML, предположительно очень грязный HTML. Для борьбы с двумя последними разновидностями на борту есть таблица свойств различных HTML-ных тэгов (кто кого и как закрывает, что делать с содержимым и т.п.). Но такой парсер --- достаточно замысловатая штука, особенно если валидировать XML надо быстро и документы могут быть сколь угодно большими и к тому же составными. Больше полумегабайта сишных сорцов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 08:59:58 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
iv_an_rumriadusЕсть такой вопрос. Как ведут себя HTML-парсеры, "встречающие" html-документ перед тем, как он преобразуется в XML... Хватает ли им ума понять синтаксис javasctipt для того, чтобы в конструкции Код: plaintext Тривиальности вроде SCRIPT, ессно, понимаются. Напр., у нашего парсера есть три базовых режима --- строго валидируемый XML, относительно чистый HTML, предположительно очень грязный HTML. Для борьбы с двумя последними разновидностями на борту есть таблица свойств различных HTML-ных тэгов (кто кого и как закрывает, что делать с содержимым и т.п.). Но такой парсер --- достаточно замысловатая штука, особенно если валидировать XML надо быстро и документы могут быть сколь угодно большими и к тому же составными. Больше полумегабайта сишных сорцов. У-у-у (-; По поводу SCRIPT: встречая тег <SCRIPT ...>, ваш html-парсер подключает к делу процедуры, поторые "имеют представление" о JavaSctipt? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 09:34:40 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadusПо поводу SCRIPT: встречая тег <SCRIPT ...>, ваш html-парсер подключает к делу процедуры, поторые "имеют представление" о JavaSctipt? Технически --- нет проблем: получатель данных event-driven, в обработчики событий "открылся тэг" и "закрылся тэг" разработчик приложения может что угодно воткнуть, в т.ч. и какой-то свой интерпретатор ECMA-262. Но смыcл? Парсер-то внутри СУБД, а не в браузере. Сюрпри-и-из! Немногие страницы с яваскриптом сделают что-то осмысленное без доступа в сеть и без всех событий включая onLoad. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 16:41:51 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
iv_an_rumriadusПо поводу SCRIPT: встречая тег <SCRIPT ...>, ваш html-парсер подключает к делу процедуры, поторые "имеют представление" о JavaSctipt? Технически --- нет проблем: получатель данных event-driven, в обработчики событий "открылся тэг" и "закрылся тэг" разработчик приложения может что угодно воткнуть, в т.ч. и какой-то свой интерпретатор ECMA-262. Но смыcл? Парсер-то внутри СУБД, а не в браузере. Сюрпри-и-из! Немногие страницы с яваскриптом сделают что-то осмысленное без доступа в сеть и без всех событий включая onLoad. Согласен, немногие ява-скрипты что-то полезное сделают, живя в такой тюрьме, но я не про интерпретацию интересовался полную. А наверное только про "холодный" синтаксический разбор ява-скрипта для того, чтобы парсер смог дойти до конца скрипта, не споткнувшись о какие-то куски HTML внутри его... Чтобы всегда поток тегов был: "SCRIPT", "TEXT", "/SCRIPT", где "TEXT" - весь скрипт. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 20:30:37 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadus ...для того, чтобы парсер смог дойти до конца скрипта, не споткнувшись о какие-то куски HTML внутри его... Чтобы всегда поток тегов был: "SCRIPT", "TEXT", "/SCRIPT", где "TEXT" - весь скрипт. Хороший парсер всегда различает контекст разбора. Я пользовался каким-то Java-шным конвертером HTML-XML и кажется у меня не возникало проблем неправильной интерпретации скрипта. Или я о таких случаях не помню. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.08.2010, 20:39:12 |
|
||
|
У кого есть свободное время потестировать творение? Бинарь. Linux. Консоль. Data mining.
|
|||
|---|---|---|---|
|
#18+
mriadusдойти до конца скрипта, не споткнувшись о какие-то куски HTML внутри его... Чтобы всегда поток тегов был: "SCRIPT", "TEXT", "/SCRIPT", где "TEXT" - весь скрипт. Это делается прямо парсером, никакого внешнего кода не требуется. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.08.2010, 06:31:31 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=36769676&tid=1343544]: |
0ms |
get settings: |
7ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
39ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
48ms |
get tp. blocked users: |
1ms |
| others: | 203ms |
| total: | 322ms |

| 0 / 0 |
