|
|
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
...продолжение оффтопика, начатого в обсуждении Postgres в роли национальной СУБД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 21:43 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
FVMas покрывает здесь все наши потребности ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 21:55 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
Базист, не в бровь, а в глаз, но все-таки... Можно бриф "о чем эта СУБД вообще", ее ключевые фичи и, раз уж вы являетесь разрабом, пару камней в свой огород, это, зачастую, дает гораздо больший положительный эффект. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:03 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGiv_an_ruИз "чужого, но виртуозного" могу посоветовать services.data.gov/sparql как "правительственный" пример, kegg.bio2rdf.org/sparql и chebi.bio2rdf.org/sparql для биологов, linkedgeodata.org/sparql с геоданными, а ещё проще гуглить по словам из "умолчательной" страницы .../sparql .О, вот spatial data очень интересны! Только как с геоданными работать? Скажем, поиск ближайших в заданных окрестностях, притом если данные в разных системах координат?..С геоданными долгое время был "застой", по нескольким причинам. Во-первых, разные крупные активные пользователи требовали совершенно разную функциональность, но при этом одновременно просили обеспечить им совместимость друг с другом. Во-вторых, многим крупным поставщикам была нужна бОльшая, чем доступная ранее, масштабируемость. В третьих, объединение в одном запросе пространственной и семантической фильтрации --- большая исследовательская задача на стыке семантических и классических реляционных технологий, там есть малозаметные "снаружи", но все равно очень серьёзные проблемы построения плана исполнения. Сейчас я буду писать для Virtuoso что-то вроде постгресовой гисовской функциональности, но с заделами 1) на поддержку всех типов ESRI в будущем, 2) на поддержку 12-квадратных координат и 3) на opengl-friendly поиск с сортировкой по полю зрения. Для обмена, так уж повелось, используется только вэгээс. В доступных версиях Virtuoso есть только точки и bounding box-ы :| Ну и двухкоординатный индекс для этих боксов. MBGРасскажите, что у вас (и в SPARQL в общем) с поддержкой полнотекстового поиска?Виртуозовский Free Text Search :) Сейчас добавится индекс для regex. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:04 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
> В идеале - выкладывать для тестового железа результат стандартных тестов (архиватор, кодирование видео/звука, скорость работу эскулайт и т.п.). Тогда можно тест запустить на любом оборудовании/ОС и учесть поправочный коэффициент по стандартным тестам. Поправочных коэффициентов не бывает. Есть только два действительно надёжных способа выжать максимум. Можно после "авторского" прогона бенчмарки отправить результат разработчику, и если ему интересно, то дать логин и пусть настраивает подопытную машину сам. Либо "наоборот" --- пусть разработчик делает всё сам на своей машине, сообщает результат, и на какой-то срок оставляет машину доступной для желающих, а автор бенчмарки перед публикацией результата делает аудит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:20 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruВо-первых, разные крупные активные пользователи требовали совершенно разную функциональность, но при этом одновременно просили обеспечить им совместимость друг с другом. Во-вторых, многим крупным поставщикам была нужна бОльшая, чем доступная ранее, масштабируемость. В третьих, объединение в одном запросе пространственной и семантической фильтрации --- большая исследовательская задача на стыке семантических и классических реляционных технологий 1) А спецификация опенгис консорциума чем не устраивает? Ее все равно надо делать. 2) И впридачу поддержка распределенных данных, т.к. геоданные имеют такие объемы, что на одном сервере хранить и обрабатывать нереально (технически возможно метаинформацию хранить отдельно, но практически очень неудобно и приводит к ошибкам). 3) Так вот оно и интересно. iv_an_ruДля обмена, так уж повелось, используется только вэгээс. Где повелось? :) Опять же, WGS84 бывает в градусах и в метрах... Кстати, если уж у вас везде WGS84, то дистанцию на сфероиде ну просто грешно не реализовать ;) iv_an_ruMBGРасскажите, что у вас (и в SPARQL в общем) с поддержкой полнотекстового поиска?Виртуозовский Free Text Search :) Сейчас добавится индекс для regex. Вижу чистейший SQL - как это использовать в sparql? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:20 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruЕсть только два действительно надёжных способа выжать максимум. Можно после "авторского" прогона бенчмарки отправить результат разработчику, и если ему интересно, то дать логин и пусть настраивает подопытную машину сам. Либо "наоборот" --- пусть разработчик делает всё сам на своей машине, сообщает результат, и на какой-то срок оставляет машину доступной для желающих, а автор бенчмарки перед публикацией результата делает аудит. Ничего, хватит знания того, насколько отличается полученный вами результат от оптимального. Например, вы получили, что виртуозо вдвое быстрее эскулайт, а я настроил эскулайт вдесятеро быстрее вашего результата, значит, виртуозо мне и ставить смысла нет :D Все цифры придуманы для иллюстрации, разумеется. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:33 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGiv_an_ruВо-первых, разные крупные активные пользователи требовали совершенно разную функциональность, но при этом одновременно просили обеспечить им совместимость друг с другом. Во-вторых, многим крупным поставщикам была нужна бОльшая, чем доступная ранее, масштабируемость. В третьих, объединение в одном запросе пространственной и семантической фильтрации --- большая исследовательская задача на стыке семантических и классических реляционных технологий1) А спецификация опенгис консорциума чем не устраивает? Ее все равно надо делать. 2) И впридачу поддержка распределенных данных, т.к. геоданные имеют такие объемы, что на одном сервере хранить и обрабатывать нереально (технически возможно метаинформацию хранить отдельно, но практически очень неудобно и приводит к ошибкам). 3) Так вот оно и интересно.1) Меня всем устраивает, но речь-то про пользователей. 2) Это-то понятно. Там изначально векторное распараллеливание и поддержка кластера. 3) Тут мало быть интересным, надо ещё и обеспечить устойчивость всех компонент. Что такое выставить endpoint голым тухесом в Сеть? Это значит, что малолетние кулхакеры будут бомбардировать его мусорными запросами в надежде подвесить. MBGiv_an_ruДля обмена, так уж повелось, используется только вэгээс. Где повелось? :) Опять же, WGS84 бывает в градусах и в метрах... Кстати, если уж у вас везде WGS84, то дистанцию на сфероиде ну просто грешно не реализовать ;)Повелось у публикаторов. В основном градусы, но бывают и просто синтаксические ошибки :) И да, что такое хаверсинус мы знаем, даже "формулу жульнического хаверсинуса на эллипсоиде" знаем :) MBGiv_an_ruпропущено... Виртуозовский Free Text Search :) Сейчас добавится индекс для regex. Вижу чистейший SQL - как это использовать в sparql?так и писать --- FILTER (contains (?document, "pattern" ...)). У нас всё просто: SPARQL можно использовать везде, где синтаксис разрешает SQL-запрос или подзапрос, SQL-ные данные и процедуры доступны из SPARQL, в XSLT тоже можно вставлять хоть SPARQL хоть SQL, равно как и звать XSLT из них и т.п. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:36 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGiv_an_ruЕсть только два действительно надёжных способа выжать максимум. Можно после "авторского" прогона бенчмарки отправить результат разработчику, и если ему интересно, то дать логин и пусть настраивает подопытную машину сам. Либо "наоборот" --- пусть разработчик делает всё сам на своей машине, сообщает результат, и на какой-то срок оставляет машину доступной для желающих, а автор бенчмарки перед публикацией результата делает аудит.Ничего, хватит знания того, насколько отличается полученный вами результат от оптимального. Например, вы получили, что виртуозо вдвое быстрее эскулайт, а я настроил эскулайт вдесятеро быстрее вашего результата, значит, виртуозо мне и ставить смысла нет :D Все цифры придуманы для иллюстрации, разумеется.Для "домашнего" неофициального прогона проще всего скачать bsbm себе, прогнать, и если разница с ожидаемой скоростью менее чем двукратная, то и не греть голову :) Это не тот случай, когда двукратный разрыв означает покупку 200 серверов вместо 70 :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 22:41 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruИ да, что такое хаверсинус мы знаем, даже "формулу жульнического хаверсинуса на эллипсоиде" знаем :) Господь с вами, вы где учились? :) Нынче геодезию не знают и профильные специалисты, не говоря уж про ИТ :D Жульнический - это про укороченное разложение в ряд? iv_an_ruтак и писать --- FILTER (contains (?document, "pattern" ...)). У нас всё просто: SPARQL можно использовать везде, где синтаксис разрешает SQL-запрос или подзапрос, SQL-ные данные и процедуры доступны из SPARQL, в XSLT тоже можно вставлять хоть SPARQL хоть SQL, равно как и звать XSLT из них и т.п. Стандартный Filter в SPARQL - только по точному совпадению/регекспу. А у вас как со стеммингом/морфологией/стопсловами/синонимами? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 23:16 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruДля "домашнего" неофициального прогона проще всего скачать bsbm себе, прогнать, и если разница с ожидаемой скоростью менее чем двукратная, то и не греть голову :) Это не тот случай, когда двукратный разрыв означает покупку 200 серверов вместо 70 :) Мне лично хватило бы увидеть, во что "упирается" обработчик запроса при разных бэкендах - память/диски/процессор. Что же касается самих данных.. где бы найти внятное описание, как, например, написать схему N3 для логов вебсервера? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2011, 23:34 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGiv_an_ruИ да, что такое хаверсинус мы знаем, даже "формулу жульнического хаверсинуса на эллипсоиде" знаем :)Господь с вами, вы где учились? :) Нынче геодезию не знают и профильные специалисты, не говоря уж про ИТ :DМехмат НГУ. Но геодезию знаю в основном потому, что бегал за девочками из НИИГАиКа :) MBG Жульнический - это про укороченное разложение в ряд?Это мега-лень такая --- в формулу для правильной сферы в зависимости от расположения концов подсовываем разный диаметр Земли --- малую ось, по экватору или нечто среднее :) Для демок хватает, а баллистические ракеты пока никто наводить не пробовал. MBGiv_an_ruтак и писать --- FILTER (contains (?document, "pattern" ...)). У нас всё просто: SPARQL можно использовать везде, где синтаксис разрешает SQL-запрос или подзапрос, SQL-ные данные и процедуры доступны из SPARQL, в XSLT тоже можно вставлять хоть SPARQL хоть SQL, равно как и звать XSLT из них и т.п.Стандартный Filter в SPARQL - только по точному совпадению/регекспу. А у вас как со стеммингом/морфологией/стопсловами/синонимами?Есть возможность "втыкать" плагинами новые языки, но мало желающих эти самые плагины писать :) Язык "по умолчанию" знает категории символов UNICODE, поэтому умеет отличить слова из букв от разделителей и от тех иероглифов, которые каждый "сам себе однобуквенное слово", и умеет нормализовать эти слова по регистру --- вот этот язык народ в основном и юзает. Зато в языке запросов есть фразы, AND, OR, NEAR, AND NOT, и "слова без окончани*" . Ещё есть полнотекстовая индексация XML вместе с элементами и атрибутами и акселерация XPath таким полнотекстовым индексом. Ещё есть "подсветка аннотированных фраз". Скажем, если есть словарь всех заголовков страниц Википедии с соответствующими ссылками, то можно для данного (длинного) текста очень быстро найти все вхождения всех фраз из этого словаря. или из нескольких таких словарей. Можно, скажем, сделать прокси-сервер, распознающий проходящие через него документы и вставляющий дополнительные ссылки, скажем, рекламу или списки полезного чтива по темам :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 00:00 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruЯзык "по умолчанию" знает категории символов UNICODE, поэтому умеет отличить слова из букв от разделителей и от тех иероглифов, которые каждый "сам себе однобуквенное слово", и умеет нормализовать эти слова по регистру --- вот этот язык народ в основном и юзает. Это вообще-то токенайзер (с библиотекой ICU, вероятно). iv_an_ruЗато в языке запросов есть фразы, AND, OR, NEAR, AND NOT, и "слова без окончани*" . Ага, ясно, в эскулайт апстримовский полнотекстовый поиск аналогичен. Ну а при желании элементарно добавляется поддержка стемминга/стопслов и проч. iv_an_ruЕщё есть полнотекстовая индексация XML вместе с элементами и атрибутами и акселерация XPath таким полнотекстовым индексом. Токенайзер для xml это полезно, сам думал для эскулайт написать, но мне не надо, а just for fun не добрался. А как разбор xml делаете - зовете внешнюю либу или вручную? И в каком виде plaintext получаете (интересует в плане запросов с NEAR)? И ускорение запросов XPath - каким образом? iv_an_ruЕщё есть "подсветка аннотированных фраз". Скажем, если есть словарь всех заголовков страниц Википедии с соответствующими ссылками, то можно для данного (длинного) текста очень быстро найти все вхождения всех фраз из этого словаря. или из нескольких таких словарей. Можно, скажем, сделать прокси-сервер, распознающий проходящие через него документы и вставляющий дополнительные ссылки, скажем, рекламу или списки полезного чтива по темам :) Заинтриговали - как это сделать "очень быстро"? :) Со вхождениями слов алгоритмически понятно, но с фразами... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 11:08 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGiv_an_ruЯзык "по умолчанию" знает категории символов UNICODE, поэтому умеет отличить слова из букв от разделителей и от тех иероглифов, которые каждый "сам себе однобуквенное слово", и умеет нормализовать эти слова по регистру --- вот этот язык народ в основном и юзает. Это вообще-то токенайзер (с библиотекой ICU, вероятно).Самописка, с возможностью подгружать декларации всяких экзотических кодировок в фoрмате UCM. MBGкак разбор xml делаете - зовете внешнюю либу или вручную? И в каком виде plaintext получаете (интересует в плане запросов с NEAR)? И ускорение запросов XPath - каким образом?Есть свой валидирующий парсер XML (он же "выпрямляющий" парсер "кривого" HTML). Поскольку слова в полнотекстовом индексе хранятся с позициями, а элементы, атрибуты и слова в значениях атрибутов тоже хранятся как "слова", и тоже с позициями, для XPATH выражения можно построить "фильтрующий" полнотекстовый запрос, и поиск в таблице всех XML-документов, содержащих фрагменты указанного вида, начнётся с полнотекста. Далее, полнотекстовый поиск вернёт не только id документов-"кандидатов", но и позиции "интересных" слов, элементов и т.п., а в каждой вершине XML-ного дерева хранятся диапазоны позиций "слов", в этом дереве. Стало быть, "неподходящие" поддеревья можно очень быстро пропускать, не залезая вглубь. MBGiv_an_ruЕщё есть "подсветка аннотированных фраз". Скажем, если есть словарь всех заголовков страниц Википедии с соответствующими ссылками, то можно для данного (длинного) текста очень быстро найти все вхождения всех фраз из этого словаря. или из нескольких таких словарей. Можно, скажем, сделать прокси-сервер, распознающий проходящие через него документы и вставляющий дополнительные ссылки, скажем, рекламу или списки полезного чтива по темам :)Заинтриговали - как это сделать "очень быстро"? :) Со вхождениями слов алгоритмически понятно, но с фразами...Считаем контрольные суммы всех фраз текста, "просеиваем" через две битмаски, каждая из которых отвечает либо 0 ("нет, это точно не аннотированная фраза") либо 1 ("это аннотированная фраза или случайно модули сумм совпали"). Если две единички, что редко, то лезем в индекс. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 12:19 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruСчитаем контрольные суммы всех фраз текста, "просеиваем" через две битмаски, каждая из которых отвечает либо 0 ("нет, это точно не аннотированная фраза") либо 1 ("это аннотированная фраза или случайно модули сумм совпали"). Если две единички, что редко, то лезем в индекс. Не понял - если в тексте N токенов, то имеем N вариантов первой фразы (содержит от 1 до N токенов), N-1 вариант второй фразы (от 1 до N-1 токенов),.. И для каждого варианта чексумму считать... это же безумно медленно будет! Пример для текста из трех токенов "a b c": фраза 1 = a b c| a b|a фраза 2 = b c| b фраза 3 = c Для текста из миллиона токенов придется для первой фразы вычислить миллион чексум от полмиллиона токенов в среднем. А фраз тоже миллион - итого, нужно считать миллион раз по полмиллиона чексум от полмиллиона токенов в среднем. Ужас :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 12:51 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGiv_an_ruСчитаем контрольные суммы всех фраз текста, "просеиваем" через две битмаски, каждая из которых отвечает либо 0 ("нет, это точно не аннотированная фраза") либо 1 ("это аннотированная фраза или случайно модули сумм совпали"). Если две единички, что редко, то лезем в индекс.Не понял - если в тексте N токенов, то имеем N вариантов первой фразы (содержит от 1 до N токенов)Максимальная длина фразы в словаре алгоритму известна заранее ;) Так что имеем не N вариантов первой фразы (буква N --- большая), а m вариантов (буква m --- маленькая). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 13:08 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruМаксимальная длина фразы в словаре алгоритму известна заранее ;) Так что имеем не N вариантов первой фразы (буква N --- большая), а m вариантов (буква m --- маленькая). Понятно, что вряд ли вы когда столкнетесь с фразой в миллион токенов, но тем не менее подход с граблями. Потоковый токенайзер, сравнивающий токены текста со списком токенов сортированных искомых фраз, окажется куда как быстрее. Вероятно, даже оптимальным компромиссом может быть нахождение первого токена фразы и побайтовое сравнение с этого места со всей фразой (а если стопслова игнорировать, должно быть действительно очень быстро). Это будет N поисков по сортированному списку первых токенов фраз (просто, быстро и экономно по памяти) плюс строковые сравнения по числу найденных (от этой операции нам все равно не отвертеться, т.к. нужны точные совпадения) - и на миллионе токенов во фразе все отработает замечательно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 13:41 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBG, Он "потоковый", разумеется, никто список всех токенов в память не запихивает :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 14:04 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, Побайтово сравнивать кусок текста и фразу нельзя --- нормализация же, оосбенно если в языке указани игнорировать какие-нибудь умляуты да тильды. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 14:07 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ruПобайтово сравнивать кусок текста и фразу нельзя --- нормализация же, оосбенно если в языке указани игнорировать какие-нибудь умляуты да тильды. Имхо нормализацию юникода логично сделать один раз заранее, нежели при каждом сравнении. Что касается диакритических знаков - как-то странно их игнорировать при поиске заголовков: "Лень, матушка" и "Лёнь, матушка!" - это что, одно и то же? :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 14:55 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, Попробовал примеры запустить... кажется что-то хреново в мире RDF со спецификациями. Беру пример с http://www.w3.org/2000/10/swap/Primer и создаю файл test.ttl Код: plaintext 1. 2. В итоге получаю ошибку вида: Код: plaintext 1. 2. Я что-то не так делаю или на стандарты все болт забили? Если данные с удаленных ресурсов надо предварительно переделывать, теряется весь смысл. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 15:56 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBG, Вы взяли пример в синтаксисе N3, а грузите его как TTL (небольшое но популярное подмножество N3). Если нужен TTL, то Код: plaintext 1. 2. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 16:55 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, Благодарю за подсказку, почему-то в доках про определение типа контента по расширению не видел даже упоминаний. Сконвертировал лог веб-сервера в нижеуказанный формат: Код: plaintext 1. 2. 3. 4. 5. 6. И получил вот такой результат: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. То есть 160 Мб нужно для хранения 8 Мб исходных данных (!), полторы минуты заняла их загрузка и 14 секунд - выборка. Для сравнения, обычный grep в 300 раз быстрее и без предварительной подготовки данных: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. Боюсь и подумать, что получится, если попытаться выполнить более практичный запрос на реальных данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 19:10 |
|
||
|
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
|
|||
|---|---|---|---|
|
#18+
MBGСконвертировал лог веб-сервера в нижеуказанный формат: ... То есть 160 Мб нужно для хранения 8 Мб исходных данных (!), полторы минуты заняла их загрузка и 14 секунд - выборка. Для сравнения, обычный grep в 300 раз быстрее и без предварительной подготовки данных: ... Боюсь и подумать, что получится, если попытаться выполнить более практичный запрос на реальных данных.Ну так это проблемы не технологии как таковой, а конкретного программного продукта. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2011, 19:22 |
|
||
|
|

start [/forum/topic.php?fid=56&msg=37356775&tid=2015435]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
39ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
57ms |
get tp. blocked users: |
1ms |
| others: | 242ms |
| total: | 376ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...