powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
94 сообщений из 94, показаны все 4 страниц
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356720
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...продолжение оффтопика, начатого в обсуждении Postgres в роли национальной СУБД.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356736
Bazist
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
FVMas покрывает здесь все наши потребности
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356742
Фотография Warstone
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Базист, не в бровь, а в глаз, но все-таки... Можно бриф "о чем эта СУБД вообще", ее ключевые фичи и, раз уж вы являетесь разрабом, пару камней в свой огород, это, зачастую, дает гораздо больший положительный эффект.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356744
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruИз "чужого, но виртуозного" могу посоветовать services.data.gov/sparql как "правительственный" пример, kegg.bio2rdf.org/sparql и chebi.bio2rdf.org/sparql для биологов, linkedgeodata.org/sparql с геоданными, а ещё проще гуглить по словам из "умолчательной" страницы .../sparql .О, вот spatial data очень интересны! Только как с геоданными работать? Скажем, поиск ближайших в заданных окрестностях, притом если данные в разных системах координат?..С геоданными долгое время был "застой", по нескольким причинам. Во-первых, разные крупные активные пользователи требовали совершенно разную функциональность, но при этом одновременно просили обеспечить им совместимость друг с другом. Во-вторых, многим крупным поставщикам была нужна бОльшая, чем доступная ранее, масштабируемость. В третьих, объединение в одном запросе пространственной и семантической фильтрации --- большая исследовательская задача на стыке семантических и классических реляционных технологий, там есть малозаметные "снаружи", но все равно очень серьёзные проблемы построения плана исполнения.
Сейчас я буду писать для Virtuoso что-то вроде постгресовой гисовской функциональности, но с заделами 1) на поддержку всех типов ESRI в будущем, 2) на поддержку 12-квадратных координат и 3) на opengl-friendly поиск с сортировкой по полю зрения.

Для обмена, так уж повелось, используется только вэгээс.

В доступных версиях Virtuoso есть только точки и bounding box-ы :| Ну и двухкоординатный индекс для этих боксов.

MBGРасскажите, что у вас (и в SPARQL в общем) с поддержкой полнотекстового поиска?Виртуозовский Free Text Search :) Сейчас добавится индекс для regex.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356763
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
> В идеале - выкладывать для тестового железа результат стандартных тестов (архиватор, кодирование видео/звука, скорость работу эскулайт и т.п.). Тогда можно тест запустить на любом оборудовании/ОС и учесть поправочный коэффициент по стандартным тестам.

Поправочных коэффициентов не бывает. Есть только два действительно надёжных способа выжать максимум. Можно после "авторского" прогона бенчмарки отправить результат разработчику, и если ему интересно, то дать логин и пусть настраивает подопытную машину сам. Либо "наоборот" --- пусть разработчик делает всё сам на своей машине, сообщает результат, и на какой-то срок оставляет машину доступной для желающих, а автор бенчмарки перед публикацией результата делает аудит.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356764
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruВо-первых, разные крупные активные пользователи требовали совершенно разную функциональность, но при этом одновременно просили обеспечить им совместимость друг с другом. Во-вторых, многим крупным поставщикам была нужна бОльшая, чем доступная ранее, масштабируемость. В третьих, объединение в одном запросе пространственной и семантической фильтрации --- большая исследовательская задача на стыке семантических и классических реляционных технологий

1) А спецификация опенгис консорциума чем не устраивает? Ее все равно надо делать.
2) И впридачу поддержка распределенных данных, т.к. геоданные имеют такие объемы, что на одном сервере хранить и обрабатывать нереально (технически возможно метаинформацию хранить отдельно, но практически очень неудобно и приводит к ошибкам).
3) Так вот оно и интересно.

iv_an_ruДля обмена, так уж повелось, используется только вэгээс.
Где повелось? :) Опять же, WGS84 бывает в градусах и в метрах... Кстати, если уж у вас везде WGS84, то дистанцию на сфероиде ну просто грешно не реализовать ;)

iv_an_ruMBGРасскажите, что у вас (и в SPARQL в общем) с поддержкой полнотекстового поиска?Виртуозовский Free Text Search :) Сейчас добавится индекс для regex.

Вижу чистейший SQL - как это использовать в sparql?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356775
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruЕсть только два действительно надёжных способа выжать максимум. Можно после "авторского" прогона бенчмарки отправить результат разработчику, и если ему интересно, то дать логин и пусть настраивает подопытную машину сам. Либо "наоборот" --- пусть разработчик делает всё сам на своей машине, сообщает результат, и на какой-то срок оставляет машину доступной для желающих, а автор бенчмарки перед публикацией результата делает аудит.

Ничего, хватит знания того, насколько отличается полученный вами результат от оптимального. Например, вы получили, что виртуозо вдвое быстрее эскулайт, а я настроил эскулайт вдесятеро быстрее вашего результата, значит, виртуозо мне и ставить смысла нет :D Все цифры придуманы для иллюстрации, разумеется.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356776
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruВо-первых, разные крупные активные пользователи требовали совершенно разную функциональность, но при этом одновременно просили обеспечить им совместимость друг с другом. Во-вторых, многим крупным поставщикам была нужна бОльшая, чем доступная ранее, масштабируемость. В третьих, объединение в одном запросе пространственной и семантической фильтрации --- большая исследовательская задача на стыке семантических и классических реляционных технологий1) А спецификация опенгис консорциума чем не устраивает? Ее все равно надо делать.
2) И впридачу поддержка распределенных данных, т.к. геоданные имеют такие объемы, что на одном сервере хранить и обрабатывать нереально (технически возможно метаинформацию хранить отдельно, но практически очень неудобно и приводит к ошибкам).
3) Так вот оно и интересно.1) Меня всем устраивает, но речь-то про пользователей.
2) Это-то понятно. Там изначально векторное распараллеливание и поддержка кластера.
3) Тут мало быть интересным, надо ещё и обеспечить устойчивость всех компонент. Что такое выставить endpoint голым тухесом в Сеть? Это значит, что малолетние кулхакеры будут бомбардировать его мусорными запросами в надежде подвесить.

MBGiv_an_ruДля обмена, так уж повелось, используется только вэгээс.
Где повелось? :) Опять же, WGS84 бывает в градусах и в метрах... Кстати, если уж у вас везде WGS84, то дистанцию на сфероиде ну просто грешно не реализовать ;)Повелось у публикаторов. В основном градусы, но бывают и просто синтаксические ошибки :) И да, что такое хаверсинус мы знаем, даже "формулу жульнического хаверсинуса на эллипсоиде" знаем :)

MBGiv_an_ruпропущено...
Виртуозовский Free Text Search :) Сейчас добавится индекс для regex.
Вижу чистейший SQL - как это использовать в sparql?так и писать --- FILTER (contains (?document, "pattern" ...)). У нас всё просто: SPARQL можно использовать везде, где синтаксис разрешает SQL-запрос или подзапрос, SQL-ные данные и процедуры доступны из SPARQL, в XSLT тоже можно вставлять хоть SPARQL хоть SQL, равно как и звать XSLT из них и т.п.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356785
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruЕсть только два действительно надёжных способа выжать максимум. Можно после "авторского" прогона бенчмарки отправить результат разработчику, и если ему интересно, то дать логин и пусть настраивает подопытную машину сам. Либо "наоборот" --- пусть разработчик делает всё сам на своей машине, сообщает результат, и на какой-то срок оставляет машину доступной для желающих, а автор бенчмарки перед публикацией результата делает аудит.Ничего, хватит знания того, насколько отличается полученный вами результат от оптимального. Например, вы получили, что виртуозо вдвое быстрее эскулайт, а я настроил эскулайт вдесятеро быстрее вашего результата, значит, виртуозо мне и ставить смысла нет :D Все цифры придуманы для иллюстрации, разумеется.Для "домашнего" неофициального прогона проще всего скачать bsbm себе, прогнать, и если разница с ожидаемой скоростью менее чем двукратная, то и не греть голову :) Это не тот случай, когда двукратный разрыв означает покупку 200 серверов вместо 70 :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356803
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruИ да, что такое хаверсинус мы знаем, даже "формулу жульнического хаверсинуса на эллипсоиде" знаем :)

Господь с вами, вы где учились? :) Нынче геодезию не знают и профильные специалисты, не говоря уж про ИТ :D Жульнический - это про укороченное разложение в ряд?

iv_an_ruтак и писать --- FILTER (contains (?document, "pattern" ...)). У нас всё просто: SPARQL можно использовать везде, где синтаксис разрешает SQL-запрос или подзапрос, SQL-ные данные и процедуры доступны из SPARQL, в XSLT тоже можно вставлять хоть SPARQL хоть SQL, равно как и звать XSLT из них и т.п.

Стандартный Filter в SPARQL - только по точному совпадению/регекспу. А у вас как со стеммингом/морфологией/стопсловами/синонимами?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356813
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruДля "домашнего" неофициального прогона проще всего скачать bsbm себе, прогнать, и если разница с ожидаемой скоростью менее чем двукратная, то и не греть голову :) Это не тот случай, когда двукратный разрыв означает покупку 200 серверов вместо 70 :)

Мне лично хватило бы увидеть, во что "упирается" обработчик запроса при разных бэкендах - память/диски/процессор. Что же касается самих данных.. где бы найти внятное описание, как, например, написать схему N3 для логов вебсервера?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37356829
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruИ да, что такое хаверсинус мы знаем, даже "формулу жульнического хаверсинуса на эллипсоиде" знаем :)Господь с вами, вы где учились? :) Нынче геодезию не знают и профильные специалисты, не говоря уж про ИТ :DМехмат НГУ. Но геодезию знаю в основном потому, что бегал за девочками из НИИГАиКа :)
MBG Жульнический - это про укороченное разложение в ряд?Это мега-лень такая --- в формулу для правильной сферы в зависимости от расположения концов подсовываем разный диаметр Земли --- малую ось, по экватору или нечто среднее :) Для демок хватает, а баллистические ракеты пока никто наводить не пробовал.
MBGiv_an_ruтак и писать --- FILTER (contains (?document, "pattern" ...)). У нас всё просто: SPARQL можно использовать везде, где синтаксис разрешает SQL-запрос или подзапрос, SQL-ные данные и процедуры доступны из SPARQL, в XSLT тоже можно вставлять хоть SPARQL хоть SQL, равно как и звать XSLT из них и т.п.Стандартный Filter в SPARQL - только по точному совпадению/регекспу. А у вас как со стеммингом/морфологией/стопсловами/синонимами?Есть возможность "втыкать" плагинами новые языки, но мало желающих эти самые плагины писать :) Язык "по умолчанию" знает категории символов UNICODE, поэтому умеет отличить слова из букв от разделителей и от тех иероглифов, которые каждый "сам себе однобуквенное слово", и умеет нормализовать эти слова по регистру --- вот этот язык народ в основном и юзает. Зато в языке запросов есть фразы, AND, OR, NEAR, AND NOT, и "слова без окончани*" .
Ещё есть полнотекстовая индексация XML вместе с элементами и атрибутами и акселерация XPath таким полнотекстовым индексом.
Ещё есть "подсветка аннотированных фраз". Скажем, если есть словарь всех заголовков страниц Википедии с соответствующими ссылками, то можно для данного (длинного) текста очень быстро найти все вхождения всех фраз из этого словаря. или из нескольких таких словарей. Можно, скажем, сделать прокси-сервер, распознающий проходящие через него документы и вставляющий дополнительные ссылки, скажем, рекламу или списки полезного чтива по темам :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357204
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruЯзык "по умолчанию" знает категории символов UNICODE, поэтому умеет отличить слова из букв от разделителей и от тех иероглифов, которые каждый "сам себе однобуквенное слово", и умеет нормализовать эти слова по регистру --- вот этот язык народ в основном и юзает.


Это вообще-то токенайзер (с библиотекой ICU, вероятно).

iv_an_ruЗато в языке запросов есть фразы, AND, OR, NEAR, AND NOT, и "слова без окончани*" .


Ага, ясно, в эскулайт апстримовский полнотекстовый поиск аналогичен. Ну а при желании элементарно добавляется поддержка стемминга/стопслов и проч.

iv_an_ruЕщё есть полнотекстовая индексация XML вместе с элементами и атрибутами и акселерация XPath таким полнотекстовым индексом.

Токенайзер для xml это полезно, сам думал для эскулайт написать, но мне не надо, а just for fun не добрался. А как разбор xml делаете - зовете внешнюю либу или вручную? И в каком виде plaintext получаете (интересует в плане запросов с NEAR)? И ускорение запросов XPath - каким образом?

iv_an_ruЕщё есть "подсветка аннотированных фраз". Скажем, если есть словарь всех заголовков страниц Википедии с соответствующими ссылками, то можно для данного (длинного) текста очень быстро найти все вхождения всех фраз из этого словаря. или из нескольких таких словарей. Можно, скажем, сделать прокси-сервер, распознающий проходящие через него документы и вставляющий дополнительные ссылки, скажем, рекламу или списки полезного чтива по темам :)

Заинтриговали - как это сделать "очень быстро"? :) Со вхождениями слов алгоритмически понятно, но с фразами...
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357419
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruЯзык "по умолчанию" знает категории символов UNICODE, поэтому умеет отличить слова из букв от разделителей и от тех иероглифов, которые каждый "сам себе однобуквенное слово", и умеет нормализовать эти слова по регистру --- вот этот язык народ в основном и юзает.
Это вообще-то токенайзер (с библиотекой ICU, вероятно).Самописка, с возможностью подгружать декларации всяких экзотических кодировок в фoрмате UCM.
MBGкак разбор xml делаете - зовете внешнюю либу или вручную? И в каком виде plaintext получаете (интересует в плане запросов с NEAR)? И ускорение запросов XPath - каким образом?Есть свой валидирующий парсер XML (он же "выпрямляющий" парсер "кривого" HTML). Поскольку слова в полнотекстовом индексе хранятся с позициями, а элементы, атрибуты и слова в значениях атрибутов тоже хранятся как "слова", и тоже с позициями, для XPATH выражения можно построить "фильтрующий" полнотекстовый запрос, и поиск в таблице всех XML-документов, содержащих фрагменты указанного вида, начнётся с полнотекста. Далее, полнотекстовый поиск вернёт не только id документов-"кандидатов", но и позиции "интересных" слов, элементов и т.п., а в каждой вершине XML-ного дерева хранятся диапазоны позиций "слов", в этом дереве. Стало быть, "неподходящие" поддеревья можно очень быстро пропускать, не залезая вглубь.
MBGiv_an_ruЕщё есть "подсветка аннотированных фраз". Скажем, если есть словарь всех заголовков страниц Википедии с соответствующими ссылками, то можно для данного (длинного) текста очень быстро найти все вхождения всех фраз из этого словаря. или из нескольких таких словарей. Можно, скажем, сделать прокси-сервер, распознающий проходящие через него документы и вставляющий дополнительные ссылки, скажем, рекламу или списки полезного чтива по темам :)Заинтриговали - как это сделать "очень быстро"? :) Со вхождениями слов алгоритмически понятно, но с фразами...Считаем контрольные суммы всех фраз текста, "просеиваем" через две битмаски, каждая из которых отвечает либо 0 ("нет, это точно не аннотированная фраза") либо 1 ("это аннотированная фраза или случайно модули сумм совпали"). Если две единички, что редко, то лезем в индекс.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357513
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruСчитаем контрольные суммы всех фраз текста, "просеиваем" через две битмаски, каждая из которых отвечает либо 0 ("нет, это точно не аннотированная фраза") либо 1 ("это аннотированная фраза или случайно модули сумм совпали"). Если две единички, что редко, то лезем в индекс.

Не понял - если в тексте N токенов, то имеем N вариантов первой фразы (содержит от 1 до N токенов), N-1 вариант второй фразы (от 1 до N-1 токенов),.. И для каждого варианта чексумму считать... это же безумно медленно будет!

Пример для текста из трех токенов "a b c":
фраза 1 = a b c| a b|a
фраза 2 = b c| b
фраза 3 = c

Для текста из миллиона токенов придется для первой фразы вычислить миллион чексум от полмиллиона токенов в среднем. А фраз тоже миллион - итого, нужно считать миллион раз по полмиллиона чексум от полмиллиона токенов в среднем. Ужас :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357576
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruСчитаем контрольные суммы всех фраз текста, "просеиваем" через две битмаски, каждая из которых отвечает либо 0 ("нет, это точно не аннотированная фраза") либо 1 ("это аннотированная фраза или случайно модули сумм совпали"). Если две единички, что редко, то лезем в индекс.Не понял - если в тексте N токенов, то имеем N вариантов первой фразы (содержит от 1 до N токенов)Максимальная длина фразы в словаре алгоритму известна заранее ;) Так что имеем не N вариантов первой фразы (буква N --- большая), а m вариантов (буква m --- маленькая).
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357680
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruМаксимальная длина фразы в словаре алгоритму известна заранее ;) Так что имеем не N вариантов первой фразы (буква N --- большая), а m вариантов (буква m --- маленькая).

Понятно, что вряд ли вы когда столкнетесь с фразой в миллион токенов, но тем не менее подход с граблями. Потоковый токенайзер, сравнивающий токены текста со списком токенов сортированных искомых фраз, окажется куда как быстрее. Вероятно, даже оптимальным компромиссом может быть нахождение первого токена фразы и побайтовое сравнение с этого места со всей фразой (а если стопслова игнорировать, должно быть действительно очень быстро). Это будет N поисков по сортированному списку первых токенов фраз (просто, быстро и экономно по памяти) плюс строковые сравнения по числу найденных (от этой операции нам все равно не отвертеться, т.к. нужны точные совпадения) - и на миллионе токенов во фразе все отработает замечательно.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357744
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Он "потоковый", разумеется, никто список всех токенов в память не запихивает :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357754
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ru,

Побайтово сравнивать кусок текста и фразу нельзя --- нормализация же, оосбенно если в языке указани игнорировать какие-нибудь умляуты да тильды.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37357868
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruПобайтово сравнивать кусок текста и фразу нельзя --- нормализация же, оосбенно если в языке указани игнорировать какие-нибудь умляуты да тильды.

Имхо нормализацию юникода логично сделать один раз заранее, нежели при каждом сравнении. Что касается диакритических знаков - как-то странно их игнорировать при поиске заголовков: "Лень, матушка" и "Лёнь, матушка!" - это что, одно и то же? :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358012
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Попробовал примеры запустить... кажется что-то хреново в мире RDF со спецификациями. Беру пример с http://www.w3.org/2000/10/swap/Primer и создаю файл test.ttl
Код: plaintext
1.
2.
  [ <#name> "Pat"; <#age>  24 ;  <#eyecolor> "blue"  ].
  [ <#name> "Al" ; <#age>   3 ;  <#eyecolor> "green" ].
  [ <#name> "Jo" ; <#age>   5 ;  <#eyecolor> "green" ].

В итоге получаю ошибку вида:

Код: plaintext
1.
2.
$ roqet -qi sparql test.sparql -D test.ttl
URI file:///tmp/test.ttl: 1  raptor error - syntax error

Я что-то не так делаю или на стандарты все болт забили? Если данные с удаленных ресурсов надо предварительно переделывать, теряется весь смысл.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358119
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Вы взяли пример в синтаксисе N3, а грузите его как TTL (небольшое но популярное подмножество N3).
Если нужен TTL, то

Код: plaintext
1.
2.
 []  <#name> "Pat"; <#age> 24;  <#eyecolor> "blue" .
 []  <#name> "Al" ; <#age>  3;  <#eyecolor> "green" .
 []  <#name> "Jo" ; <#age>  5;  <#eyecolor> "green" .
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358331
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Благодарю за подсказку, почему-то в доках про определение типа контента по расширению не видел даже упоминаний.

Сконвертировал лог веб-сервера в нижеуказанный формат:
Код: plaintext
1.
2.
3.
4.
5.
6.
@prefix : <http://mobigroup.ru/ 2011 /ttl/example#> .
[] :host "localhost"; :prot "http"; :code  503 ; :length  12731 ;
 :url ""; :type ""; :version "" .
[] :host "localhost"; :prot "https"; :code  503 ; :length  12731 ;
 :url "/"; :type "GET"; :version "HTTP/1.1" .
...

И получил вот такой результат:

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
$ wc -l test.ttl 
 52593  test.ttl

$ time rdfproc test.db parse test.ttl turtle -n
rdfproc: Parsing URI file:///tmp/test.ttl with turtle parser

real	1m35.248s
user	0m42.927s
sys	0m7.116s

$ stat --format="%n %s" test.db*
test.db-po2s.db  21569536 
test.db-so2p.db  79216640 
test.db-sp2o.db  62119936 

$ time rdfproc test.db query sparql - '
PREFIX : <http://mobigroup.ru/2011/ttl/example#>
SELECT  ?code ?url ?length 
WHERE   { ?x :code ?code . FILTER (?code=503) . ?x :url ?url . ?x :length ?length }
'>log
rdfproc: Query returned bindings results:
rdfproc: Query returned  1457  results

real	0m13.773s
user	0m13.569s
sys	0m0.132s

То есть 160 Мб нужно для хранения 8 Мб исходных данных (!), полторы минуты заняла их загрузка и 14 секунд - выборка. Для сравнения, обычный grep в 300 раз быстрее и без предварительной подготовки данных:

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
$ time grep ":code 503;" test.ttl>/dev/null

real	0m0.046s
user	0m0.040s
sys	0m0.008s

$ grep ":code 503;" test.ttl|wc -l
 1457 

Боюсь и подумать, что получится, если попытаться выполнить более практичный запрос на реальных данных.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358342
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGСконвертировал лог веб-сервера в нижеуказанный формат:
...
То есть 160 Мб нужно для хранения 8 Мб исходных данных (!), полторы минуты заняла их загрузка и 14 секунд - выборка. Для сравнения, обычный grep в 300 раз быстрее и без предварительной подготовки данных:
...
Боюсь и подумать, что получится, если попытаться выполнить более практичный запрос на реальных данных.Ну так это проблемы не технологии как таковой, а конкретного программного продукта.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358358
Метод Майорова
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ru,
... обычный grep в 300 раз быстрее ...
.

Нада не так, а вот так


...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358413
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruНу так это проблемы не технологии как таковой, а конкретного программного продукта.

Вроде как референсная реализация от авторов стандарта. Но вот глянул код ихнего rdf_storage_sqlite.c, впечатлился...

Не скажете - есть еще какие опенсорц тулзы для работы с RDF? Чтобы без vendor-lock.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358422
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Virtuoso Open Source ;)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358428
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

Virtuoso Open Source ;)

Если не затруднит, покажите, как мой пример с загрузкой данных и запросов будет выглядеть в виртуозо (из консоли)... и какие пакеты поставить (у меня дебиан стэйбл+тестинг 32 бит).

Пока что малость подправил редмондовский бэкенд к эскулайт, так он, зараза, новым gcc собираться не хочет :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358438
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

У меня один дебиан только под рукой, но он ленни. http://packages.debian.org/ru/sid/virtuoso-opensource говорит, что хватит virtuoso-opensource , ещё полезными будут virtuoso-vad-tutorial , virtuoso-vad-isparql , virtuoso-vad-conductor . Вместо virtuoso-vad-doc проще использовать гугл с запросами "virtuoso xxx", "virtuoso function xxx" и т.п.

Для работы вам понядобится поставляемый вместе с виртуозой клиент isql, либо conductor в роли веб-клиента (там есть страничка ISQL).
Что немножко противно, в системе запросто может быть несколько утилит с названием isql, нужная вам лежит в одной директории с virtuoso , проверьте с which isql, что у вас будет вызываться, если вы не укажете путь :)

Для загрузки TTL используйте, например, DB.DBA.TTLP_MT ( http://docs.openlinksw.com/virtuoso/fn_ttlp_mt.html )
Чтобы выполнить SPARQL - запрос в SQL-ной консоли, поставьте перед ним ключевое слово SPARQL .
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358468
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Ставил так:
Код: plaintext
sudo aptitude install virtuoso-opensource virtuoso-vad-isparql

У меня вот такие клиенты консольные оказались:
Код: plaintext
1.
$ isql
isql-vt   isqlw-vt

Не стал с ними разбираться, загрузил и выполнил из веб-консоли - быстро, мне понравилось :) Для подключения сторонних приложений надо что-то создавать или есть некий URL по умолчанию?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358490
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Приложения на основе Virtuoso обычно поставляются в формате VAD (Virtuoso Application Distribution), выглядят как файлы с расширением .vad (или пакеты с -vad в имени) . Самый простой способ установки --- скопировать в рабочую директорию сервера и использовать DB.DBA.VAD_INSTALL (filename.vad) , или поставить conductor и там будет аж специальная страничка для устанавливания VAD-ов. Можно начать с tutorial vad, хотя там много черезчур заумных примеров, для запуска которых нужно много всяких дополнительных пакетов и т.п. СУБД всё-таки изначально миддлварная, и большая часть примеров на тему как скрестить ужа с ежом. Поэтому прежде чем разбираться с примером, посмотрите, что должно стоять перед тем, как его пробовать. Если там написано "заведите себе ужа и ежа", а готового ужа у вас нет, то лучше посмотреть другой пример :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358501
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Свежий повод похвастаться: http://blog.sindice.com/2011/06/14/sindice-ltd-established-his-12-billion-triples-sparql-endpoint/
Sindice --- "поисковик для роботов", он индексирует знания, выделенные из разнообразных документов, нарытых в сети.
Полученная база знаний используется в основном приложениями, а не людьми, зато с прикольными результатами.
Текущий размер --- порядка 12 гигафактов.
Теперь они тоже пересаживаются на Виртуозу :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358535
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruТекущий размер --- порядка 12 гигафактов.
Теперь они тоже пересаживаются на Виртуозу :)

На которую - открытую или закрытую?

Да, пока не до расширений - думаю о подготовке самих данных. Скажем, сбор статистики с коллекторов биллинга, логов с вебсерверов, экспорт результатов аналитики (мерчендайзинг, документооборот, etc.) Не скажете, в каком корпоративном ПО (и не только) есть поддержка RDF? А то, например, с Oracle Siebel CRM интегрироваться приходится через email и это совсем не радует (там еще и rfc все напропалую нарушаются...). И если где-то до 100 мегафактов прикрутить шуструю поддержку в эскулайт, вопрос сбора данных для меня решится (на хостах-коллекторах попроще надо, без клиентсерверов и без администрирования), а там посмотрим, чем анализировать - клиентам могу и виртуозу рекомендовать, если и дальнейшие тесты покажут ее на высоте (ежели клиенты смогут сами отчеты дописывать, мне же лучше, разумеется).

Где-то можно найти требования к API бэкендов хранения? Чтобы разные клиенты (виртуоза и не только) могли подцепляться.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358569
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruТекущий размер --- порядка 12 гигафактов.
Теперь они тоже пересаживаются на Виртуозу :)На которую - открытую или закрытую?На cluster edition. Для одиночной машины там было бы слишком много клиентов, к тому же там очень-очень большой кэш не-RDF-ных ресурсов.

MBGДа, пока не до расширений - думаю о подготовке самих данных. Скажем, сбор статистики с коллекторов биллинга, логов с вебсерверов, экспорт результатов аналитики (мерчендайзинг, документооборот, etc.) Не скажете, в каком корпоративном ПО (и не только) есть поддержка RDF? В любом, где есть нормальная генерация текстовых или HTML-ных отчётов. Если можно сделать текст, то можно сделать и TTL, если уже генерятся HTML, то их легко доработать до HTML+RDFa 1.1 .[/quot] Если дорабатывать нельзя, но данные всё же попадают в отчёты, то в virtuoso есть RDF sponger, для которого можно дописывать RDF mappers , чем народ и развлекается. Ну или выдёргивать данные прямо из имеющихся таблиц имеющихся серверов --- тогда уж платной виртуозой с виртуальной схемой.

MBGГде-то можно найти требования к API бэкендов хранения? Чтобы разные клиенты (виртуоза и не только) могли подцепляться.API бэкендов хранения чего именно?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358574
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruAPI бэкендов хранения чего именно?

Триплетов. В уже упоминавшемся rdf_storage_sqlite.c схема генерится _почти_ адекватная (есть нюанс - за неимением сжатия индексов в эскулайт надо короткий хэш вместо текста индексировать), есть ли какой стандарт на операции добавления/поиска фактов?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358580
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruAPI бэкендов хранения чего именно?

Триплетов. В уже упоминавшемся rdf_storage_sqlite.c схема генерится _почти_ адекватная (есть нюанс - за неимением сжатия индексов в эскулайт надо короткий хэш вместо текста индексировать), есть ли какой стандарт на операции добавления/поиска фактов?
Для поиска --- SPARQL, для обновлений --- SPARQL/Update.
Для массовой загрузки выгрузки, т.е. целыми графами, сейчас дополнительно сочиняется "тупой" SPARQL Graph Update Protocol.

Кстати, готовится к выходу GeoSPARQL :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37358589
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruДля поиска --- SPARQL, для обновлений --- SPARQL/Update.
Для массовой загрузки выгрузки, т.е. целыми графами, сейчас дополнительно сочиняется "тупой" SPARQL Graph Update Protocol.

Хм, это явно лишку для бэкенда. Мы же не требуем от файловой системы подержки HTTP :)

iv_an_ruКстати, готовится к выходу GeoSPARQL :)

Здорово, может наконец получим _работающий_ стандарт. Забодали уже WMS/WMF, WCS и прочие... а реально используются гугловский KML да гарминовский GPX, а все остальное который десяток лет в шейпах :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359620
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Кажется, сломал виртуозу (Version: 06.01.3127 Build: May 28 2011):

40005SR325: Transaction aborted because it's log after image size went above the limit in v:vscx "navbar1" (render)

Пытался удалить граф http://localhost:8890/DAV
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359630
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Она что, действительно упала при этом?
Если граф большой, то Tips and Tricks: How can I delete graphs containing large numbers of triples from the Virtuoso Quad Store?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359662
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

Она что, действительно упала при этом?
Если граф большой, то Tips and Tricks: How can I delete graphs containing large numbers of triples from the Virtuoso Quad Store?

Через веб-интерфейс не видно, упала ли, но удалить тестовые данные не могу. Очистку графа не делает:

Код: plaintext
1.
2.
3.
 42000  Error SR186: No permission to execute procedure DB.DBA.SPARUL_CLEAR.

SPARQL query:
clear graph 

Удалил виртуозу, директорию виртуозы в /var/lib, после установки старые данные по-прежнему показывает. Это не виртуозо, а партизано :D
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359683
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

grant SPARQL_UPDATE to "SPARQL"
либо зайдите как dba или как кто-то, уже находящийся в группе SPARQL_UPDATE
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359685
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGЭто не виртуозо, а партизано :DЭто "D" из "ACID" ;)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359706
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

grant SPARQL_UPDATE to "SPARQL"
либо зайдите как dba или как кто-то, уже находящийся в группе SPARQL_UPDATE

"logged in as dba". По умолчанию всего-то два аккаунта и создается. А как ручками снести все нафиг?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359714
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruMBG,

grant SPARQL_UPDATE to "SPARQL"
либо зайдите как dba или как кто-то, уже находящийся в группе SPARQL_UPDATE

"logged in as dba". По умолчанию всего-то два аккаунта и создается. А как ручками снести все нафиг?
DB.DBA.RDF_GLOBAL_RESET() --- вот уж всем нафигам нафиг.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359777
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruDB.DBA.RDF_GLOBAL_RESET() --- вот уж всем нафигам нафиг.

Да, это работает, ура :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359870
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Не работает FILTER (?code>"502") и FILTER (?code>502), если при загрузке число указано в кавычках. А если для чисел кавычки убрать, отказывается грузить как некорректные данные (наверное, на поле юникстайм ругается).
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359877
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Если хочется хранить значения именно как строки, а сравнивать именно как целые, то, может, попробовать
FILTER (xsd:integer(?code) > 502)
?

Хотя лучше, конечно, хранить числа в виде чисел, а не в виде строк ;)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359900
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

А что в данном контексте есть "числа" - integer или wide integer? А если это, например, телефонный номер 003?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359909
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

целые в Виртуозе --- 64-битные. Если надо сохранить и незначащие нули, либо различать 12.3e0 и 1.23e1 --- храните строки, но тогда разумно сделать "рядышком" ещё один предикат, который будет хранить число, для поиска по диапазонам.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359917
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

целые в Виртуозе --- 64-битные. Если надо сохранить и незначащие нули, либо различать 12.3e0 и 1.23e1 --- храните строки, но тогда разумно сделать "рядышком" ещё один предикат, который будет хранить число, для поиска по диапазонам.

А что мешает динамическую типизацию сделать? Скажем, загружу я в виртуозу телефонный справочник, так подавляющее множество номеров окажется числами, но некоторые - строками и по ним поиск работать не будет, как это юзерам объяснять, интересно...
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359928
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruMBG,

целые в Виртуозе --- 64-битные. Если надо сохранить и незначащие нули, либо различать 12.3e0 и 1.23e1 --- храните строки, но тогда разумно сделать "рядышком" ещё один предикат, который будет хранить число, для поиска по диапазонам.

А что мешает динамическую типизацию сделать? Скажем, загружу я в виртуозу телефонный справочник, так подавляющее множество номеров окажется числами, но некоторые - строками и по ним поиск работать не будет, как это юзерам объяснять, интересно...Куда уж динамичней --- объекты и так валяются в колонке типа ANY :) Но принцип "garbage in --- garbage out" соблюдается свято --- весь мусор аккуратно складируется "как есть". Если что не находится из-за несоответствия типов, то пусть хозяин мусора решает --- то ли статически мусор нормализовать раз и навсегда, то ли в запросы втыкать приведения типов.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359940
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruЕсли что не находится из-за несоответствия типов, то пусть хозяин мусора решает --- то ли статически мусор нормализовать раз и навсегда, то ли в запросы втыкать приведения типов.

Как нормализовать номера 003 и 333?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37359968
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Если надо отличать 003 от +003, 03 и 3, то никак. Пусть строками и лежат.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360072
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Было бы здорово добавить текст ошибочной записи к сообщению
"You have attempted to upload invalid data. You can only upload RDF, Turtle, N3 serializations of RDF Data to the RDF Data Store.
". А то делением на 2 файла на 8 мегафактов искать очень уж муторно.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360128
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Попробуйте загрузить из консоли, и получите сразу номер строки с ошибкой.
Либо, как вариант, неверно определился формат файла, или не определился вовсе.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360130
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Я ее все же убил... Умерла виртуоза на странице
http://localhost:8890/conductor/rdf_import.vspx

В dmesg:
Код: plaintext
1.
[ 404741 . 127590 ] Out of memory: Kill process  23359  (virtuoso-t) score  336  or sacrifice child
[ 404741 . 127609 ] Killed process  23359  (virtuoso-t) total-vm:1572540kB, anon-rss:999136kB, file-rss:0kB

Тестовая машинка (нетбук):

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
$ uname -a
Linux veter-eeepc  2 . 6 . 38 - 2 - 686  # 1  SMP Sun May  8   14 : 49 : 45  UTC  2011  i686 GNU/Linux

$ free
             total       used       free     shared    buffers     cached
Mem:        2065132      1028420      1036712            0         2396       166868 
-/+ buffers/cache:      859156      1205976 
Swap:       2097148      1547464       549684 

Тестовый файл чуть меньше 300 Мб и чуть маньше 10 мегафактов.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360142
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
Теперь веб-интерфейс пароля не узнает, а в консоли наоборот - перестал запрашивать пароль dba для команды DB.DBA.RDF_GLOBAL_RESET().
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360145
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
И даже удалось угадать пароль - теперь он "dba". До крэша был другой.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360151
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Может вы тогда всё же успешно снесли файлы сервера, просто не остановили его перед этим, и он успешно крутился в памяти до тех пор, пока не полез на диск за чем-то исчезнувшим?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360157
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати, NumberOfBuffers сколько стоит?
http://www.openlinksw.com/dataspace/dav/wiki/Main/VirtConfigScale
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360159
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

Может вы тогда всё же успешно снесли файлы сервера, просто не остановили его перед этим, и он успешно крутился в памяти до тех пор, пока не полез на диск за чем-то исчезнувшим?

Возможно. Я как-то привык, что aptitude purge пакет сносит вместе с конфигами и, разумеется, останавливает всех демонов. Почему после такого удаления при повторной установке пароль не запросило - загадка, что-то в скриптах деб-пакета не так. Тем паче, самостоятельное появление другого пароля дело неправильное.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360161
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruКстати, NumberOfBuffers сколько стоит?
http://www.openlinksw.com/dataspace/dav/wiki/Main/VirtConfigScale

Совершенно ничего не трогаю, мучаю установку по умолчанию. Имхо оно может быть непроизводительно, но обязано быть стабильно.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360167
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Obey Arthur Lee сделал самый первый package нормально, потому что один, а потом ему явно стали "помогать". В итоге проще и надёжней из сорцов поставить :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360207
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

Obey Arthur Lee сделал самый первый package нормально, потому что один, а потом ему явно стали "помогать". В итоге проще и надёжней из сорцов поставить :)

Это бывает... Только из сырцов не ставим-с, опакечиваем и в свой репозиторий кладем, ибо нефиг ;) Но класть туда виртуозу я пока морально не готов :) Может, вы ее в своем репозитории держите?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360213
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruMBG,

Obey Arthur Lee сделал самый первый package нормально, потому что один, а потом ему явно стали "помогать". В итоге проще и надёжней из сорцов поставить :)

Это бывает... Только из сырцов не ставим-с, опакечиваем и в свой репозиторий кладем, ибо нефиг ;) Но класть туда виртуозу я пока морально не готов :) Может, вы ее в своем репозитории держите?
Лично я ничего не инсталлирую :) На данный момент на моей личной машине 14 разных деревьев закрытых версий плюс 11 открытых. Я использую их прямо из деревьев, я не могу себе позволить тратить время ещё и на переустановки.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360256
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruЛично я ничего не инсталлирую :) На данный момент на моей личной машине 14 разных деревьев закрытых версий плюс 11 открытых. Я использую их прямо из деревьев, я не могу себе позволить тратить время ещё и на переустановки.

Да, верю :) А что у вас по умолчанию делается при совпадении идентификаторов - новый факт игнорируется, добавляется повторно, перезаписывается или выдается ошибка? Особенно это интересно в плане распределенной работы.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360267
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruЛично я ничего не инсталлирую :) На данный момент на моей личной машине 14 разных деревьев закрытых версий плюс 11 открытых. Я использую их прямо из деревьев, я не могу себе позволить тратить время ещё и на переустановки.

Да, верю :) А что у вас по умолчанию делается при совпадении идентификаторов - новый факт игнорируется, добавляется повторно, перезаписывается или выдается ошибка? Особенно это интересно в плане распределенной работы.Если при добавлении все четыре поля совпали с уже имеющимся фактом, то тихий игнор. Многократное повторение общеизвестного факта не является ошибкой.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360278
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Логично. Если удастся придумать уникальные идентификаторы каждому факту. А расширения виртуозы делают случаем не для того, чтобы substr и проч. функции получить (оказывается, стандарт sparql пока страдает отсутствием многого необходимого)?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360285
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
1. Идентификаторы фактам нужны крайне редко, и обеспечиваются реификацией.
2. SPARQL 1.1 существенно толще SPARQL 1.0, необходимое будет отсутствовать менее заметно ;) SPARQL 1.0 предустматривает доступность XPATH/XQuery Function Library, там сколько-то функций всё же есть. Другое дело, что их никто не просил, поэтому я добавил в SPARQL их поддержку только на прошлой неделе, и она ещё не доползла до Virtuoso Open Source.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360318
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru2. SPARQL 1.1 существенно толще SPARQL 1.0, необходимое будет отсутствовать менее заметно ;) SPARQL 1.0 предустматривает доступность XPATH/XQuery Function Library, там сколько-то функций всё же есть. Другое дело, что их никто не просил, поэтому я добавил в SPARQL их поддержку только на прошлой неделе, и она ещё не доползла до Virtuoso Open Source.

Обойтись можно, но раз добавили, будет существенно более user-friendly. Я вот себе набросал отчетик по поисковым запросам по логу вебсервера, так хотелось бы сразу увидеть не URL с параметрами, а только сам текст запроса (для меня-то и так сойдет, а вот если кому показывать).

Из консоли кстати 10М фактов загрузились нормально, выборки шустрые. Ну да я еще проверю, сколько можно на нетбуке фактов хранить/обрабатывать - такой стресс-тест, а для дела интересует работа в облаке на множестве ядер - открытая версия умеет распараллеливать запрос по всем ядрам?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360323
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGдля дела интересует работа в облаке на множестве ядер - открытая версия умеет распараллеливать запрос по всем ядрам?Обработка внутри запроса не распараллеливается. Хоть Virtuoso и бегает при необходимости на чём попало, "в душе" это всё же миддлварная СУБД, на которую при использовании по прямому назначению валится куда больше одновременных запросов, чем на любой матплате стоит ядер :) В Virtuoso/PL есть средства распараллельвания ( http://docs.openlinksw.com/virtuoso/ASYNCEXECMULTITHREAD.html ), но внутрь отдельного запроса они не лезут.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360327
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

А я пока для замены скриптов разных рассматриваю, мне много запросов не надо :) Вот как разберусь получше, там видно будет.

Огромное вам спасибо за море информации и подсказок, узнал много нового и теперь могу комфортно решить некоторые задачки по анализу разнородных данных, до которых руки не доходили или выковыривал нужное пачкой скриптов.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360344
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGА я пока для замены скриптов разных рассматриваю, мне много запросов не надо :)Если утрясут ТЗ, то будет версия для мобильников, вот в ней, как ни забавно, будет распараллеливание одиночного запроса по ядрам. У мобилы юзер один, а ядер даже сейчас бывает два, будет и больше :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37360872
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruЕсли утрясут ТЗ, то будет версия для мобильников, вот в ней, как ни забавно, будет распараллеливание одиночного запроса по ядрам. У мобилы юзер один, а ядер даже сейчас бывает два, будет и больше :)

На всех смартфонах есть эскулайт, не хотите использовать в качестве хранилища? Потом можно будет и на яваскрипт портировать, в браузерах современных тоже есть эскулайт.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37361024
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGiv_an_ruЕсли утрясут ТЗ, то будет версия для мобильников, вот в ней, как ни забавно, будет распараллеливание одиночного запроса по ядрам. У мобилы юзер один, а ядер даже сейчас бывает два, будет и больше :)

На всех смартфонах есть эскулайт, не хотите использовать в качестве хранилища? Потом можно будет и на яваскрипт портировать, в браузерах современных тоже есть эскулайт.Мы сами вообще ничего не хотим. Клиенты хотят виртуозу на мобильниках (на ARM-овых девайсах, точнее) --- будет им и такая виртуоза.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37362918
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Не подскажете список медицинских RDF-ресурсов? А то медики тоже хотят благ цивилизации :)
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37362933
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
Запрос от Алан Раттенберг не работает:

37000 Error SP030: SPARQL compiler, line 0: Parentheses are not balanced at ']'

Где бы найти работоспособный вариант?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363307
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Лишняя квадратная скобка "завалялась" по итогам "раскрашивания" текста. http://www.w3.org/TR/hcls-kb/ содержит описание очень похожего запроса --- как учебный пример.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363322
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Погуглите по bio2rdf и hcls rdf. Ещё можно зерегиться на "русскоязычном" forum.semanticfuture.net и англоязычном answers.semanticweb.com и поспрашивать там. В принципе, если будет надо для серьёзных ковыряний, могу поднять где-нибудь виртуозу с полсотней гигов озухи и порядка 16 ядер, и залить что надо будет для работы и открыть доступ.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363549
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
[quot iv_an_ru],

Можно ли работать с удаленными источниками, не заливая все данные в свое хранилище? А то я уж думал, что все данные доступны удаленно и можно на локальной виртуозе просто запускать запросы... но вот в примерах предлагают два десятка источников собрать и залить к себе http://www.w3.org/TR/hcls-kb/#rdfbundles То есть прежде чем убедиться в полезности источника, придется все равно все данные копировать или нет?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363681
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGМожно ли работать с удаленными источниками, не заливая все данные в свое хранилище? А то я уж думал, что все данные доступны удаленно и можно на локальной виртуозе просто запускать запросы... но вот в примерах предлагают два десятка источников собрать и залить к себе http://www.w3.org/TR/hcls-kb/#rdfbundles То есть прежде чем убедиться в полезности источника, придется все равно все данные копировать или нет?С удалёнными источниками работать можно, но если подзапрос уходит через океан, собирая пинг туда и пинг обратно, и таких запросов оказывается много, то ответа придётся ждать долго. Для нормальной работы, конечно, всё надо держать на одной машине. В лучшем случае --- на локальной, если невозможно --- "всё в кучке" на одном удалённом сервере.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363723
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Ясно, то есть самостоятельно пользователь не сможет работать с технологией, нужно настроить сервер, найти и загрузить все нужные данные.

Насчет выделенного сервера - спасибо, пока не требуется, свободный сервер с 8 гиг ОЗУ у меня есть, а большего (пока не научусь решать практические задачи) и не надо.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363821
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBGЯсно, то есть самостоятельно пользователь не сможет работать с технологией, нужно настроить сервер, найти и загрузить все нужные данные.Он может арендовать готовый. На EC2 , к примеру (плюс там в конце ещё куча инструкций для разных вариантов).
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363861
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Сайт http://virtuoso.openlinksw.com/ не работает. Как оживет, попробую образы.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363914
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Странно, у меня работает
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363968
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Сейчас заработало, а до того раз пять обновил - не открывалось. Читаю...

Такой момент - повторно залил 20М фактов, запрос на количество не изменился (то есть дублей не появилось), но на диске отъелось места еще столько же, как при первой заливке. Откуда фрагментация и как бороться?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37363978
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Если просто залили одно и то же два раза подряд, и в данных нет blank node, то это какая-то интересная аномалия.
Если залили, стёрли, опять залили, и где-то в процессе был checkpoint, то возможно, что первый раз ещё не было выделено место под page remap. Тогда всё нормально; виртуоза никогда не создаёт больше чем две версии одной дисковой страницы (версия на момент последнего checkpoint + версия с изменениями после последнего checkpoint).
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37364010
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Выглядит это во время повторной заливки данных примерно так - объем /var/lib/virtuoso-opensource-6.1/ растет на полгига (с 1,2 Гб до 1,7 Гб), потом снижается скачком (до 1,4G) и снова растет. Вроде как модификации вообще быть не должно, а тем более непонятно, почему освобождается меньше, чем выделено (в итоге занято 1,5 Гб по завершении повторной заливки вместо исходных 1,2 Гб). Время повторной заливки меньше вдвое, LA такой же (неожиданно... ждал ощутимо более низкого).
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37364132
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Если объём вообще уменьшался, значит после checkpoint стирался журнал, а журнал валялся в той же директории.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37364145
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ru,

Проверка на дубликаты - _после_ их вставки?.. Непонятно, отчего модификация происходит, когда вставляемые данные мы игнорируем.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37364171
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Если только лишние вставки дублей, то активность на запись вообще должна быть 0. Может, bnode в данных?
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37364979
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
Пример данных:

Код: plaintext
1.
2.
3.
4.
5.
@prefix : <http://example.com/ 2011 - 05 - 01 #> .
:xxx-xxx-2_1304196198_12_51_22 :id  1  ; :nas "xxx-xxx" ; :port "12 51 22" ; :timestamp  1304196198  ; :duration  3661  ; :origin
 "answer" ; :src "74951111111" ; :dst "74952222222" ; :code "10" .
:xxx-xxx-2_1304196198_ :id  2  ; :nas "xxx-xxx" ; :port "" ; :timestamp  1304196198  ; :duration  3661  ; :origin "originate" ; :
src "74951111111" ; :dst "74952222222" ; :code "10" .
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37365356
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MBG,

Вроде не должно бесконечно расти, bnode отсутствуют.
...
Рейтинг: 0 / 0
OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
    #37365549
MBG
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
MBG
Гость
iv_an_ruMBG,

Вроде не должно бесконечно расти, bnode отсутствуют.

Так все же - откуда дисковая активность на запись берется? Почему спрашиваю - неожиданно требуется больше места на диске, вдобавок лишние операции на запись, в "облаке" все это придется оплачивать... или городить костыли для проверки уникальности данных до их заливки.
...
Рейтинг: 0 / 0
94 сообщений из 94, показаны все 4 страниц
Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / OpenLink Virtuoso и RDF --- надо ли это и это ли надо?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]