|
|
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
UkraineИ еще один неприятный вечерний сюрприз, версия индекса либрусека оказалась currupted из-за какойто ошибки в движке. Теперь по коду прийдется расставлять ошибки. Эмпирично искать глюк. :( А помнишь мы с тобой говорили про 1 случай непопадания куда то там на мильйон ключей ? Про сложение и умножение вероятностей. Таки ИМХО ты в него вступил Проверь на досуге :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.04.2013, 19:43 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
ДохтаРUkraineИ еще один неприятный вечерний сюрприз, версия индекса либрусека оказалась currupted из-за какойто ошибки в движке. Теперь по коду прийдется расставлять ошибки. Эмпирично искать глюк. :( А помнишь мы с тобой говорили про 1 случай непопадания куда то там на мильйон ключей ? Про сложение и умножение вероятностей. Таки ИМХО ты в него вступил Проверь на досуге :) "Это С++ детка"(с) Тут может быть все что угодно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.04.2013, 19:47 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
UkraineДохтаРпропущено... А помнишь мы с тобой говорили про 1 случай непопадания куда то там на мильйон ключей ? Про сложение и умножение вероятностей. Таки ИМХО ты в него вступил Проверь на досуге :) "Это С++ детка"(с) Тут может быть все что угодно. Ну желаю удачи . Это только начало, длинного тернистого пути ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.04.2013, 19:50 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
ДохтаРUkraineпропущено... "Это С++ детка"(с) Тут может быть все что угодно. Ну желаю удачи . Это только начало, длинного тернистого пути Давай боярин. Крути свою машину. А я пока почитаю про использование Reduce Map в Java. Люська шибко медленная девка. Хочу ее клонировать и на отдельный шардинг положить. Будут две Люськи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.04.2013, 19:55 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Пока вся надежда на Тайгу. Щас барин разберется с иерархиями ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.04.2013, 21:33 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Oleg77777Вот тут все знатоки Кэша, а вот скажите мне, там есть иерархии на измерениях, или что-то подобное? А в других "многомерных" СУБД? CACHE ( а также все его MUMPS-язычные родственники и родители - DIAMS - MSM -GTM - MINIM ) - это деревья стволом вверх ветвями вниз каждая ветка суть "измерение" (мерность) на концах ветвей обязательно и в развилках необязательно прицеплены текстовые строки ("записи") выше по дереву - выше по иерархии ^o - пример обращения к самой верхней точке перевернутого дерева ^o("вес машины ФФ-6543") - это обращение к одной из характеристик некоторого экземпляра из класса обьектов ^o("вес машины ФФ-6534","в том числе вес кабины")- а это к характеристике его некоторой составной части все ------------------------------------ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.04.2013, 23:39 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
MX-9, Всё красиво, вот только нужда в отдельных БДшных фенечках именно для иерархий, она плавно сходит на нет. star joins потихоньку становятся более и более приемлемыми по масштабируемости. Свежачок: 150 Billion Triple dataset hosted on the LOD2 Knowledge Store Cluster. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 00:09 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruMX-9, Всё красиво, вот только нужда в отдельных БДшных фенечках именно для иерархий, она плавно сходит на нет. star joins потихоньку становятся более и более приемлемыми по масштабируемости. Свежачок: 150 Billion Triple dataset hosted on the LOD2 Knowledge Store Cluster. Возьмем библиотеку либрусек, и попробуем ее представить в виде RDF. Triple будет таким Документ->Содержит->Слово. Слов в либрусеке 20 млрд, значит фактов будет 20 млрд. Каждое слово примерно 8 байт + 1 байт на дефенишин + 2 байта на документ. Минимально уже получается 11 байт. 11 * 20 = 220 гигабайт. С оверхедом в твоем хранилище 500 гигабайт. Только вот фокус покус. Это хранилище хранит "воду", после компрессии моими алгоритмами весь либрусек помещается в 1.5 гига . И содержит теже 20 млрд фактов о том в каком документе какое слово находится. Вывод - научитесь там в своих РДФах по взрослому жать дынные ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:14 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraine, Что за бред? Вы ещё предложите картинки хранить в виде отдельных фактов для каждого пикселя. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:23 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraine, Что за бред? Вы ещё предложите картинки хранить в виде отдельных фактов для каждого пикселя. Если вести поиск картинки по наличию определенного пикселя то прийдется. Я это к тому веду что РДФ как никрути имеет огромнейший оверхед. "150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:35 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ну и 8 серверов тудаже .... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:35 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraine"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))Вы будете не первым, решившим, что показать приличное время на BSBM --- раз плюнуть :) На самом деле, если вы сможете просрать меньше, чем в 100--140 раз, это уже будет неплохой рекламой вашему продукту. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:43 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraine"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))Вы будете не первым, решившим, что показать приличное время на BSBM --- раз плюнуть :) На самом деле, если вы сможете просрать меньше, чем в 100--140 раз, это уже будет неплохой рекламой вашему продукту. Да, я уже понял стратегию РДФ. С плевой базы раздуть петабайты, а потом рисовать бенчи на спарке что мы одолели этот запрос всега навсего за какихто там 11 тыс секунд ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:49 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineiv_an_ruUkraine, Что за бред? Вы ещё предложите картинки хранить в виде отдельных фактов для каждого пикселя. Если вести поиск картинки по наличию определенного пикселя то прийдется. Я это к тому веду что РДФ как никрути имеет огромнейший оверхед. "150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :)) Такой поиск никому не нужен. Технологии будущего в хранении графики это математические способы сжатия графики на основе Wavelet transform (j2k, LuraWave). Коэффициенты выбирает сам пользователь от 2 до 100 (в принципе так же как и при сохранении картинок Jpeg). Интересно что формат организован так что частичная потеря файла (недозагрузка с веба) или повреждение середины практически не оказывают влияния на картинку. Она только теряет фокусировку. В этом плане такой способ описания информации близок к природе. К нейросетям и прочим нечётким (непиксельным) способам описания графики. А таких задач как "найти какой-то пиксель через индексный поиск" - никто не ставит. Это бесполезная задача. А вот более полезная - классификация картинок (лица, или места географии) это задача интересная и имеющая перспективу. Туда-же быстрое распознавание лиц. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:50 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, Так что, либрусек можно представить в качестве направленного графа с миллиардами графов или нет ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:50 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
maytonUkraineпропущено... Если вести поиск картинки по наличию определенного пикселя то прийдется. Я это к тому веду что РДФ как никрути имеет огромнейший оверхед. "150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :)) Такой поиск никому не нужен. Технологии будущего в хранении графики это математические способы сжатия графики на основе Wavelet transform (j2k, LuraWave). Коэффициенты выбирает сам пользователь от 2 до 100 (в принципе так же как и при сохранении картинок Jpeg). Интересно что формат организован так что частичная потеря файла (недозагрузка с веба) или повреждение середины практически не оказывают влияния на картинку. Она только теряет фокусировку. В этом плане такой способ описания информации близок к природе. К нейросетям и прочим нечётким (непиксельным) способам описания графики. А таких задач как "найти какой-то пиксель через индексный поиск" - никто не ставит. Это бесполезная задача. А вот более полезная - классификация картинок (лица, или места географии) это задача интересная и имеющая перспективу. Туда-же быстрое распознавание лиц. Ты не понял. Я предложил библиотеку книг хранить в хранилище РДФ, да так, чтобы можно было искать полнотекстово. Ваня возразил, мол это что еще за издевательство над православным РДФ, это всеравно что хранить картинку попиксельно. На что я ему возразил что зря он возражает, поскольку картинки не нужно искать по пикселям, а вот книжки по словам нужно искать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:53 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraine, Можно, только в этом нет нужды для банального полнотекстового поиска. Отдельные дуги для слов могут понадобиться только для семантического анализа текста, для которого лопушки-стебельки-цветочки-морковки, очевидно, не годятся никак. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 01:59 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraine, Можно, только в этом нет нужды потому что просрем фтристараз для банального полнотекстового поиска. фиксед ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:01 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraine, извини уже поздно. Я под воздействием Морфея и слабо следил за дискурсом. РДФ - это что? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:02 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineкнижки по словам нужно искать.Ну так и ищите. Запихайте текст книжки в литерал, и всё. Шаг 1: запомнили для каждой книжки факт <IRI_книжки> <content> "текст книжки" . Шаг 2: указали полнотекстовому индексу, что объекты фактов с предикатом <content> подлежат индексации. Шаг 3: sparql select ?s where { ?s <content> ?txt . ?txt bif:contains "'моя любимая фраза'" } ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:03 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruОтдельные дуги для слов могут понадобиться только для семантического анализа текста, для которого лопушки-стебельки-цветочки-морковки, очевидно, не годятся никак. Погоди про дуги дудеть, ты бы сначала показал базу хотябы с простыми связями. Если дудеть про дуги то там точно петабайты нарисуются. Вот есть либрусек, 240 тыс книг, 200 гб текста. РДФ наносит ответный удар, сколько нужно места чтобы хранить и искать по 20 млрд фактов ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:03 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineкнижки по словам нужно искать.Ну так и ищите. Запихайте текст книжки в литерал, и всё. Шаг 1: запомнили для каждой книжки факт <IRI_книжки> <content> "текст книжки" . Шаг 2: указали полнотекстовому индексу, что объекты фактов с предикатом <content> подлежат индексации. Шаг 3: sparql select ?s where { ?s <content> ?txt . ?txt bif:contains "'моя любимая фраза'" } ээ кавбой ... это лажа. Если ты собираешся все книжки запихивать в литералы, то получается у тебя 200 гиг литералов, по размеру либрусека. А индекс должен быть 2 гига максимум ... и он содержит информацию о каждом документе и о каждом слове которое там встречается. Это я называю православное хранение данных. А не РДФное. Ну и запросы должно пулять от сто тыщ в секунду по фразам ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:07 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineiv_an_ruОтдельные дуги для слов могут понадобиться только для семантического анализа текста, для которого лопушки-стебельки-цветочки-морковки, очевидно, не годятся никак. Погоди про дуги дудеть, ты бы сначала показал базу хотябы с простыми связями. Если дудеть про дуги то там точно петабайты нарисуются. Вот есть либрусек, 240 тыс книг, 200 гб текста. РДФ наносит ответный удар, сколько нужно места чтобы хранить и искать по 20 млрд фактов ?Я пока никак не пойму, зачем заниматься сексом в гамаке и на лыжах, бессмыссленно генеря 20 млрд абсолютно тупых фактов там, где их надо 240 тыс? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:12 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineпропущено... Погоди про дуги дудеть, ты бы сначала показал базу хотябы с простыми связями. Если дудеть про дуги то там точно петабайты нарисуются. Вот есть либрусек, 240 тыс книг, 200 гб текста. РДФ наносит ответный удар, сколько нужно места чтобы хранить и искать по 20 млрд фактов ?Я пока никак не пойму, зачем заниматься сексом в гамаке и на лыжах, бессмыссленно генеря 20 млрд абсолютно тупых фактов там, где их надо 240 тыс? ты все верно подметил. Представить полнотекстовую базу в РДФной модели, это как заниматся сексом в гамаке и на лыжах. Для таких случаев в чудо виртуозо имеется специальный костыль, называется "полнотекстовый поиск от стороннего производителя для индексации литералов". И тут настает пичалька. Потому что этот костыль не имеет никакого отношения к РДФ а значит запросы нужно будет писать не по спарке а по геометрии костыля. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:19 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
UkraineА индекс должен быть 2 гига максимум ... и он содержит информацию о каждом документе и о каждом слове которое там встречается. Ну и запросы должно пулять от сто тыщ в секунду по фразам ...То есть у вас есть веб-страничка, которая по запросу вроде "фраза "чудное мгновение" вблизи фразы "в томленьях грусти безнадежной"" вернёт список текстов, с фрагментами текста вокруг найденных фраз, вроде того, что выдаст гугл: я помню чудное мгновение . ... В томленьях грусти безнадежной В тревогах шумной суеты, Звучал мне долго голос нежный И снились милые черты. и индекс для либрусека будет всего два гигабайта? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:21 |
|
||
|
|

start [/forum/topic.php?fid=56&msg=38239264&tid=2015245]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
41ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
71ms |
get tp. blocked users: |
1ms |
| others: | 12ms |
| total: | 166ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...