СУБД Тайга / Другие СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / СУБД Тайга

25 сообщений из 340, страница 11 из 14

все

СУБД Тайга

#38239000

ДохтаР

Участник

Откуда: Новоукраинск

Сообщения: 17 946

Рейтинг: 0 / 0

UkraineИ еще один неприятный вечерний сюрприз, версия индекса либрусека оказалась currupted из-за какойто ошибки в движке.
Теперь по коду прийдется расставлять ошибки. Эмпирично искать глюк. :(

А помнишь мы с тобой говорили про 1 случай непопадания куда то там на мильйон ключей ?
Про сложение и умножение вероятностей.

Таки ИМХО ты в него вступил

Проверь на досуге :)

...

Рейтинг:

0 / 0

24.04.2013, 19:43

| Ответить | Цитировать | Написать

СУБД Тайга

#38239003

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

ДохтаРUkraineИ еще один неприятный вечерний сюрприз, версия индекса либрусека оказалась currupted из-за какойто ошибки в движке.
Теперь по коду прийдется расставлять ошибки. Эмпирично искать глюк. :(

А помнишь мы с тобой говорили про 1 случай непопадания куда то там на мильйон ключей ?
Про сложение и умножение вероятностей.

Таки ИМХО ты в него вступил

Проверь на досуге :)

"Это С++ детка"(с)
Тут может быть все что угодно.

...

Рейтинг:

0 / 0

24.04.2013, 19:47

| Ответить | Цитировать | Написать

СУБД Тайга

#38239006

ДохтаР

Участник

Откуда: Новоукраинск

Сообщения: 17 946

Рейтинг: 0 / 0

UkraineДохтаРпропущено...

А помнишь мы с тобой говорили про 1 случай непопадания куда то там на мильйон ключей ?
Про сложение и умножение вероятностей.

Таки ИМХО ты в него вступил

Проверь на досуге :)

"Это С++ детка"(с)
Тут может быть все что угодно.

Ну желаю удачи .
Это только начало, длинного тернистого пути

...

Рейтинг:

0 / 0

24.04.2013, 19:50

| Ответить | Цитировать | Написать

СУБД Тайга

#38239011

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ДохтаРUkraineпропущено...

"Это С++ детка"(с)
Тут может быть все что угодно.

Ну желаю удачи .
Это только начало, длинного тернистого пути
Давай боярин. Крути свою машину. А я пока почитаю про использование Reduce Map в Java.
Люська шибко медленная девка. Хочу ее клонировать и на отдельный шардинг положить.
Будут две Люськи.

...

Рейтинг:

0 / 0

24.04.2013, 19:55

| Ответить | Цитировать | Написать

СУБД Тайга

#38239107

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

Пока вся надежда на Тайгу.
Щас барин разберется с иерархиями

...

Рейтинг:

0 / 0

24.04.2013, 21:33

| Ответить | Цитировать | Написать

СУБД Тайга

#38239186

MX-9

Участник

Откуда: LIBAVA

Сообщения: 526

Рейтинг: 0 / 0

Oleg77777Вот тут все знатоки Кэша, а вот скажите мне, там есть иерархии на измерениях, или что-то подобное?

А в других "многомерных" СУБД?

CACHE ( а также все его MUMPS-язычные родственники и родители - DIAMS - MSM -GTM - MINIM )
- это деревья стволом вверх ветвями вниз

каждая ветка суть "измерение" (мерность)

на концах ветвей обязательно и в развилках необязательно прицеплены текстовые строки ("записи")

выше по дереву - выше по иерархии
^o - пример обращения к самой верхней точке перевернутого дерева
^o("вес машины ФФ-6543") - это обращение к одной из характеристик некоторого экземпляра из класса обьектов
^o("вес машины ФФ-6534","в том числе вес кабины")- а это к характеристике его некоторой составной части

все
------------------------------------

...

Рейтинг:

0 / 0

24.04.2013, 23:39

| Ответить | Цитировать | Написать

СУБД Тайга

#38239199

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

MX-9,

Всё красиво, вот только нужда в отдельных БДшных фенечках именно для иерархий, она плавно сходит на нет. star joins потихоньку становятся более и более приемлемыми по масштабируемости. Свежачок: 150 Billion Triple dataset hosted on the LOD2 Knowledge Store Cluster.

...

Рейтинг:

0 / 0

25.04.2013, 00:09

| Ответить | Цитировать | Написать

СУБД Тайга

#38239238

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruMX-9,

Всё красиво, вот только нужда в отдельных БДшных фенечках именно для иерархий, она плавно сходит на нет. star joins потихоньку становятся более и более приемлемыми по масштабируемости. Свежачок: 150 Billion Triple dataset hosted on the LOD2 Knowledge Store Cluster.

Возьмем библиотеку либрусек, и попробуем ее представить в виде RDF.
Triple будет таким Документ->Содержит->Слово.
Слов в либрусеке 20 млрд, значит фактов будет 20 млрд.
Каждое слово примерно 8 байт + 1 байт на дефенишин + 2 байта на документ. Минимально уже получается 11 байт.
11 * 20 = 220 гигабайт. С оверхедом в твоем хранилище 500 гигабайт.
Только вот фокус покус. Это хранилище хранит "воду", после компрессии моими алгоритмами
весь либрусек помещается в 1.5 гига . И содержит теже 20 млрд фактов о том в каком документе какое слово находится.

Вывод - научитесь там в своих РДФах по взрослому жать дынные ;)

...

Рейтинг:

0 / 0

25.04.2013, 01:14

| Ответить | Цитировать | Написать

СУБД Тайга

#38239241

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

Ukraine,

Что за бред? Вы ещё предложите картинки хранить в виде отдельных фактов для каждого пикселя.

...

Рейтинг:

0 / 0

25.04.2013, 01:23

| Ответить | Цитировать | Написать

СУБД Тайга

#38239246

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruUkraine,

Что за бред? Вы ещё предложите картинки хранить в виде отдельных фактов для каждого пикселя.

Если вести поиск картинки по наличию определенного пикселя то прийдется.
Я это к тому веду что РДФ как никрути имеет огромнейший оверхед.
"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))

...

Рейтинг:

0 / 0

25.04.2013, 01:35

| Ответить | Цитировать | Написать

СУБД Тайга

#38239247

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

Ну и 8 серверов тудаже ....

...

Рейтинг:

0 / 0

25.04.2013, 01:35

| Ответить | Цитировать | Написать

СУБД Тайга

#38239253

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

Ukraine"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))Вы будете не первым, решившим, что показать приличное время на BSBM --- раз плюнуть :) На самом деле, если вы сможете просрать меньше, чем в 100--140 раз, это уже будет неплохой рекламой вашему продукту.

...

Рейтинг:

0 / 0

25.04.2013, 01:43

| Ответить | Цитировать | Написать

СУБД Тайга

#38239256

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruUkraine"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))Вы будете не первым, решившим, что показать приличное время на BSBM --- раз плюнуть :) На самом деле, если вы сможете просрать меньше, чем в 100--140 раз, это уже будет неплохой рекламой вашему продукту.

Да, я уже понял стратегию РДФ. С плевой базы раздуть петабайты, а потом рисовать бенчи на спарке что мы одолели этот запрос всега навсего за какихто там 11 тыс секунд

...

Рейтинг:

0 / 0

25.04.2013, 01:49

| Ответить | Цитировать | Написать

СУБД Тайга

#38239257

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ukraineiv_an_ruUkraine,

Что за бред? Вы ещё предложите картинки хранить в виде отдельных фактов для каждого пикселя.

Если вести поиск картинки по наличию определенного пикселя то прийдется.
Я это к тому веду что РДФ как никрути имеет огромнейший оверхед.
"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))
Такой поиск никому не нужен. Технологии будущего в хранении графики
это математические способы сжатия графики на основе Wavelet transform (j2k, LuraWave).
Коэффициенты выбирает сам пользователь от 2 до 100 (в принципе так же как и при сохранении
картинок Jpeg). Интересно что формат организован так что частичная потеря файла
(недозагрузка с веба) или повреждение середины практически не оказывают
влияния на картинку. Она только теряет фокусировку. В этом плане такой
способ описания информации близок к природе. К нейросетям и прочим
нечётким (непиксельным) способам описания графики.

А таких задач как "найти какой-то пиксель через индексный поиск" - никто
не ставит. Это бесполезная задача. А вот более полезная - классификация
картинок (лица, или места географии) это задача интересная и имеющая
перспективу. Туда-же быстрое распознавание лиц.

...

Рейтинг:

0 / 0

25.04.2013, 01:50

| Ответить | Цитировать | Написать

СУБД Тайга

#38239258

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ru,

Так что, либрусек можно представить в качестве направленного графа с миллиардами графов или нет ?

...

Рейтинг:

0 / 0

25.04.2013, 01:50

| Ответить | Цитировать | Написать

СУБД Тайга

#38239259

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

maytonUkraineпропущено...

Если вести поиск картинки по наличию определенного пикселя то прийдется.
Я это к тому веду что РДФ как никрути имеет огромнейший оверхед.
"150 млрд фактов" это вообще ниочем. После сжатия там вполне может быть 3-5 гиг полезной структурированой информации для наносекундного поиска :))
Такой поиск никому не нужен. Технологии будущего в хранении графики
это математические способы сжатия графики на основе Wavelet transform (j2k, LuraWave).
Коэффициенты выбирает сам пользователь от 2 до 100 (в принципе так же как и при сохранении
картинок Jpeg). Интересно что формат организован так что частичная потеря файла
(недозагрузка с веба) или повреждение середины практически не оказывают
влияния на картинку. Она только теряет фокусировку. В этом плане такой
способ описания информации близок к природе. К нейросетям и прочим
нечётким (непиксельным) способам описания графики.

А таких задач как "найти какой-то пиксель через индексный поиск" - никто
не ставит. Это бесполезная задача. А вот более полезная - классификация
картинок (лица, или места географии) это задача интересная и имеющая
перспективу. Туда-же быстрое распознавание лиц.

Ты не понял. Я предложил библиотеку книг хранить в хранилище РДФ, да так, чтобы можно было искать полнотекстово.
Ваня возразил, мол это что еще за издевательство над православным РДФ, это всеравно что хранить картинку попиксельно.
На что я ему возразил что зря он возражает, поскольку картинки не нужно искать по пикселям, а вот книжки по словам нужно искать.

...

Рейтинг:

0 / 0

25.04.2013, 01:53

| Ответить | Цитировать | Написать

СУБД Тайга

#38239262

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

Ukraine,

Можно, только в этом нет нужды для банального полнотекстового поиска. Отдельные дуги для слов могут понадобиться только для семантического анализа текста, для которого лопушки-стебельки-цветочки-морковки, очевидно, не годятся никак.

...

Рейтинг:

0 / 0

25.04.2013, 01:59

| Ответить | Цитировать | Написать

СУБД Тайга

#38239263

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruUkraine,
Можно, только в этом нет нужды потому что просрем фтристараз для банального полнотекстового поиска.

фиксед

...

Рейтинг:

0 / 0

25.04.2013, 02:01

| Ответить | Цитировать | Написать

СУБД Тайга

#38239264

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ukraine, извини уже поздно. Я под воздействием Морфея и слабо следил за дискурсом.

РДФ - это что?

...

Рейтинг:

0 / 0

25.04.2013, 02:02

| Ответить | Цитировать | Написать

СУБД Тайга

#38239265

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

Ukraineкнижки по словам нужно искать.Ну так и ищите. Запихайте текст книжки в литерал, и всё.
Шаг 1: запомнили для каждой книжки факт <IRI_книжки> <content> "текст книжки" .
Шаг 2: указали полнотекстовому индексу, что объекты фактов с предикатом <content> подлежат индексации.
Шаг 3: sparql select ?s where { ?s <content> ?txt . ?txt bif:contains "'моя любимая фраза'" }

...

Рейтинг:

0 / 0

25.04.2013, 02:03

| Ответить | Цитировать | Написать

СУБД Тайга

#38239266

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruОтдельные дуги для слов могут понадобиться только для семантического анализа текста, для которого лопушки-стебельки-цветочки-морковки, очевидно, не годятся никак.

Погоди про дуги дудеть, ты бы сначала показал базу хотябы с простыми связями.
Если дудеть про дуги то там точно петабайты нарисуются.

Вот есть либрусек, 240 тыс книг, 200 гб текста.
РДФ наносит ответный удар, сколько нужно места чтобы хранить и искать по 20 млрд фактов ?

...

Рейтинг:

0 / 0

25.04.2013, 02:03

| Ответить | Цитировать | Написать

СУБД Тайга

#38239268

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruUkraineкнижки по словам нужно искать.Ну так и ищите. Запихайте текст книжки в литерал, и всё.
Шаг 1: запомнили для каждой книжки факт <IRI_книжки> <content> "текст книжки" .
Шаг 2: указали полнотекстовому индексу, что объекты фактов с предикатом <content> подлежат индексации.
Шаг 3: sparql select ?s where { ?s <content> ?txt . ?txt bif:contains "'моя любимая фраза'" }

ээ кавбой ... это лажа. Если ты собираешся все книжки запихивать в литералы, то получается у тебя 200 гиг литералов, по размеру либрусека. А индекс должен быть 2 гига максимум ... и он содержит информацию о каждом документе и о каждом слове которое там встречается. Это я называю православное хранение данных. А не РДФное.

Ну и запросы должно пулять от сто тыщ в секунду по фразам ...

...

Рейтинг:

0 / 0

25.04.2013, 02:07

| Ответить | Цитировать | Написать

СУБД Тайга

#38239269

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

Ukraineiv_an_ruОтдельные дуги для слов могут понадобиться только для семантического анализа текста, для которого лопушки-стебельки-цветочки-морковки, очевидно, не годятся никак.

Погоди про дуги дудеть, ты бы сначала показал базу хотябы с простыми связями.
Если дудеть про дуги то там точно петабайты нарисуются.

Вот есть либрусек, 240 тыс книг, 200 гб текста.
РДФ наносит ответный удар, сколько нужно места чтобы хранить и искать по 20 млрд фактов ?Я пока никак не пойму, зачем заниматься сексом в гамаке и на лыжах, бессмыссленно генеря 20 млрд абсолютно тупых фактов там, где их надо 240 тыс?

...

Рейтинг:

0 / 0

25.04.2013, 02:12

| Ответить | Цитировать | Написать

СУБД Тайга

#38239273

Ukraine

Участник

Откуда: Made in Ukraine

Сообщения: 364

Рейтинг: 0 / 0

iv_an_ruUkraineпропущено...

Погоди про дуги дудеть, ты бы сначала показал базу хотябы с простыми связями.
Если дудеть про дуги то там точно петабайты нарисуются.

Вот есть либрусек, 240 тыс книг, 200 гб текста.
РДФ наносит ответный удар, сколько нужно места чтобы хранить и искать по 20 млрд фактов ?Я пока никак не пойму, зачем заниматься сексом в гамаке и на лыжах, бессмыссленно генеря 20 млрд абсолютно тупых фактов там, где их надо 240 тыс?

ты все верно подметил. Представить полнотекстовую базу в РДФной модели, это как заниматся сексом в гамаке и на лыжах. Для таких случаев в чудо виртуозо имеется специальный костыль, называется "полнотекстовый поиск от стороннего производителя для индексации литералов". И тут настает пичалька. Потому что этот костыль не имеет никакого отношения к РДФ а значит запросы нужно будет писать не по спарке а по геометрии костыля.

...

Рейтинг:

0 / 0

25.04.2013, 02:19

| Ответить | Цитировать | Написать

СУБД Тайга

#38239275

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

UkraineА индекс должен быть 2 гига максимум ... и он содержит информацию о каждом документе и о каждом слове которое там встречается. Ну и запросы должно пулять от сто тыщ в секунду по фразам ...То есть у вас есть веб-страничка, которая по запросу вроде "фраза "чудное мгновение" вблизи фразы "в томленьях грусти безнадежной"" вернёт список текстов, с фрагментами текста вокруг найденных фраз, вроде того, что выдаст гугл:

я помню чудное мгновение . ... В томленьях грусти безнадежной В тревогах шумной суеты, Звучал мне долго голос нежный И снились милые черты.

и индекс для либрусека будет всего два гигабайта?

...

Рейтинг:

0 / 0

25.04.2013, 02:21

| Ответить | Цитировать | Написать

25 сообщений из 340, страница 11 из 14

все

Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / СУБД Тайга

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=56&msg=38239264&tid=2015245]:	0ms
get settings:	10ms
get forum list:	20ms
check forum access:	3ms
check topic access:	3ms
track hit:	192ms
get topic data:	11ms
get forum data:	2ms
get page messages:	84ms
get tp. blocked users:	2ms
others:	235ms

total:	562ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы