Гость
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Четверговые опенсорцные БД для нагрузочного тестинга / 14 сообщений из 14, страница 1 из 1
12.11.2020, 22:34
    #40017733
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
Привет коты.

Сегодня я хочу поделится несколькими линками на БД которые доступны в сети безплатно.

1) Северный Ветер (NorthWind) . Реляционнная. Ну куда-ж мы без него.
https://github.com/Microsoft/sql-server-samples/tree/master/samples/databases/northwind-pubs

2) OpenStreetMap . Географическая. Объектная. Достаточно большой объем. Качать трудно. Есть
поддержка формата XML и бинарного формата. Для последнего нужен какой-то свой софт.
https://planet.openstreetmap.org/
Отдельно есть тулзы которые конвертят OpenStreetmap в PostGis.

3) ФИАС . Справочник адресов. Сложно сказать какая она. Есть вариант реляционный (dbf) и вариант
(xml) который возможно будет денормализован хотя я не смотрел в него еще.
https://fias.nalog.ru/Updates

Какие применения вы можете найти? Ну... тестовые данные для нагрузочного тестирования
и для сравнения движков.

P.S. Надеюсь что этот реестр будет пополнятся. Я буду периодически докидывать сюда
линки.
...
Рейтинг: 0 / 0
13.11.2020, 07:51
    #40017785
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
Тут база штрихкодов , там правда плоская таблица в CSV, но можно ее загрузить и нормализовать, тут выкладывал скрипт для SQLite
...
Рейтинг: 0 / 0
13.11.2020, 11:33
    #40017850
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
4) Mac-адреса и вендоры . 1 табличка. Каждый производитель резервирует часть битов от
аппаратного адреса сетевого устройства под свой код.

Поставляется в разных псевдо-текстовых форматах (CSV, JSON, XML).

Шапка выглядит так.
Код: sql
1.
oui,isPrivate,companyName,companyAddress,countryCode,assignmentBlockSize,dateCreated,dateUpdated


https://macaddress.io/database-download
...
Рейтинг: 0 / 0
13.11.2020, 13:36
    #40017896
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
5) RIPE db (Réseaux IP Européens) База данных Нидерландов по интернет инфраструктуре .
Не знаю какую часть сегмента интернета она покрывает. Но sql.ru я в ней пока не нашел.
С моей точки зрения база имеет ужасный вид. Это толстые текстовые файлы
представляеюще собой EAV-сущности объектов инфраструктуры.
Сети. Домены. IP-blocks e.t.c.

Сетевики в ней могут найти много всего интересного для себя.

https://ftp.ripe.net/ripe/dbase/
...
Рейтинг: 0 / 0
13.11.2020, 15:09
    #40017950
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
Полезнее всего была бы база TPC-C. На неё ссылаются все, кому не лень, а посмотреть мало кто может.
...
Рейтинг: 0 / 0
13.11.2020, 16:07
    #40017986
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
Да я наслышан о TPC* тестах. Но их заказывают обычно организации чтоб померять перформанс своих движков
а у них не будет проблем с деньгами.

Для нас-же имеет смысл поискать готовые аналоги TPC*.

Да.. в данном топике я еще добавлю что целью может быть не только бенчмарк но и просто
поиск багов в ETL-процессах. Тестирование инструментов-экспорта импорта или миграции.
...
Рейтинг: 0 / 0
14.11.2020, 17:37
    #40018347
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
6) MusicBrainz. Информация о музыкальных исполнителях. Альбомы. Релизы. Жанры. Обложки.
Почти реляционная. По крайней мере мне так показалось. Данные лежат в текстовых файлах типа CSV где
в качестве разделителя взят табулятор (\t).

https://musicbrainz.org/doc/MusicBrainz_Database/Download

Очень интересный проект. Я-бы с удовольсвием его поковырял. Тем более что в студенчестве
я хотел создать нечто подобное.

Ранее существовал подобный проект CDDB но он из открытого стал коммерческим.
Возможно на базе этих данных Windows Media Player опознавал исполнителя по хронометражу
альбома файлов компакт диска даже в том случае если tagging отсуствовал.

Однако в musicbrainz используется насколько я понял другой алгоритм.
...
Рейтинг: 0 / 0
14.11.2020, 18:37
    #40018356
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
7) Refinitiv's Opern PermId - финансовое хранилище информации об организациях, физлицах, квотах, ассетах и прочих
сущнотях мира бизнес-аналитики https://permid.org/download

Здесь под PermId подразумевается некий перманентный id который присваивается любой сущности и хранится
вечно. Отдельно скажу о формате публикуемых данных. Это - формат семантического веба.

Поддерживаются два формата TTL (Turtle) и Ntriple. Вот ссылки на общие сведения по ним.

https://www.w3.org/TR/turtle/
https://www.w3.org/TR/n-triples/

Наиболее интересная БД для тех кто хочет посмотреть связи между организациями или потренироваться
в работе с не-реляционной информацией.

Из программного обеспечения и отмечу только то что я лично использовал
https://jena.apache.org/
https://rdf4j.org/

Из dbms - частичная реализация движка хранения и запросов реализована внутри Jena в виде SQL/NoSQL
систем.

Другие рекомендовать не буду т.к. они либо платные либо я их не знаю и поддерживают-ли они импорт
с sematic web .
...
Рейтинг: 0 / 0
15.11.2020, 14:50
    #40018503
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
mayton
Да я наслышан о TPC* тестах.

Я говорю не о самих тестах, а о БД в них используемых. Они описаны спецификациями, но в виде готовых скриптов я их не встречал.
...
Рейтинг: 0 / 0
15.11.2020, 17:25
    #40018542
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
Dimitry Sibiryakov
mayton
Да я наслышан о TPC* тестах.

Я говорю не о самих тестах, а о БД в них используемых. Они описаны спецификациями, но в виде готовых скриптов я их не встречал.

Я понял. Надо почитать тут http://www.tpc.org/
Возможно БД тоже поставляется в составе теста.
...
Рейтинг: 0 / 0
15.11.2020, 20:48
    #40018576
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
8) Е-Mule blacklist . Не база а просто вобщем список IP-диапазонов.
Сюда входят крупные компании у которых могут быть к вам какие-либо вопросы
в части нарушений авторских прав например.

Формат - CSV.

http://upd.emule-security.org/ipfilter.zip

Я давно не видел чтобы кто-то еще использовал E-Mule но судя по всему блеклист еще
обновляется. Видимо кому-то это нужно.

В настоящий момент в этом листе порядка 200 тысяч диапазонов.
...
Рейтинг: 0 / 0
15.11.2020, 23:17
    #40018619
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
9) Учебная БД по авиаперевозкам Представлена в виде SQL-script для PostgresQL

https://postgrespro.ru/education/demodb

Есть в трех вариантах по объему накопленной информации за периоды.
...
Рейтинг: 0 / 0
16.11.2020, 00:54
    #40018632
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
10) Сведения по климату. BigData. Всего много. Сведенья очень разные и в разных текстовых форматах.
Температура. Штормы. Климатические события.

https://www1.ncdc.noaa.gov/pub/

Материалы этого ресурса использовались в книге "Hadoop - The definitive Guide"
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
18.01.2022, 00:42
    #40127332
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Четверговые опенсорцные БД для нагрузочного тестинга
11) IMDB . Это немножко не для нагрузочных тестов. Это скорее ближе к машинному обучению.

https://datasets.imdbws.com/

Ну вобщем пускай топик будет уже не только для тестов а для науки вообще.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Четверговые опенсорцные БД для нагрузочного тестинга / 14 сообщений из 14, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]