powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
10 сообщений из 10, страница 1 из 1
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703709
AlekseySQL
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Мне надо хранить интересы людей, которые они ввели в текстовое поле. Чтобы искать пересечения интересов я хочу разбить эти тексты на слова, и создать таблицу id_user (типа INT), interes (типа VARCHAR(20)) (потому что программы понимающие смысл текстов пока не изобрели).

Но тут возникает вопрос эффективности хранения: зачем мне хранить все слово, если суффиксы и окончания не только не нужны, но и мешают. Причем можно пойти дальше и предположить, что, например, первые 5 букв достаточно точно идентифицируют интерес (потому что в русском языке мало РАЗНЫХ слов с одинаковыми первыми пятью буквами). Тогда можно будет изменить тип поля interes на CHAR(5). А может и 4 букв хватит (хотя "вертолет", "вертеп" и "вертихвостка" уже немного портят статистику).

Думаю многие сталкивались с подобным вопросом, поэтому хочется узнать, что скажет стая.
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703719
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Слов в русском языке, конечно, много, но интересов у людей таки мало. Но и это малое
количество они бы хотели искать не только по первым буквам, но и из середины.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703721
AlekseySQL
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Хотя наверное правильнее посмотреть на свои данные и исходя из них принять решение:

Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
SELECT 
COUNT(DISTINCT interest)/COUNT(*) 
FROМ 
statisic.interests;

SELECT 
COUNT(DISTINCT LEFT(interest, 3})/COUNT(*) AS sel3,
COUNT(DISTINCT LEFT(interest, 4))/COUNT(*) AS sel4,
COUNT(DISTINCT LEFT(interest, 5))/COUNT(*) AS sel5,
COUNT(DISTINCT LEFT(interest, 6))/COUNT(*) AS selб,
COUNT(DISTINCT LEFT(interest, 7})/COUNT(*) AS sel7
FROМ
statisic.interests;
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703725
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlekseySQLНо тут возникает вопрос эффективности хранения: зачем мне хранить все слово, если суффиксы и окончания не только не нужны, но и мешают.
Попробуйте оценить количество различных слов, характеризующих интересы, и прикинуть, сколько килобайт хранения Вы таким образом сэкономите. Затем оценить размер html-страницы с Вашим топиком и прикинуть, сколько килобайт текста заняло обсуждение и какова получилась разница. Наконец, возьмите прайс-лист хорошей компьютерной фирмы, найдите там раздел недорогих жёстких дисков, поделите доллары на гигабайты и оцените, какую примерно экономию Вы достигли в финансовом выражении, сколько времени это у Вас заняло и какова экономическая эффективность одной минуты Вашего времени.
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703735
AlekseySQL
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
AlekseySQL
Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
SELECT 
COUNT(DISTINCT interest)/COUNT(*) 
FROМ 
statisic.interests;

SELECT 
COUNT(DISTINCT LEFT(interest, 3})/COUNT(*) AS sel3,
COUNT(DISTINCT LEFT(interest, 4))/COUNT(*) AS sel4,
COUNT(DISTINCT LEFT(interest, 5))/COUNT(*) AS sel5,
COUNT(DISTINCT LEFT(interest, 6))/COUNT(*) AS selб,
COUNT(DISTINCT LEFT(interest, 7})/COUNT(*) AS sel7
FROМ
statisic.interests;



Разумеется для получения корректного сравнения у поля interest уже должно быть отрезано окончание (и по возможность суффикс).
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703851
Serguei
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlekseySQLМне надо хранить интересы людей, которые они ввели в текстовое поле. Чтобы искать пересечения интересов я хочу разбить эти тексты на слова, и создать таблицу id_user (типа INT), interes (типа VARCHAR(20)) (потому что программы понимающие смысл текстов пока не изобрели).

Я конечно не знаю полной постановки задачи, но можно пойти по другому пути. Заранее определить перечень интересов (аля тегов) и предложить пользователю натыкать перечень этих интересов для себя даже не анализируя тесты пользователей

В разборе текстов (тем более на русском языке) это мегазадача. И понять по одному слову (или тем более по нескольким буквам) однозначно тематику удастся в очень небольшом количестве случаев. Одни и те же слова есть в разных тематиках. Придется создать словарь сопоставления слов с тематиками и эта задача сводит на нет все усилия по выкусыванию этих букв хоть из начала хоть из середины слова.
Ну а уж если несколько слов рядом стоящих так вообще... даже гугол отдыхает )
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703862
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlekseySQLдолжно быть отрезано окончание (и по возможность суффикс).Так задача не решается. Вы так не отличите "сшить дело" от "сшить поделку".

Помимо схожести слов с разным смыслом, еще важен контекст.
"Я еще и на машинке могу..." - разберите, попробуйте.
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39703959
AlekseySQL
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoftAlekseySQLдолжно быть отрезано окончание (и по возможность суффикс).Так задача не решается. Вы так не отличите "сшить дело" от "сшить поделку".

Помимо схожести слов с разным смыслом, еще важен контекст.
"Я еще и на машинке могу..." - разберите, попробуйте.

1. Мне не нужна 100% точность. Ваши примеры- очень редкие явления.
2. Когда пользователь вводить интересы, то в 99% случаев это существительные.
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39704032
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlekseySQL, кастрация данных — неверный путь. Не знаю, что интересно вашим пользователям, но в общем случае желательно уметь различать, напр., Испанию, испанский язык и испанскую литературу.
...
Рейтинг: 0 / 0
Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
    #39704343
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlekseySQL, как говорится, со склерозом упокой :) Наслаждайтесь частотным словарем .
...
Рейтинг: 0 / 0
10 сообщений из 10, страница 1 из 1
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Есть статистика русского языка сколько РАЗНЫХ слов начинается с ОДИНАКОВЫХ первых букв?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]