Разбор текстовых источников на артефакты (семантические сети?) / Проектирование БД

ReSQL.ru

2.0.61

Полная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Разбор текстовых источников на артефакты (семантические сети?) / 24 сообщений из 24, страница 1 из 1

20.03.2013, 12:29

#38191204

jnub

Участник

Сообщения: 32
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

Вообще говоря, не уверен, что в этот раздел форума.. Но всё же..

Нужно некое решение для разбора неких текстовых источников на артефакты, хранения их и, само собой, поиска.

Что я имею в виду

Вот есть например случайная статья http://www.cnews.ru/top/2013/02/13/sozdana_programma_dlya_totalnoy_slezhki_za_grazhdanami_cherez_socseti_video_518940

В США разработано приложение, которое позволяет легко и быстро получить о человеке различную информацию, используя данные из соцсетей, а также узнавать, где и в какое время его можно встретить.

Международная компания из американского штата Массачусетс Raytheon, пятый по величине поставщик решений для национальной безопасности, совместно с американским правительством разработала программное решение, которое позволяет следить за перемещениями людей и прогнозировать их поведение, используя данные из социальных сетей, сообщает Guardian.

Разработка решения под названием Riot (Rapid Information Overlay Technology) заняла более 2 лет - проект был основан в 2010 г.

С помощью Riot, созданной наподобие поисковой системы, за несколько кликов можно получить полный «снимок» жизни человека - узнать, с кем он дружит, посмотреть на карте, какие места он посещает, и другую информацию. Старший аналитик Raytheon Брайан Арч (Brian Urch) показал, как программа работает, на примере одного из сотрудников Raytheon по имени Ник.

Получив информацию из социальных сетей, Арч с помощью Riot смог быстро установить, что Ник часто посещает Национальный парк в Вашингтоне, а также смог увидеть фотографию Ника с девушкой, сделанную в этом парке. «Мы знаем, где Ник бывает, и как он выглядит, - прокомментировал Арч. - Теперь мы попытаемся предсказать, где Ник может оказаться в будущем».

Riot может строить диаграммы, указывая на взаимосвязь пользователя с другими людьми, анализируя его блог в Twitter. Также используются данные из Facebook и GPS-координаты из социальной сети Foursquare, с помощью которой около 25 млн людей в мире рассказывают друг другу о том, где в какой момент времени они находятся.

Тут есть следующие сущности:
- компании (Raytheon, Guardian)
- лица (Брайан Арч)
- системы (Facebook, GPS, Riot, Twitter)
- места (США, Вашингтон, Массачусетс)
- даты (2010)

И факты:
- Брайан Арч - Старший аналитик Raytheon
- Raytheon - Международная компания из штата Массачусетс, США
- Riot - приложение, которое позволяет получить о человеке информацию, используя данные из соцсетей

В системе должен лежать источник, сущности, факты, и все они само собой должны быть взаимосвязаны.
И поиск - поиск это основной смысл решения.
Предполагается, что разбирать источник будет человек.

могу ошибаться, но кажется должно подойти что-то вот из этого ( Список активных проектов семантических вики )

вопрос в чем - кто-нибудь что-нибудь из этого реально пользовал?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 16:32

#38191688

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

Если вы не только решите эту задачу, но и сможете ее автоматизировать, заработаете бабла больше, чем С. Брин.

Посмотрите на ваше решение: вы только перечислили некоторые из имен собственных (причем, с ошибками: Guardian - это газета, а не компания, то, что вы стыдливо объединили в "системы", имеет существенно разную природу, Брайан Арч - это эквивалент настоящего имени и пр.). При этом вы не отразили главный факт - публикацию рекламной статьи в газете (не говоря уже о кривом переводе этой статьи).

Семантические вики вам не помогут, у них другая цель: простое статическое соответствие. Вообще, я бы не рекомендовал вам браться за решение этой задачи.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 16:34

#38191696

Arhat109

Участник

Откуда: из СССР
Сообщения: 2 387
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621,

интересно почему "не рекомендовали бы"?

Насколько понимаю, задача ещё далека от решения и достаточно интересна.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 17:05

#38191778

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> почему "не рекомендовали бы"?

Потому, что это реально сложная задача и для ее решения нужна хорошая квалификация. Которой у человека, делающего элементарные ошибки при ее постановке, по определению быть не может.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 17:07

#38191782

Лагман

Участник

Откуда: Москва
Сообщения: 891
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

А сможет ли ваша система разобрать контекст в котором, к примеру, слово достоевский является синонимом слова баттхерт ?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 17:38

#38191850

Кот Матроскин

Участник

Откуда: Москва
Сообщения: 2 329
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621,

у ТС
авторПредполагается, что разбирать источник будет человек.

Т.е. все эти сущности и факты нам в базу уже складывают готовенькими, надо только делать поиск по ним. В такой-то постановке что в задаче сложного? Ну типизация сущностей. Ну типизация фактов. Все это имхо даже на дипломный проект не очень тянет - курсовик еще куда ни шло.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 18:45

#38191992

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> сущности и факты нам в базу уже складывают готовенькими

Факты никак не складываются, если вы обратили внимание. По поводу сущностей, которые "уже": Билл Гейтс, Уильям Гейтс, Уильям Генри Гейтс, Уильям Генри Гейтс III, Bill Gates, William Gates, William Henry Gates, William Henry Gates III - это один и тот же человек. Всего на двух языках. Без псевдонимов и пр.

> курсовик еще куда ни шло

Ваша цена решения этой задачи?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 19:21

#38192042

Кот Матроскин

Участник

Откуда: Москва
Сообщения: 2 329
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621,

guest_20040621По поводу сущностей, которые "уже": Билл Гейтс, Уильям Гейтс, Уильям Генри Гейтс, Уильям Генри Гейтс III, Bill Gates, William Gates, William Henry Gates, William Henry Gates III - это один и тот же человек. Всего на двух языках. Без псевдонимов и пр.

Ну прям rocket science, да.
Вы в книжных инет-магазинах давно были? Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п.
От системы не требуется догадываться, что Уильям Шекспир, Вильям Шекспир, У. Шекспир и William Shakespeare - одно и то же лицо, требуется только механизм для того, чтобы ей об этом сообщить.
Нет в задаче (так как она озвучена) ничего от ИИ, вообще. Поиск нужен, поиск. Чуть-чуть усовершенствованный стандартный поиск.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 19:46

#38192079

Arhat109

Участник

Откуда: из СССР
Сообщения: 2 387
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

Кот Матроскин,

перечитал первый пост внимательнее. Вы - правы. Нет там нифига. Разметка + движок по складыванию куда-либо + поиск по куда сложили.

(* а я -то обрадовался *)

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 20:03

#38192124

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п.

Мне не нужны сонеты на английском, если я ищу "Шекспир", не очевидно? Не нужно приводить в качестве примера гипотетические говнолавки, я не видел ни одного магазина, где поиск был бы реализован на приемлемом уровне. Хотя на самом деле поиск для книжного магазина - задача гораздо проще: указанные на обложке авторы имеют гораздо меньше вариантов именования в отличие от обычных людей. Обработка внешних источников - это нереальный геморрой. Хотите - верьте на слово, не хотите верить - пробуйте. Вам повезет, если будет необходимость обрабатывать издания с явной редакционной политикой, что на самом деле не правило, а исключение.

> не требуется догадываться

Именно не требуется. Система должна четко различать известные имена собственные, в т. ч. - сюрприз - написанные с ошибками. Причем, люди - это еще достаточно простая задача, для лавок, промышленных продуктов или топонимов все сильно хуже.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 21:18

#38192221

Кот Матроскин

Участник

Откуда: Москва
Сообщения: 2 329
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621> Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п.

Мне не нужны сонеты на английском, если я ищу "Шекспир", не очевидно?

Вообще говоря - нет, неочевидно. Если смотреть корреляции строк поиска и товаров, положенных в корзину - совсем неочевидно :)
Но какое это имеет отношение к нашим баранам? Если не хотите, что по поиску на "Билл Гейтс" показывались статейки,
привязанные к Bill Gates - ну так не ставьте между этими двумя сущностями связь "дубликат". Если хотите чтоб показывался - наоборот, ставьте. Все просто.

Вот что может представлять проблему - если "факты" в системе надо рассматривать не только как данные, а и как правила.
Т.е. при поиске "Все маньяки в Штатах" находить статью, в которой про Штаты вообще ни слова, но упоминается Калифорния, и есть факт "Калифорния - часть США". Если такая фича ТС-у нужна - да, трудоемкость сразу прыгает на порядок.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 21:47

#38192242

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> неочевидно

Я бы предположил, что язык поиска соответствует языку издания, не?

> Если не хотите, что по поиску на "Билл Гейтс" показывались статейки, привязанные к Bill Gates

У вас есть текст. Вам нужно найти совпадения с заранее заданными фрагментами. Фрагменты могут иметь несколько вариантов написания. Наборы фрагментов на разных языках не обязаны иметь соответствия. Подмножество наборов соответствует экземпляру некоторой сущности. Элементы наборов могут иметь несколько вхождений в разные наборы. Как вы будете показывать экземпляр сущности - дело десятое, вам нужно его идентифицировать.

> не ставьте между этими двумя сущностями связь "дубликат"

А и не будет такой связи. Это не дубликаты. Это разные варианты именования. Но - не синонимы.

> Вот что может представлять проблему

Нет, административно-территориальное деление - это достаточно просто, проблема здесь заключается в другом. Скажем, понятие "страны Персидского залива" включает в себя несколько стран и требует для описания дополнительную структуру. Или, например, обращение к части чего-либо: "север Италии".

Вы напрасно определили уровень задачи как курсовую работу, уверяю вас.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 22:13

#38192254

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

Добавлю: если для имен темпоральность достаточно естественна, то для остальных структур все может быть сложнее. Например, к БРИК с некоторого момента времени начали причислять и ЮАР, причем одновременно используются оба значения, определить состав можно только из контекста сообщения.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 22:15

#38192256

Кот Матроскин

Участник

Откуда: Москва
Сообщения: 2 329
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621У вас есть текст. Вам нужно найти совпадения с заранее заданными фрагментами.

Нет, еще раз. Вот это вот "нахождение совпадений" осуществляет по постановке оператор, а не система.
Не нужно системе выделять из текста "газета Guardian", а надо просто запомнить, когда оператор ей укажет "статья связана с сущностью газета Guardian". Если у сущности "Газета Guardian" есть (опять же установленная оператором) связь с сущностью "газета Гуардиан" - хорошо, нет - так и черт бы с ним, это ответственность оператора, не наша.

Административное деление - это для примера, конечно, само по себе оно не представляет проблемы, проблему представляет обработка в качестве правил произвольных фактов. Есть факты "у Билла Гейтса нет высшего образования", "Билл Гейтс - миллиардер", значит при поиске "Статьи про миллиардеров, не оканчивавших Гарвард" - должны показываться статьи про него.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

20.03.2013, 22:29

#38192277

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> это вот "нахождение совпадений" осуществляет по постановке оператор, а не система

Система как минимум должна предложить возможные варианты.

> нет - так и черт бы с ним, это ответственность оператора, не наша

Видите ли, такая обработка не делается как хобби. Как правило, источники ранжируются, пропускать ссылки на источники недопустимо.

> произвольных фактов

Вот за решение этой задачи я бы не взялся. А частные решения могут быть вполне интересны и коммерчески состоятельны.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

21.03.2013, 06:46

#38192491

Arhat109

Участник

Откуда: из СССР
Сообщения: 2 387
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621,

в той постановке, о которой говорите Вы - ничего "специально сложного" в общем-то тоже нет. Там только одна проблема: семантическое выделение контекста (часто пропущенного, т.е. восстановление отсутствующего контекста). Остальное - мелочи.

как уже писал, товарная строка "Альбом для рисования с/к б/к 40л. Лодка с парусом"

в одном контексте с/к -- это "с картонной [обложкой]", а в другом "с кисточкой"... а в третьем (близком - все три фирмы занимаются канцтоварами!) - это "с красками". Всё зависит от принятого сленга бухгалтера в данной конкретной фирме. К сожалению, последний в прайс листах часто пропущен. Вот его и приходится "восстанавливать".

... у меня ваще, такое "ощущение" что очень скоро эта проблема будет решена... и вопрос всяческих "автопонимателей", "автописателей ПО" - далеко "не за горами"...

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

21.03.2013, 09:46

#38192605

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> ничего "специально сложного" в общем-то тоже нет

В общем, действительно нет. Удовлетворительный разбор имен, топонимов и лавок я, пожалуй, уложу таблиц в двести за пару месяцев работы.

> товарная строка "Альбом для рисования с/к б/к 40л. Лодка с парусом"

А вот такой фигней я заниматься не буду. Две основных причины. Первая: стараюсь избегать даже потенциальных соприкосновений с говноподелками типа систем учета. Вторая: категорически избегаю контакта с пользователями таких говноподелок.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

21.03.2013, 12:23

#38192903

Mainframe_старый

Участник

Сообщения: 391
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

Arhat109 Остальное - мелочи.

гм .. этим "мелочам" посвящены большинство статей последних нескольких лет всех верхнетоповых американских ИТ-научных журналов типа ACM, IEEE.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

21.03.2013, 13:15

#38193045

Arhat109

Участник

Откуда: из СССР
Сообщения: 2 387
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

Mainframe_старый,

:) несколько "в курсе", поскольку сам занимаюсь этим вопросом уже лет так 10, если не больше... Хорошо, "уже мелочи". :)

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

25.03.2013, 09:46

#38196863

jnub

Участник

Сообщения: 32
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621Посмотрите на ваше решение: вы только перечислили некоторые из имен собственных (причем, с ошибками: Guardian - это газета, а не компания, то, что вы стыдливо объединили в "системы", имеет существенно разную природу, Брайан Арч - это эквивалент настоящего имени и пр.). При этом вы не отразили главный факт - публикацию рекламной статьи в газете (не говоря уже о кривом переводе этой статьи).

Это отличный пост. Сходу показывает разницу в интепретации.
Скажем, конкретно в моем случае "существенно разная природа" GPS vs Twitter не имеет принципиального значения.
Как и то, что Raytheon - скорее всего "высокотехнологичная", а Guardian - СМИ (причем последенее не отменяет того факта, что The Guardian скорее всего существует как юридическое лицо зарегистрированное по законам Великобритании).

Но в целом да, сразу становится понятно, что информационное наполнение будет напрямую зависеть от субъективного взгляда оператора

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

25.03.2013, 09:48

#38196870

jnub

Участник

Сообщения: 32
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

guest_20040621> почему "не рекомендовали бы"?

Потому, что это реально сложная задача и для ее решения нужна хорошая квалификация. Которой у человека, делающего элементарные ошибки при ее постановке, по определению быть не может.
Элементарные ошибки - это существенная разница между GPS и Twitter?
Это не Вы тут продвигали идею, что БД нельзя считать хоть сколько-нибудь нормализованной, пока в ней нет данных? :)

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

25.03.2013, 09:56

#38196885

jnub

Участник

Сообщения: 32
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

Вообще говоря, коллеги, на нынешнем этапе мне действительно нужно некое решение, которое будет показывать статику, оснащенное нормальным поиском.
Если это возможно - то готовое и бесплатное.

Что касается до какой-то степени автоматизированного разбора источников - ежу понятно, что отдельная "задача" :)
Понятно, что такую систему придётся "учить" (это к тому, что Калифорния - штат США, а еще и полуостров в Северной Америке на территории Мексики, а еще ... и так далее).
Даже разбирая руками статью, в которой написано "Компания "Рога и Копыта" из Калифорнии", оператору придётся указывать, что речь о той Калифорнии, которая штат США, а не той, которая в Мексике (хотя может он и прочитал по диагонали, и на самом дели таки речь шла про Мексику).

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

25.03.2013, 10:15

#38196906

Arhat109

Участник

Откуда: из СССР
Сообщения: 2 387
Рейтинг: 0 / 0

Разбор текстовых источников на артефакты (семантические сети?)

jnub,

посмотрите в сторону Spinx search или встраивание Яндекс поиска... оно бесплатно и готово. :)

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

25.03.2013, 10:19

#38196916

guest_20040621

Гость

Разбор текстовых источников на артефакты (семантические сети?)

> в моем случае "существенно разная природа" GPS vs Twitter не имеет принципиального значения

Это говорит о том, что вы не понимаете назначения систем обработки текста.

> информационное наполнение будет напрямую зависеть от субъективного взгляда оператора

Никак не будет зависеть при вменяемой реализации.

> Элементарные ошибки - это существенная разница между GPS и Twitter?

Вы внимательно прочли то, что вам написали?

> Это не Вы тут продвигали идею, что БД нельзя считать хоть сколько-нибудь нормализованной, пока в ней нет данных?

Дружище, меня можно справедливо упрекнуть в хм... излишней резкости суждений. Но никак не в том, что я - чал.

Задача в уточненной постановке не интересна ни с одной из возможных точек зрения, поскольку сформулирована криво до невозможности. Халявных решений вы не найдете.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&tablet=1&tid=1541331]:	0ms
get settings:	6ms
get forum list:	13ms
check forum access:	3ms
check topic access:	3ms
track hit:	46ms
get topic data:	10ms
get forum data:	3ms
get page messages:	56ms
get tp. blocked users:	1ms
others:	235ms

total:	376ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы