Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Разбор текстовых источников на артефакты (семантические сети?) / 24 сообщений из 24, страница 1 из 1
20.03.2013, 12:29
    #38191204
jnub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Вообще говоря, не уверен, что в этот раздел форума.. Но всё же..



Нужно некое решение для разбора неких текстовых источников на артефакты, хранения их и, само собой, поиска.

Что я имею в виду

Вот есть например случайная статья http://www.cnews.ru/top/2013/02/13/sozdana_programma_dlya_totalnoy_slezhki_za_grazhdanami_cherez_socseti_video_518940

В США разработано приложение, которое позволяет легко и быстро получить о человеке различную информацию, используя данные из соцсетей, а также узнавать, где и в какое время его можно встретить.

Международная компания из американского штата Массачусетс Raytheon, пятый по величине поставщик решений для национальной безопасности, совместно с американским правительством разработала программное решение, которое позволяет следить за перемещениями людей и прогнозировать их поведение, используя данные из социальных сетей, сообщает Guardian.

Разработка решения под названием Riot (Rapid Information Overlay Technology) заняла более 2 лет - проект был основан в 2010 г.

С помощью Riot, созданной наподобие поисковой системы, за несколько кликов можно получить полный «снимок» жизни человека - узнать, с кем он дружит, посмотреть на карте, какие места он посещает, и другую информацию. Старший аналитик Raytheon Брайан Арч (Brian Urch) показал, как программа работает, на примере одного из сотрудников Raytheon по имени Ник.

Получив информацию из социальных сетей, Арч с помощью Riot смог быстро установить, что Ник часто посещает Национальный парк в Вашингтоне, а также смог увидеть фотографию Ника с девушкой, сделанную в этом парке. «Мы знаем, где Ник бывает, и как он выглядит, - прокомментировал Арч. - Теперь мы попытаемся предсказать, где Ник может оказаться в будущем».

Riot может строить диаграммы, указывая на взаимосвязь пользователя с другими людьми, анализируя его блог в Twitter. Также используются данные из Facebook и GPS-координаты из социальной сети Foursquare, с помощью которой около 25 млн людей в мире рассказывают друг другу о том, где в какой момент времени они находятся.


Тут есть следующие сущности:
- компании (Raytheon, Guardian)
- лица (Брайан Арч)
- системы (Facebook, GPS, Riot, Twitter)
- места (США, Вашингтон, Массачусетс)
- даты (2010)

И факты:
- Брайан Арч - Старший аналитик Raytheon
- Raytheon - Международная компания из штата Массачусетс, США
- Riot - приложение, которое позволяет получить о человеке информацию, используя данные из соцсетей

В системе должен лежать источник, сущности, факты, и все они само собой должны быть взаимосвязаны.
И поиск - поиск это основной смысл решения.
Предполагается, что разбирать источник будет человек.


могу ошибаться, но кажется должно подойти что-то вот из этого ( Список активных проектов семантических вики )

вопрос в чем - кто-нибудь что-нибудь из этого реально пользовал?
...
Рейтинг: 0 / 0
20.03.2013, 16:32
    #38191688
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Если вы не только решите эту задачу, но и сможете ее автоматизировать, заработаете бабла больше, чем С. Брин.

Посмотрите на ваше решение: вы только перечислили некоторые из имен собственных (причем, с ошибками: Guardian - это газета, а не компания, то, что вы стыдливо объединили в "системы", имеет существенно разную природу, Брайан Арч - это эквивалент настоящего имени и пр.). При этом вы не отразили главный факт - публикацию рекламной статьи в газете (не говоря уже о кривом переводе этой статьи).

Семантические вики вам не помогут, у них другая цель: простое статическое соответствие. Вообще, я бы не рекомендовал вам браться за решение этой задачи.
...
Рейтинг: 0 / 0
20.03.2013, 16:34
    #38191696
Arhat109
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621,

интересно почему "не рекомендовали бы"?

Насколько понимаю, задача ещё далека от решения и достаточно интересна.
...
Рейтинг: 0 / 0
20.03.2013, 17:05
    #38191778
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> почему "не рекомендовали бы"?

Потому, что это реально сложная задача и для ее решения нужна хорошая квалификация. Которой у человека, делающего элементарные ошибки при ее постановке, по определению быть не может.
...
Рейтинг: 0 / 0
20.03.2013, 17:07
    #38191782
Лагман
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
А сможет ли ваша система разобрать контекст в котором, к примеру, слово достоевский является синонимом слова баттхерт ?
...
Рейтинг: 0 / 0
20.03.2013, 17:38
    #38191850
Кот Матроскин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621,

у ТС
авторПредполагается, что разбирать источник будет человек.


Т.е. все эти сущности и факты нам в базу уже складывают готовенькими, надо только делать поиск по ним. В такой-то постановке что в задаче сложного? Ну типизация сущностей. Ну типизация фактов. Все это имхо даже на дипломный проект не очень тянет - курсовик еще куда ни шло.
...
Рейтинг: 0 / 0
20.03.2013, 18:45
    #38191992
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> сущности и факты нам в базу уже складывают готовенькими

Факты никак не складываются, если вы обратили внимание. По поводу сущностей, которые "уже": Билл Гейтс, Уильям Гейтс, Уильям Генри Гейтс, Уильям Генри Гейтс III, Bill Gates, William Gates, William Henry Gates, William Henry Gates III - это один и тот же человек. Всего на двух языках. Без псевдонимов и пр.

> курсовик еще куда ни шло

Ваша цена решения этой задачи?
...
Рейтинг: 0 / 0
20.03.2013, 19:21
    #38192042
Кот Матроскин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621,

guest_20040621По поводу сущностей, которые "уже": Билл Гейтс, Уильям Гейтс, Уильям Генри Гейтс, Уильям Генри Гейтс III, Bill Gates, William Gates, William Henry Gates, William Henry Gates III - это один и тот же человек. Всего на двух языках. Без псевдонимов и пр.


Ну прям rocket science, да.
Вы в книжных инет-магазинах давно были? Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п.
От системы не требуется догадываться, что Уильям Шекспир, Вильям Шекспир, У. Шекспир и William Shakespeare - одно и то же лицо, требуется только механизм для того, чтобы ей об этом сообщить.
Нет в задаче (так как она озвучена) ничего от ИИ, вообще. Поиск нужен, поиск. Чуть-чуть усовершенствованный стандартный поиск.
...
Рейтинг: 0 / 0
20.03.2013, 19:46
    #38192079
Arhat109
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Кот Матроскин,

перечитал первый пост внимательнее. Вы - правы. Нет там нифига. Разметка + движок по складыванию куда-либо + поиск по куда сложили.

(* а я -то обрадовался *)
...
Рейтинг: 0 / 0
20.03.2013, 20:03
    #38192124
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п.

Мне не нужны сонеты на английском, если я ищу "Шекспир", не очевидно? Не нужно приводить в качестве примера гипотетические говнолавки, я не видел ни одного магазина, где поиск был бы реализован на приемлемом уровне. Хотя на самом деле поиск для книжного магазина - задача гораздо проще: указанные на обложке авторы имеют гораздо меньше вариантов именования в отличие от обычных людей. Обработка внешних источников - это нереальный геморрой. Хотите - верьте на слово, не хотите верить - пробуйте. Вам повезет, если будет необходимость обрабатывать издания с явной редакционной политикой, что на самом деле не правило, а исключение.

> не требуется догадываться

Именно не требуется. Система должна четко различать известные имена собственные, в т. ч. - сюрприз - написанные с ошибками. Причем, люди - это еще достаточно простая задача, для лавок, промышленных продуктов или топонимов все сильно хуже.
...
Рейтинг: 0 / 0
20.03.2013, 21:18
    #38192221
Кот Матроскин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621> Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п.

Мне не нужны сонеты на английском, если я ищу "Шекспир", не очевидно?

Вообще говоря - нет, неочевидно. Если смотреть корреляции строк поиска и товаров, положенных в корзину - совсем неочевидно :)
Но какое это имеет отношение к нашим баранам? Если не хотите, что по поиску на "Билл Гейтс" показывались статейки,
привязанные к Bill Gates - ну так не ставьте между этими двумя сущностями связь "дубликат". Если хотите чтоб показывался - наоборот, ставьте. Все просто.

Вот что может представлять проблему - если "факты" в системе надо рассматривать не только как данные, а и как правила.
Т.е. при поиске "Все маньяки в Штатах" находить статью, в которой про Штаты вообще ни слова, но упоминается Калифорния, и есть факт "Калифорния - часть США". Если такая фича ТС-у нужна - да, трудоемкость сразу прыгает на порядок.
...
Рейтинг: 0 / 0
20.03.2013, 21:47
    #38192242
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> неочевидно

Я бы предположил, что язык поиска соответствует языку издания, не?

> Если не хотите, что по поиску на "Билл Гейтс" показывались статейки, привязанные к Bill Gates

У вас есть текст. Вам нужно найти совпадения с заранее заданными фрагментами. Фрагменты могут иметь несколько вариантов написания. Наборы фрагментов на разных языках не обязаны иметь соответствия. Подмножество наборов соответствует экземпляру некоторой сущности. Элементы наборов могут иметь несколько вхождений в разные наборы. Как вы будете показывать экземпляр сущности - дело десятое, вам нужно его идентифицировать.

> не ставьте между этими двумя сущностями связь "дубликат"

А и не будет такой связи. Это не дубликаты. Это разные варианты именования. Но - не синонимы.

> Вот что может представлять проблему

Нет, административно-территориальное деление - это достаточно просто, проблема здесь заключается в другом. Скажем, понятие "страны Персидского залива" включает в себя несколько стран и требует для описания дополнительную структуру. Или, например, обращение к части чего-либо: "север Италии".

Вы напрасно определили уровень задачи как курсовую работу, уверяю вас.
...
Рейтинг: 0 / 0
20.03.2013, 22:13
    #38192254
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Добавлю: если для имен темпоральность достаточно естественна, то для остальных структур все может быть сложнее. Например, к БРИК с некоторого момента времени начали причислять и ЮАР, причем одновременно используются оба значения, определить состав можно только из контекста сообщения.
...
Рейтинг: 0 / 0
20.03.2013, 22:15
    #38192256
Кот Матроскин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621У вас есть текст. Вам нужно найти совпадения с заранее заданными фрагментами.

Нет, еще раз. Вот это вот "нахождение совпадений" осуществляет по постановке оператор, а не система.
Не нужно системе выделять из текста "газета Guardian", а надо просто запомнить, когда оператор ей укажет "статья связана с сущностью газета Guardian". Если у сущности "Газета Guardian" есть (опять же установленная оператором) связь с сущностью "газета Гуардиан" - хорошо, нет - так и черт бы с ним, это ответственность оператора, не наша.

Административное деление - это для примера, конечно, само по себе оно не представляет проблемы, проблему представляет обработка в качестве правил произвольных фактов. Есть факты "у Билла Гейтса нет высшего образования", "Билл Гейтс - миллиардер", значит при поиске "Статьи про миллиардеров, не оканчивавших Гарвард" - должны показываться статьи про него.
...
Рейтинг: 0 / 0
20.03.2013, 22:29
    #38192277
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> это вот "нахождение совпадений" осуществляет по постановке оператор, а не система

Система как минимум должна предложить возможные варианты.

> нет - так и черт бы с ним, это ответственность оператора, не наша

Видите ли, такая обработка не делается как хобби. Как правило, источники ранжируются, пропускать ссылки на источники недопустимо.

> произвольных фактов

Вот за решение этой задачи я бы не взялся. А частные решения могут быть вполне интересны и коммерчески состоятельны.
...
Рейтинг: 0 / 0
21.03.2013, 06:46
    #38192491
Arhat109
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621,

в той постановке, о которой говорите Вы - ничего "специально сложного" в общем-то тоже нет. Там только одна проблема: семантическое выделение контекста (часто пропущенного, т.е. восстановление отсутствующего контекста). Остальное - мелочи.

как уже писал, товарная строка "Альбом для рисования с/к б/к 40л. Лодка с парусом"

в одном контексте с/к -- это "с картонной [обложкой]", а в другом "с кисточкой"... а в третьем (близком - все три фирмы занимаются канцтоварами!) - это "с красками". Всё зависит от принятого сленга бухгалтера в данной конкретной фирме. К сожалению, последний в прайс листах часто пропущен. Вот его и приходится "восстанавливать".

... у меня ваще, такое "ощущение" что очень скоро эта проблема будет решена... и вопрос всяческих "автопонимателей", "автописателей ПО" - далеко "не за горами"...
...
Рейтинг: 0 / 0
21.03.2013, 09:46
    #38192605
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> ничего "специально сложного" в общем-то тоже нет

В общем, действительно нет. Удовлетворительный разбор имен, топонимов и лавок я, пожалуй, уложу таблиц в двести за пару месяцев работы.

> товарная строка "Альбом для рисования с/к б/к 40л. Лодка с парусом"

А вот такой фигней я заниматься не буду. Две основных причины. Первая: стараюсь избегать даже потенциальных соприкосновений с говноподелками типа систем учета. Вторая: категорически избегаю контакта с пользователями таких говноподелок.
...
Рейтинг: 0 / 0
21.03.2013, 12:23
    #38192903
Mainframe_старый
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Arhat109 Остальное - мелочи.

гм .. этим "мелочам" посвящены большинство статей последних нескольких лет всех верхнетоповых американских ИТ-научных журналов типа ACM, IEEE.
...
Рейтинг: 0 / 0
21.03.2013, 13:15
    #38193045
Arhat109
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Mainframe_старый,

:) несколько "в курсе", поскольку сам занимаюсь этим вопросом уже лет так 10, если не больше... Хорошо, "уже мелочи". :)
...
Рейтинг: 0 / 0
25.03.2013, 09:46
    #38196863
jnub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621Посмотрите на ваше решение: вы только перечислили некоторые из имен собственных (причем, с ошибками: Guardian - это газета, а не компания, то, что вы стыдливо объединили в "системы", имеет существенно разную природу, Брайан Арч - это эквивалент настоящего имени и пр.). При этом вы не отразили главный факт - публикацию рекламной статьи в газете (не говоря уже о кривом переводе этой статьи).

Это отличный пост. Сходу показывает разницу в интепретации.
Скажем, конкретно в моем случае "существенно разная природа" GPS vs Twitter не имеет принципиального значения.
Как и то, что Raytheon - скорее всего "высокотехнологичная", а Guardian - СМИ (причем последенее не отменяет того факта, что The Guardian скорее всего существует как юридическое лицо зарегистрированное по законам Великобритании).

Но в целом да, сразу становится понятно, что информационное наполнение будет напрямую зависеть от субъективного взгляда оператора
...
Рейтинг: 0 / 0
25.03.2013, 09:48
    #38196870
jnub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
guest_20040621> почему "не рекомендовали бы"?

Потому, что это реально сложная задача и для ее решения нужна хорошая квалификация. Которой у человека, делающего элементарные ошибки при ее постановке, по определению быть не может.
Элементарные ошибки - это существенная разница между GPS и Twitter?
Это не Вы тут продвигали идею, что БД нельзя считать хоть сколько-нибудь нормализованной, пока в ней нет данных? :)
...
Рейтинг: 0 / 0
25.03.2013, 09:56
    #38196885
jnub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
Вообще говоря, коллеги, на нынешнем этапе мне действительно нужно некое решение, которое будет показывать статику, оснащенное нормальным поиском.
Если это возможно - то готовое и бесплатное.

Что касается до какой-то степени автоматизированного разбора источников - ежу понятно, что отдельная "задача" :)
Понятно, что такую систему придётся "учить" (это к тому, что Калифорния - штат США, а еще и полуостров в Северной Америке на территории Мексики, а еще ... и так далее).
Даже разбирая руками статью, в которой написано "Компания "Рога и Копыта" из Калифорнии", оператору придётся указывать, что речь о той Калифорнии, которая штат США, а не той, которая в Мексике (хотя может он и прочитал по диагонали, и на самом дели таки речь шла про Мексику).
...
Рейтинг: 0 / 0
25.03.2013, 10:15
    #38196906
Arhat109
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
jnub,

посмотрите в сторону Spinx search или встраивание Яндекс поиска... оно бесплатно и готово. :)
...
Рейтинг: 0 / 0
25.03.2013, 10:19
    #38196916
guest_20040621
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор текстовых источников на артефакты (семантические сети?)
> в моем случае "существенно разная природа" GPS vs Twitter не имеет принципиального значения

Это говорит о том, что вы не понимаете назначения систем обработки текста.

> информационное наполнение будет напрямую зависеть от субъективного взгляда оператора

Никак не будет зависеть при вменяемой реализации.

> Элементарные ошибки - это существенная разница между GPS и Twitter?

Вы внимательно прочли то, что вам написали?

> Это не Вы тут продвигали идею, что БД нельзя считать хоть сколько-нибудь нормализованной, пока в ней нет данных?

Дружище, меня можно справедливо упрекнуть в хм... излишней резкости суждений. Но никак не в том, что я - чал.

Задача в уточненной постановке не интересна ни с одной из возможных точек зрения, поскольку сформулирована криво до невозможности. Халявных решений вы не найдете.
...
Рейтинг: 0 / 0
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Разбор текстовых источников на артефакты (семантические сети?) / 24 сообщений из 24, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]