
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
20.03.2013, 12:29
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Вообще говоря, не уверен, что в этот раздел форума.. Но всё же.. Нужно некое решение для разбора неких текстовых источников на артефакты, хранения их и, само собой, поиска. Что я имею в виду Вот есть например случайная статья http://www.cnews.ru/top/2013/02/13/sozdana_programma_dlya_totalnoy_slezhki_za_grazhdanami_cherez_socseti_video_518940 В США разработано приложение, которое позволяет легко и быстро получить о человеке различную информацию, используя данные из соцсетей, а также узнавать, где и в какое время его можно встретить. Международная компания из американского штата Массачусетс Raytheon, пятый по величине поставщик решений для национальной безопасности, совместно с американским правительством разработала программное решение, которое позволяет следить за перемещениями людей и прогнозировать их поведение, используя данные из социальных сетей, сообщает Guardian. Разработка решения под названием Riot (Rapid Information Overlay Technology) заняла более 2 лет - проект был основан в 2010 г. С помощью Riot, созданной наподобие поисковой системы, за несколько кликов можно получить полный «снимок» жизни человека - узнать, с кем он дружит, посмотреть на карте, какие места он посещает, и другую информацию. Старший аналитик Raytheon Брайан Арч (Brian Urch) показал, как программа работает, на примере одного из сотрудников Raytheon по имени Ник. Получив информацию из социальных сетей, Арч с помощью Riot смог быстро установить, что Ник часто посещает Национальный парк в Вашингтоне, а также смог увидеть фотографию Ника с девушкой, сделанную в этом парке. «Мы знаем, где Ник бывает, и как он выглядит, - прокомментировал Арч. - Теперь мы попытаемся предсказать, где Ник может оказаться в будущем». Riot может строить диаграммы, указывая на взаимосвязь пользователя с другими людьми, анализируя его блог в Twitter. Также используются данные из Facebook и GPS-координаты из социальной сети Foursquare, с помощью которой около 25 млн людей в мире рассказывают друг другу о том, где в какой момент времени они находятся. Тут есть следующие сущности: - компании (Raytheon, Guardian) - лица (Брайан Арч) - системы (Facebook, GPS, Riot, Twitter) - места (США, Вашингтон, Массачусетс) - даты (2010) И факты: - Брайан Арч - Старший аналитик Raytheon - Raytheon - Международная компания из штата Массачусетс, США - Riot - приложение, которое позволяет получить о человеке информацию, используя данные из соцсетей В системе должен лежать источник, сущности, факты, и все они само собой должны быть взаимосвязаны. И поиск - поиск это основной смысл решения. Предполагается, что разбирать источник будет человек. могу ошибаться, но кажется должно подойти что-то вот из этого ( Список активных проектов семантических вики ) вопрос в чем - кто-нибудь что-нибудь из этого реально пользовал? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 16:32
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Если вы не только решите эту задачу, но и сможете ее автоматизировать, заработаете бабла больше, чем С. Брин. Посмотрите на ваше решение: вы только перечислили некоторые из имен собственных (причем, с ошибками: Guardian - это газета, а не компания, то, что вы стыдливо объединили в "системы", имеет существенно разную природу, Брайан Арч - это эквивалент настоящего имени и пр.). При этом вы не отразили главный факт - публикацию рекламной статьи в газете (не говоря уже о кривом переводе этой статьи). Семантические вики вам не помогут, у них другая цель: простое статическое соответствие. Вообще, я бы не рекомендовал вам браться за решение этой задачи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 16:34
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621, интересно почему "не рекомендовали бы"? Насколько понимаю, задача ещё далека от решения и достаточно интересна. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 17:05
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> почему "не рекомендовали бы"? Потому, что это реально сложная задача и для ее решения нужна хорошая квалификация. Которой у человека, делающего элементарные ошибки при ее постановке, по определению быть не может. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 17:07
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
А сможет ли ваша система разобрать контекст в котором, к примеру, слово достоевский является синонимом слова баттхерт ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 17:38
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621, у ТС авторПредполагается, что разбирать источник будет человек. Т.е. все эти сущности и факты нам в базу уже складывают готовенькими, надо только делать поиск по ним. В такой-то постановке что в задаче сложного? Ну типизация сущностей. Ну типизация фактов. Все это имхо даже на дипломный проект не очень тянет - курсовик еще куда ни шло. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 18:45
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> сущности и факты нам в базу уже складывают готовенькими Факты никак не складываются, если вы обратили внимание. По поводу сущностей, которые "уже": Билл Гейтс, Уильям Гейтс, Уильям Генри Гейтс, Уильям Генри Гейтс III, Bill Gates, William Gates, William Henry Gates, William Henry Gates III - это один и тот же человек. Всего на двух языках. Без псевдонимов и пр. > курсовик еще куда ни шло Ваша цена решения этой задачи? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 19:21
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621, guest_20040621По поводу сущностей, которые "уже": Билл Гейтс, Уильям Гейтс, Уильям Генри Гейтс, Уильям Генри Гейтс III, Bill Gates, William Gates, William Henry Gates, William Henry Gates III - это один и тот же человек. Всего на двух языках. Без псевдонимов и пр. Ну прям rocket science, да. Вы в книжных инет-магазинах давно были? Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п. От системы не требуется догадываться, что Уильям Шекспир, Вильям Шекспир, У. Шекспир и William Shakespeare - одно и то же лицо, требуется только механизм для того, чтобы ей об этом сообщить. Нет в задаче (так как она озвучена) ничего от ИИ, вообще. Поиск нужен, поиск. Чуть-чуть усовершенствованный стандартный поиск. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 19:46
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Кот Матроскин, перечитал первый пост внимательнее. Вы - правы. Нет там нифига. Разметка + движок по складыванию куда-либо + поиск по куда сложили. (* а я -то обрадовался *) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 20:03
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п. Мне не нужны сонеты на английском, если я ищу "Шекспир", не очевидно? Не нужно приводить в качестве примера гипотетические говнолавки, я не видел ни одного магазина, где поиск был бы реализован на приемлемом уровне. Хотя на самом деле поиск для книжного магазина - задача гораздо проще: указанные на обложке авторы имеют гораздо меньше вариантов именования в отличие от обычных людей. Обработка внешних источников - это нереальный геморрой. Хотите - верьте на слово, не хотите верить - пробуйте. Вам повезет, если будет необходимость обрабатывать издания с явной редакционной политикой, что на самом деле не правило, а исключение. > не требуется догадываться Именно не требуется. Система должна четко различать известные имена собственные, в т. ч. - сюрприз - написанные с ошибками. Причем, люди - это еще достаточно простая задача, для лавок, промышленных продуктов или топонимов все сильно хуже. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 21:18
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621> Поиск по автору "Уильям Шекспир" найдет Вам и сонеты на английском William Shakespeare, и т.п. Мне не нужны сонеты на английском, если я ищу "Шекспир", не очевидно? Вообще говоря - нет, неочевидно. Если смотреть корреляции строк поиска и товаров, положенных в корзину - совсем неочевидно :) Но какое это имеет отношение к нашим баранам? Если не хотите, что по поиску на "Билл Гейтс" показывались статейки, привязанные к Bill Gates - ну так не ставьте между этими двумя сущностями связь "дубликат". Если хотите чтоб показывался - наоборот, ставьте. Все просто. Вот что может представлять проблему - если "факты" в системе надо рассматривать не только как данные, а и как правила. Т.е. при поиске "Все маньяки в Штатах" находить статью, в которой про Штаты вообще ни слова, но упоминается Калифорния, и есть факт "Калифорния - часть США". Если такая фича ТС-у нужна - да, трудоемкость сразу прыгает на порядок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 21:47
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> неочевидно Я бы предположил, что язык поиска соответствует языку издания, не? > Если не хотите, что по поиску на "Билл Гейтс" показывались статейки, привязанные к Bill Gates У вас есть текст. Вам нужно найти совпадения с заранее заданными фрагментами. Фрагменты могут иметь несколько вариантов написания. Наборы фрагментов на разных языках не обязаны иметь соответствия. Подмножество наборов соответствует экземпляру некоторой сущности. Элементы наборов могут иметь несколько вхождений в разные наборы. Как вы будете показывать экземпляр сущности - дело десятое, вам нужно его идентифицировать. > не ставьте между этими двумя сущностями связь "дубликат" А и не будет такой связи. Это не дубликаты. Это разные варианты именования. Но - не синонимы. > Вот что может представлять проблему Нет, административно-территориальное деление - это достаточно просто, проблема здесь заключается в другом. Скажем, понятие "страны Персидского залива" включает в себя несколько стран и требует для описания дополнительную структуру. Или, например, обращение к части чего-либо: "север Италии". Вы напрасно определили уровень задачи как курсовую работу, уверяю вас. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 22:13
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Добавлю: если для имен темпоральность достаточно естественна, то для остальных структур все может быть сложнее. Например, к БРИК с некоторого момента времени начали причислять и ЮАР, причем одновременно используются оба значения, определить состав можно только из контекста сообщения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 22:15
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621У вас есть текст. Вам нужно найти совпадения с заранее заданными фрагментами. Нет, еще раз. Вот это вот "нахождение совпадений" осуществляет по постановке оператор, а не система. Не нужно системе выделять из текста "газета Guardian", а надо просто запомнить, когда оператор ей укажет "статья связана с сущностью газета Guardian". Если у сущности "Газета Guardian" есть (опять же установленная оператором) связь с сущностью "газета Гуардиан" - хорошо, нет - так и черт бы с ним, это ответственность оператора, не наша. Административное деление - это для примера, конечно, само по себе оно не представляет проблемы, проблему представляет обработка в качестве правил произвольных фактов. Есть факты "у Билла Гейтса нет высшего образования", "Билл Гейтс - миллиардер", значит при поиске "Статьи про миллиардеров, не оканчивавших Гарвард" - должны показываться статьи про него. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
20.03.2013, 22:29
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> это вот "нахождение совпадений" осуществляет по постановке оператор, а не система Система как минимум должна предложить возможные варианты. > нет - так и черт бы с ним, это ответственность оператора, не наша Видите ли, такая обработка не делается как хобби. Как правило, источники ранжируются, пропускать ссылки на источники недопустимо. > произвольных фактов Вот за решение этой задачи я бы не взялся. А частные решения могут быть вполне интересны и коммерчески состоятельны. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
21.03.2013, 06:46
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621, в той постановке, о которой говорите Вы - ничего "специально сложного" в общем-то тоже нет. Там только одна проблема: семантическое выделение контекста (часто пропущенного, т.е. восстановление отсутствующего контекста). Остальное - мелочи. как уже писал, товарная строка "Альбом для рисования с/к б/к 40л. Лодка с парусом" в одном контексте с/к -- это "с картонной [обложкой]", а в другом "с кисточкой"... а в третьем (близком - все три фирмы занимаются канцтоварами!) - это "с красками". Всё зависит от принятого сленга бухгалтера в данной конкретной фирме. К сожалению, последний в прайс листах часто пропущен. Вот его и приходится "восстанавливать". ... у меня ваще, такое "ощущение" что очень скоро эта проблема будет решена... и вопрос всяческих "автопонимателей", "автописателей ПО" - далеко "не за горами"... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
21.03.2013, 09:46
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> ничего "специально сложного" в общем-то тоже нет В общем, действительно нет. Удовлетворительный разбор имен, топонимов и лавок я, пожалуй, уложу таблиц в двести за пару месяцев работы. > товарная строка "Альбом для рисования с/к б/к 40л. Лодка с парусом" А вот такой фигней я заниматься не буду. Две основных причины. Первая: стараюсь избегать даже потенциальных соприкосновений с говноподелками типа систем учета. Вторая: категорически избегаю контакта с пользователями таких говноподелок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
21.03.2013, 12:23
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Arhat109 Остальное - мелочи. гм .. этим "мелочам" посвящены большинство статей последних нескольких лет всех верхнетоповых американских ИТ-научных журналов типа ACM, IEEE. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
21.03.2013, 13:15
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Mainframe_старый, :) несколько "в курсе", поскольку сам занимаюсь этим вопросом уже лет так 10, если не больше... Хорошо, "уже мелочи". :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
25.03.2013, 09:46
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621Посмотрите на ваше решение: вы только перечислили некоторые из имен собственных (причем, с ошибками: Guardian - это газета, а не компания, то, что вы стыдливо объединили в "системы", имеет существенно разную природу, Брайан Арч - это эквивалент настоящего имени и пр.). При этом вы не отразили главный факт - публикацию рекламной статьи в газете (не говоря уже о кривом переводе этой статьи). Это отличный пост. Сходу показывает разницу в интепретации. Скажем, конкретно в моем случае "существенно разная природа" GPS vs Twitter не имеет принципиального значения. Как и то, что Raytheon - скорее всего "высокотехнологичная", а Guardian - СМИ (причем последенее не отменяет того факта, что The Guardian скорее всего существует как юридическое лицо зарегистрированное по законам Великобритании). Но в целом да, сразу становится понятно, что информационное наполнение будет напрямую зависеть от субъективного взгляда оператора ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
25.03.2013, 09:48
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
guest_20040621> почему "не рекомендовали бы"? Потому, что это реально сложная задача и для ее решения нужна хорошая квалификация. Которой у человека, делающего элементарные ошибки при ее постановке, по определению быть не может. Элементарные ошибки - это существенная разница между GPS и Twitter? Это не Вы тут продвигали идею, что БД нельзя считать хоть сколько-нибудь нормализованной, пока в ней нет данных? :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
25.03.2013, 09:56
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
Вообще говоря, коллеги, на нынешнем этапе мне действительно нужно некое решение, которое будет показывать статику, оснащенное нормальным поиском. Если это возможно - то готовое и бесплатное. Что касается до какой-то степени автоматизированного разбора источников - ежу понятно, что отдельная "задача" :) Понятно, что такую систему придётся "учить" (это к тому, что Калифорния - штат США, а еще и полуостров в Северной Америке на территории Мексики, а еще ... и так далее). Даже разбирая руками статью, в которой написано "Компания "Рога и Копыта" из Калифорнии", оператору придётся указывать, что речь о той Калифорнии, которая штат США, а не той, которая в Мексике (хотя может он и прочитал по диагонали, и на самом дели таки речь шла про Мексику). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
25.03.2013, 10:15
|
|||
|---|---|---|---|
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
jnub, посмотрите в сторону Spinx search или встраивание Яндекс поиска... оно бесплатно и готово. :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
25.03.2013, 10:19
|
|||
|---|---|---|---|
|
|||
Разбор текстовых источников на артефакты (семантические сети?) |
|||
|
#18+
> в моем случае "существенно разная природа" GPS vs Twitter не имеет принципиального значения Это говорит о том, что вы не понимаете назначения систем обработки текста. > информационное наполнение будет напрямую зависеть от субъективного взгляда оператора Никак не будет зависеть при вменяемой реализации. > Элементарные ошибки - это существенная разница между GPS и Twitter? Вы внимательно прочли то, что вам написали? > Это не Вы тут продвигали идею, что БД нельзя считать хоть сколько-нибудь нормализованной, пока в ней нет данных? Дружище, меня можно справедливо упрекнуть в хм... излишней резкости суждений. Но никак не в том, что я - чал. Задача в уточненной постановке не интересна ни с одной из возможных точек зрения, поскольку сформулирована криво до невозможности. Халявных решений вы не найдете. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=32&mobile=1&tid=1541331]: |
0ms |
get settings: |
6ms |
get forum list: |
16ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
146ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
69ms |
get tp. blocked users: |
1ms |
| others: | 271ms |
| total: | 528ms |

| 0 / 0 |
