Имя: Пароль:
IT
 
Программный синтаксической анализ текста
0 mzelensky
 
04.03.13
13:40
На выходных видел передачку посвященную ГУГЛУ (Канал "Наука 2.0" - не сочтите за рекламу, просто не хочется быть безосновательным). Там рассказывалось про механизмы рекламы и затронулиодин интересный момент - гугловская система анализирует потоки входящий и исходящих писем (текст писем) и в зависимости от содержания подбрасывает их источнику определенную рекламу.

Например в письме я пишу, что хочу в близжайшее время поехать в отпуск. Система анализирует мое письмо и подкидывает мне рекламу всяческих туров, путевок и т.д.

Так вот что стало интересно мне - каким образом система производит анализ текста, т.е. как она понимает о чем идет речь в тексте?! Конечно самое банальное это проверка определенных (заранее подготовленных) ключевых слов и словосочетаний...но что-то мне одсказывает, что ГУГ не так прост...Так как это можно реализовать?!
1 Ursus maritimus
 
04.03.13
13:42
Т.е. ты хочешь самостоятельно реализовать то, что в гугле реализуют много лет много разработчиков?
Имхо, начни со строительства небольшого датацентра.
2 mzelensky
 
04.03.13
13:45
(1) я где-то написал, что хочу это реализовать???

В принципе конечно хочу, но сейчас вопрос не в этом, а в самом ПРИНЦИПЕ!
3 mzelensky
 
04.03.13
13:45
Нашел интересный сайт:

http://vallaam.livejournal.com/68186.html
4 MSII
 
04.03.13
13:46
Да никак. ИИ нужен.
5 mzelensky
 
04.03.13
13:48
(4) Что значит НИКАК?! как-то же делают!
6 Базис
 
naïve
04.03.13
13:50
На форуме был автобот, если не путаю название. Вот он на простые вопросы давал ответы. Поищи его тексты, посмотри - на что он одинаково отвечал, затем понимай и кодь его логику.
7 MSII
 
04.03.13
13:51
(5) Так и делают, как у тебя написано - анализируя вхождения известны подстрок.
8 badboychik
 
04.03.13
13:51
базы из пары сотен слов мне кажется хватит чтобы тупо по вхождению определять любую тематику объявлений
9 MSII
 
04.03.13
13:52
А контекст не анализируется. Например, глядя на эту ветку, гуглоробот сделает вывод, что ТС собирается в отпуск.
10 mzelensky
 
04.03.13
13:53
(8) ну не совсем, особенно когда текст довольно длинный и в нем человек пишет не по конкретно одной тематики, а скажем так...ОБЩАЕТСЯ, т.е. рассказывает обо всем по чуть-чуть.
11 mzelensky
 
04.03.13
13:54
(9) вот это и интересно - идет анализ СМЫСЛОВОЙ нагрузки или нет. Мне кажется такой анализ должен быть обязательно.
12 Defender aka LINN
 
04.03.13
13:55
(10) Заведи почту в гугле и смотре, какую рекламу он тебе подсовывать будет
13 MSII
 
04.03.13
13:57
(11) Шутишь? "Здравствуй, мама! Приснилось мне намедни, что собираюсь я поехать в отпуск. Жаль, что это только сон, а в действительности денег у меня нет, загранпаспорта нет да и вообще, сидеть мне еще на нарах минимум 7 лет, даже с учетом возможного условно-досрочного". Без ИИ точный анализ такого текста не взлетит.
14 mzelensky
 
04.03.13
13:58
(13) что ты понимаешь под "ИИ" ??? Терминаторов ???

Есть куча программок, которые играют в шахматы, например - это ИИ???
15 mzelensky
 
04.03.13
13:59
(12) что толку мне смотреть на рекламу...
16 MSII
 
04.03.13
14:00
(14) Нет, это не ИИ.
ИИ должен уметь анализировать сообщение с учетом контекста.
17 badboychik
 
04.03.13
14:02
(13) а что гугл предложит по этому отрывку по твоему? Чифир и сонник?
18 cincout
 
04.03.13
14:03
(13) думаю по ключевому слову "нары" может предложить каталог мыльной продукции
19 mzelensky
 
04.03.13
14:05
(16) Программы умеющие это работали еще в 80-х годах. Еще тогда программа могла общаться с человеком (типа чата) в течении получаса и при этом не выдавать себя (т.е. создавалось впечатление ,что общаешься с реальным человеком).
20 badboychik
 
04.03.13
14:13
есть такой алгоритм - Байеса. Который в спам-фильтрах стоит, анализирует статистические параметры текста, если каких то слов из списка больше некоторого порога, то письмо считается спамом. Так и тут. Анализирует не только письма но и страницы по которым переходишь в поиске, набирает статистику и выдает более подходящие рекламы
21 Defender aka LINN
 
04.03.13
14:13
(15) Получишь ответ на свой вопрос
22 MSII
 
04.03.13
14:18
(19) Это не то, это бот обыкновенный, контекст он не анализирует. В общем, как человек он текст не обработает.
23 3V
 
04.03.13
14:19
+(20) http://msdn.microsoft.com/ru-ru/library/ms174806.aspx
ну воть типа для начала курения темы ТС
24 mzelensky
 
04.03.13
14:23
(21) Мой вопрос не в конечно результате (т.е какую рекламу они мне подсунут в итге), а в самом процессе (т.е. как они определяют, какую именно рекламу подсунуть)
25 mzelensky
 
04.03.13
14:24
(19) да что ты говоришь :) А как же он тогда без проблем общается на протяжении 30-60 минут? Думаешь там обычные "Если ИначеЕсли Иначе " ???
26 Бледно Золотистый
 
04.03.13
14:24
(19) Может я чего пропустил, но тест Тьюринга вроде еще не прошли.
27 mzelensky
 
04.03.13
14:26
(23) Спасибо, почитаем!
28 MSII
 
04.03.13
14:28
(24) Как поисковик формирует выдачу для тебя? Вот примерно так же, только вместо страниц - направления твоих интересов. При высокой концентрации в твоем тексте слов и фраз типа "отпуск, Анталия, олинклюзив, бухать с утра до ночи" логично предложить тебе тур. Естественно, математика там чуть сложнее - веса всякие и т.п. Ну по сути именно так.
29 mzelensky
 
04.03.13
14:30
(26) Вроде нет. Но есть ОЧЕНЬ продвинутые программы.
30 MSII
 
04.03.13
14:30
(25) Ты так думаешь? Да, пожалуй. Нет. Сегодня хорошая погода. Вы абсолютно правы. Привет, как дела?
31 mzelensky
 
04.03.13
14:32
http://www.pcweek.ru/themes/detail.php?ID=62564

Выдержка из статьи:

Первоначально Therapist состояла из семи модулей, написанных на Си, Turbo-Prolog и QuickBasic. Позже она была дополнена системой синтеза речи и базой знаний. Программа использует словарь из 70 000 слов и запоминает все, что ей рассказывают, используя эту информацию в следующих диалогах и подстраиваясь под интересы конкретного собеседника. Therapist выигрывала приз Лебнера еще в 1992, 1993 и 1995 гг. Затем она была усилена специализированными модулями, способными поддерживать разговоры на темы “мужчина против женщины” и “либералы против консерваторов”.

Вот пример из одного ее победного диалога:

Судья: Do you think that American soldiers should go to Bosnia?

Therapist: I think that what clinton has done in sending 20,000 peacekeepers to bosnia will ensure a lasting peace.

Судья: Do you think most Americans feel the way you do?

Therapist: What did you mean when you said do you think that american soldiers should go to bosnia? Did anyone ever tell you that you think too much? Oh, I think most americans feel the way i do?
32 Дядя Вова
 
04.03.13
14:36
Задрали с рекламой с@#$%!
33 mzelensky
 
04.03.13
14:37
(32) это был крик души?