Автор
|
Тема: Пошевелим мозгой?
|
Emerald |
опубликован 03-01-2002 15:19 MSK
Есть такая идея - не знаю как подступиться. Значит есть текст, много (около 200 листов). В нем много нужной информации (но много и ненужной). Как мне из него (программно) выудить только то, что мне надобно, опустив всю "воду", то есть только факты, а не всё подряд.Вот так! Даже не знаю откуда начать работать, может кто поможет? А может уже есть что подобное?
|
sergeyMJ
|
опубликован 03-01-2002 15:40 MSK
А как хотя-бы информация классифицирована, что это? Художественный текст, инструкция или что-то еще? И что тебе нужно выудить ? |
Emerald
|
опубликован 03-01-2002 16:52 MSK
Нет, чисто из текста. То есть пользователь вводит строку, например "метод сжатия Хаффмана". А программа сканирует текст и собирает всю информацию касательно метода сжатия. Причем корректно распознавая и ссылки на него - "его, неё, ...". |
Xmok
|
опубликован 03-01-2002 17:23 MSK
Поверхностные соображения просты: в лучшем случае можно найти строчку-образец во всех падежных формах. Но никакая программа не сможет отличить "воду" от "фактов". С таким же успехом можно ПРОГРАММНО сбегать за пивом :) Более того - если в одном предложении идет "метод сжатия Хаффмана", а следующее начинается с "О нем-то мы и поговорим", то никакая программа (из существующих коммерческих образцов - точно) не может установить, что это "о нем" относится к "методу сжатия". И даже не факт, что такие "ссылки" будут находиться и внутри одного-то предложения. Решаемость таких проблем измеряется размером и изощренностью языковой базы, которая стоит за алгортимом. Падежные формы - это пример минимальной базы. Очень минимальной. В целом же люди остаются (и ты обречен остаться) на уровне поиска "похожих" сочетаний. К "воде" и "фактам" это никакого отношения не имеет. Все видели, как работает "аннотация" в Ворде. Грустно - но факт. П.С. А что касается средств разработки на эту тему, то все их охраняют как зеницу ока. Freeware не факт что есть. ORFO API тоже надо искать (и то - кто бы его стал красть?). Вся надежда на подвиги одиночек. |
Emerald
|
опубликован 03-01-2002 17:29 MSK
Ладно. все понял. Но вполне можно добиться нормальных результатов;примерно на тот же уровень что и OCR - распознавание символов. Если сделаю - будет freeware opensource. |
ADK
|
опубликован 04-01-2002 06:28 MSK
[quote]ORFO API тоже надо искать (и то - кто бы его стал красть?)[/quote] А у меня вроде есть прибамбах к VC IDE, который использует спеллчек Ворда для проверки орфографии. |
Vovochka
|
опубликован 04-01-2002 14:28 MSK
Можно подумать о конструировании нейронной сети с нечеткой логикой. Самообучающейся. Потом научить ее чо надо искать. |
Flex Ferrum
|
опубликован 04-01-2002 14:45 MSK
Vovochka: Нейронные сети тут не помогут (по крайней мере в том виде, в котором они существуют) - слишком многому обучать придется. Другое дело, постоить механиз анализа предложения, как это делает Word Grammar Checker - и уже на его базе (определив, где существительные, где глаголы, а где прилагательные и т. п.) строить алгоритмы. |
Xmok
|
опубликован 04-01-2002 15:03 MSK
Да уж - нейронные сети еще никому не помогали. Анализ предложения - да, но это очень трудоемко. (Некоторые "коллективы" над этим бьются с семидесятых годов.) В общем - смотря сколько времени хочет |
Zzzaraza
|
опубликован 04-01-2002 15:42 MSK
IMHO как не крути, в текстах основная мысль зарыта радом с ключевым словом, от него и надо плясать , т.е. -N предложений, /если не начало абзаца/, найденная фраза, +N предложений (местоимения, фразы типа "рассмотренное выше" и т.п. следующие за искомой фразой до следующего подлежащего добавляют еще N1 предложений + еще N2 если существительные, встретившиеся в первом предложении встречаются в предложениях в области от -N до +N,)(N, N1, N2-целое в разумных пределах)зы решение так сказать в лоб. еще поллитры& вспонить что за зверь такой пролог и может ещё чё-нить придет в голову :) |
Gaper
|
опубликован 04-01-2002 17:43 MSK
Альтернативный вариант - искать не смысл, а ВОДУ. И выливать. О том, что есть вода, надо поспрашивать тех нечистоплотных бумагомарак, которую эту жидкость заливали, дабы листинг увеличить. Перенять у них методы заливки, и обратить вспять...Сам по себе вариант бредовый, но в сочетании с поиском смысла, т.е. если его использовать для уточнения и проверки, может увеличить качественные показатели основного метода. Просто прочитал недавно где-то, что есть слова-паразиты (а также словосочетания), которых настоящие литераторы стараются избегать... вот и постучалась в башку такая сумасбродная идейка. |
DimaK
|
опубликован 05-01-2002 10:42 MSK
Это проблема в области Искуственного интеллекта и над ней как говорил райкин 3 института пять лет билисть (и нехе... ничего не добились)а разработки здесь все засекреченые своими силами это даже не лбом стену бить |