Компания IBM предложила совершенно новую технологию поиска, которая основана на отказе от традиционного поиска по ключевым словам и внедрении технологии поиска по понятиям и фактам, применяющейся при обработке информации. Таким образом, IBM задумала предоставить своим клиентам такой поиск, при помощи которого ищущий мог бы задавать тему в общем, а поисковая машина при этом обрабатывала бы его наиболее релевантно.
По словам Артура Чикколо (Arthur Ciccolo), главы отделения поисковых технологий IBM Research, ведущие массовые поисковые машины (Google, Yahoo! и Microsoft) ориентированы на открытый сегмент Интернета, а не на поиск служебной информации. В отличие от них, IBM намерена предоставить сторонним разработчикам программного обеспечения оригинальную архитектуру управления неструктурированной информацией UIMA (Unstructured Information Management Architecture). Эта технология позволяет анализировать содержащийся в документах текст и распознавать скрытые в нем понятия, отношения и факты. Также IBM предлагает инструмент WebSphere OmniFind, позволяющий пользователям осуществлять поиск в неструктурированных данных различных форматов и на различных языках, содержащихся в базах данных, в файлах электронной почты, в аудиозаписях, изображениях и видеофрагментах. К тому же UIMA позволит интегрировать ПО для поиска, управления экспертными системами и анализа текста от разных производителей.
Представители компании IBM утверждают, что UIMA упростит совместную работу тех приложений от различных разработчиков, которые предназначены для управления знаниями, поиска, коммерческой разведки и анализа текстов. Данный механизм поиска корпоративных данных разрабатывался IBM Research на протяжении более четырех лет при участии ученых крупнейших университетов США и при поддержке Управления перспективных исследований Минобороны США (DARPA). В числе участников разработки UIMA — военные подрядчики Science Applications International, BBN Technologies и MITRE, а также медицинская фирма The Mayo Clinic.
Сегодня 15 компаний уже планируют использовать данную технологию, в частности Attensity, ClearForest, Cognos, Endeca, Factiva, Kana, Inquira, iPhrase, Inxight, nStein, QL2, SAS, Schemalogic, Semagix, SPSS и Temis. Один из примеров применения новой технологии — совместное использование программных продуктов Attensity, ClearForest, iPhrase, Kana и IBM производителями потребительских товаров для обнаружения в сети жалоб покупателей на дефектные изделия и для поиска внутренней корпоративной информации, помогающей максимально быстро решить возникшие проблемы.
Около десяти лет назад ряд разработчиков СУБД, включая Informix, которая затем была приобретена IBM, заявили о том, что в скором времени проблема неструктурированных данных будет решена. Тем не менее и сейчас, по оценке аналитиков, до 85% корпоративных данных хранится в неструктурированном виде вне баз данных.
Ожидается, что технология UIMA начиная с конца текущего года будет распространяться с помощью сайта SourceForge, на котором размещается ПО с открытым исходным кодом. Структуру UIMA уже можно бесплатно загрузить с сайта IBM AlphaWorks.
В случае успеха проекта компания IBM готова после годичного использования перепродать данную технологию Google и Yahoo!.

{lang: 'ru'}

Самые комментируемые записи:

Теги: ,