Тяжела и неказиста
Жизнь простого комплингвиста...
(Народное)
Жизнь простого комплингвиста...
(Народное)
Не меньшую проблему вызывает поиск информации в нормативных документах типа ГОСТов. Это обусловлено, в частности, тем, что в таких документах принципиально иной принцип классификации предметов. Так, галоши, которые в словаре бытовой терминологии попадают в категорию ОБУВЬ, в ГОСТе следует искать в разделе "резиновые изделия".
(Имодин, Б. «Словарь бытовой терминологии: новые проблемы и новые методы». В Компьютерная лингвистика и интеллектуальные технологии, 1:213. Бекасово, 2012.)
Ну да, у "галош" здесь два гиперонима.
А заглянули бы в бухнормативы, нашли бы и третий - "малоценные и быстроизнашиваемые предметы". Et cetera.
Патамушта сначала надо строить таксономию предметных контекстов, извлекать лексические и прочие маркеры и разбрасывать тексты по корпусам, а потом уже парсеры рисовать-напускать.
P.S. И это толоько лексикографическое.
Воспоем же народно нормализацию потока лексем:
С полки книжечка упала
И убила братика.
До чего ж ты нелегка -
Русская грамматика...