kurgus: (Default)
Tao Ding et al. Social Media-based Substance Use Prediction. arXiv:1705.05633v2
Опубликовано в разделе Computer Science > Computation and Language

Вообще-то с растущим объемом машинносчитываемого нарратива в соцсетях работы по корпусной лингвистике с социолингвоуклоном стали гораздо менее трудоемкими и посему привлекательны.
А чтобы не заморачиваться со скучной самостоятельной обработкой данных и их же анализом - спихнуть это дело на противоестественный искуственный интеллект. В лице machine learning.
Что, во-первых, модно, и, во вторых, позволяет не напрягаться еще более снижает трудоемкость.

Естественно, возникает искушение наложить это дело на какую-нибудь эпидемиологию - что и было сделано в данной публикации.

Итак, как это было сделано.
Товарищи попрыгали на плечах гигантов (С) взяли dataset из проекта
myPersonality, собранные одноименным Facebook-приложением в рамках заговора обленившихся психологов[1].
В этом приложении, маскирующемся под набор психометрических тестов, Facebook users отвечают на кучу вопросов, в т.ч. и о частоте употребления табака, алкоголя и прочих нехороших субстанций.

После чего Tao Ding et al. занялись чистой корпусной лингвистикой с социоуклоном взяли эти датасеты, и выбросили из них для простоты обработки них неанглоязычных субъектов:
final dataset includes 106,509 users with 21 million posts. After filtering out low frequency words (those appear less than 50 times in our corpus), the vocabulary size of the status update dataset is 73,935
И натравили на датасет группу алгоритмов на предмет выявления, употребление (или лайканье) каких сем[2] коррелирует с употреблением нехорошего. И каких - наоборот.

Получилось вот так:

Что означает сема focuspast, единственная с сильной отрицательной корелляцией (по drugs) - я не понял.
Зато если алкоголики-наркоманы шибео озабочены насчет money, то курильщики следуют заветам Pink Floyd "money it's a gas". В смысле it's a smoke.
И вообще, курильщики, судя по этой фигуре, неозабоченные пофигисты - сильных корреляций не обнаружено.

Но больше всего умилила Table 6: Topics Most Significantly Correlated with Substance Use.
Оказывается, если кто-то пишет и лайкает посты со словами tonight, night, free, party, tickets, bar, saturday, friday, dj, drink, club, show, beer, ladi - то он любит алкоголь.
И при этом, оказывается, он не пишет и не лайкает посты со словами class, history, paper, math, science, writing, essay, finished, study, test, final, exam
Какое тонкое наблюдение - ежели человек зависает по клубам, то он там, наверное, пьет. И в это время он же почему-то не готовится к экзамену по матанализу :)
Насчет именно такого поведенческого паттерна все очень просто: средний возраст по выборке - 23 года :)

Жалко только, что авторы не запубликовали половых распределений: в отобранном ими массиве среди субъектов с нехорошими привычками оказалось 63% девиц и 37% юношей.
Что кагбэ намекает на дельнейшие исследования: действительно ли носители дефективной Y-хромосомы оказались высокоморальны - или они усиленно скрывают свои порочные наклонности?

1. Michal Kosinski et al. Facebook as a research tool for the social sciences: Opportunities, challenges, ethical considerations, and practical guidelines. American Psychologist 70(6):543, 2015.
2. значений, соответствующих наборам синонимов/гипонимов, например femail = (woman, girl, lady, doll, ...), body = (head, legs, hands, ...).
kurgus: (Flammable)
Forati et al. Photoemission-based microelectronic devices. Nature Communications 7, Article number: 13399 (2016).
Стимуляция фотоэмиссии электронов за счет многофотонного поглощения на поверхностном плазмонном резонансе.
Сделали решетку - "метаповерхность" в которой плазмонная частота соответствует ИК-диапазону (у сплошного металла - в УФ), светят на нее на резонансной частоте ИК-лазером и оттуда вылетают электроны.

Cтандартной для нынешних техпроцессов микроэлектроники фотолитографией для вакуумных микросхем, о которых так долго говорили большевики терагерцовые военэлектронщики.
Была у DARPA такая програмка High Frequency Integrated Vacuum Electronics (HiFIVE), которую потеснила THz Electronics с субтерагерцовыми транзисторами из фосфида индия (подвижость носителей заряда) с построением в 2014 Northrop Grumman proof-of-concept'ного терагерцового усилителя и выходом в прошлом году на инженерные прототипы субтерагерцовых модулей.

Одной из проблем HiFIVE была проблема стабильных холодных катодов на низких напряжениях (автоэмиссия - высоковато). Теперь, может, эту программу восстановят - подвижность свободных электронов в вакууме повыше подвижности носителей в фосфиде индия, не так ли?
kurgus: (Flammable)
Тяжела и неказиста
Жизнь простого комплингвиста...
(Народное)
Не меньшую проблему вызывает поиск информации в нормативных документах типа ГОСТов. Это обусловлено, в частности, тем, что в таких документах принципиально иной принцип классификации предметов. Так, галоши, которые в словаре бытовой терминологии попадают в категорию ОБУВЬ, в ГОСТе следует искать в разделе "резиновые изделия".
(Имодин, Б. «Словарь бытовой терминологии: новые проблемы и новые методы». В Компьютерная лингвистика и интеллектуальные технологии, 1:213. Бекасово, 2012.)

Ну да, у "галош" здесь два гиперонима.
А заглянули бы в бухнормативы, нашли бы и третий - "малоценные и быстроизнашиваемые предметы". Et cetera.

Патамушта сначала надо строить таксономию предметных контекстов, извлекать лексические и прочие маркеры и разбрасывать тексты по корпусам, а потом уже парсеры рисовать-напускать.

P.S. И это толоько лексикографическое.
Воспоем же народно нормализацию потока лексем:
С полки книжечка упала
И убила братика.
До чего ж ты нелегка -
Русская грамматика...
kurgus: (Flammable)
К хорошему быстро привыкаешь - сохранишь/загрузишь в Zotero pdf какой-нибудь западной academic статьи, кликнешь правой кнопкой, выберешь "извлечь метаданные" - и вуаля, библиографическая карточка создана, поля магически заполнены.
Или, того лучше, в опять-таки academic репозиториях/сайтах, публикующих метаданные в OAI-PMH да в Dublin Core , тыкаешь в динамически появившуюся metadata-кнопочку - и получается совсем сильная магия: библиокарточка создана, заполнена и pdf (в опенархивных сайтах) скачан и к карточке пристегнут. Плюс, в качестве бонус-шаманства, навешен набор каких-то левых ключевых слов.

И на фоне этой благодати совсем мрачно выглядят всяческие доктринальные центры Пентагона и НАТОвские сайты.
Метаданных в OAI-PMH не отдают, а попытка извлечь метаданные из pdf-а завершается либо растерянным "нету тут никаких метаданных", либо гордой, но единственной метадатой "сделано в MS Word".
И на фоне этого безобразия они выпускают филд мануалы по Knowledge Management рассуждают о Network Enabled Capability.

Сегодня показалось, что блеснул луч света в темном царстве: из pdf'a US DoD CIO Office извлеклись не только корректное название публикации и дата - Defense NetOps Strategic Vision, 2008 г., но и постоянный URL.
Но счастье оказалось недолгим - URL ведет на карточку сей публикации ихнего Defense Technical Information Center, в которой ссілка на сам документ отсутствует :(

Отака фигня, малята.
И как в таких условиях автоматизированно замышлять недоброе на благо Родины?
kurgus: (Flammable)
Электромеханический калькулятор Friden (STW10?):

Вторая клавиша справа сверху под кареткой - DIV STOP ( картинка в бОльшем разрешении )
Ибо при попытке деления на нуль электромехкалькуляторы честно пытались выдать бесконечность - см. видео этой операции на электромех. калькуляторе Facit ESA-01.

А на карманных калькуляторах такой клавиши не было, - там была механическая обратная связь, пользователь утомлялся крутить ручку :)
Карманный калькулятор Curta:

kurgus: (Flammable)
КАРДАН - краткий англо-русский дикционарий АН СССР.

ABEND - авост, TRAP, а может быть даже и CRASH. Обычная реакция операционной системы на подключение к сети еще одного пробкотрона этажом ниже.

Read more... )

ZERODIVIDE - если вы встретили такое сообщение при выполнении фортрановской программы, то перепишите программу на ассемблере, гарантируем, что оно больше не появится.
kurgus: (Flammable)
Преамбула:
Тендер 31401127832 от 15.09.2014 31401127832
Накопитель ВНД-М2.005 – 1 шт.
Уровень заказчика — Федеральный
Цена контракта лота (млн.руб.) — 3,8


Закупаемое:
внешняя двухдисковая стойка весом 25 кг и емкостью 50 МБ raw за скромные $56 000:

Унутре - вот такие HDD массой 5 кг и емкостью 25 МБайт - "Накопители врубного типа на магнитных дисках ВБ НЖМД-25"

Производит это дело ЗАО "НИИФИ и ВТ"

Самое интересное в этой истории - строка в техпараметрах ВНД-М2.005: Сопряжение ВНД-М2.05 осуществляется по последовательному интерфейсу в соответствии с ГОСТ 26765.52-87 («Манчестер-2»).
Абаронка, аднака. Грифованная АСУ, тянутая с пентагонистов. Последовательный стык с манчестерским дифференциальным кодированием, ГОСТировано в 1987 году.
Этот ГОСТ, "Интерфейс магистральный последовательный", он же МКИО (мультиплексный канал информационного обмена), стянут с американского MIL-STD-1553 1973-го года, он же НАТО STANAG 3838 1981 г.
Который был разработан под высоко- и мультикомпьютеризованную убойную фигню и впервые взлетел то ли на F-15, то ли на F-16.
И достаточно оперативно был подарен КГБ советскому ВПК - поскольку Наш Ответ Ихнему F-15, МиГ-29, без МКИО бортового цифрового комплекса был лишь гробиком с моторчиком.
А потом КГБ накрылось и доки по правильным протоколам и железу тырить стало некому...

Так что ныне сложилась забавная ситуация - БЭВМ российских МиГ-29, Су-30М*, Ка-50 и МиГ-35 стыкуются по американско-НАТОвскому MIL-STD-1553a.
А у меня дома на столе девайсы висят на dasy chain IEEE 1394.
Которая взлетела на Space Shuttle и ныне летает на F-22 и F-35.

P.S. Но прогресс в России все-таки идет, в 2003 г. был принят ГОСТ Р 52070-2003, который, насколько я понял, перевод новейшей версии - MIL-STD-1553B, принятой американцами в 1978 г.
P.P.S. Об архаичных военизвращениях: из БЭВМ российских супер-пупер-вертолетах типа Ка-5x графика гоняется по Fibre Channel 256 Mbps и в военных условиях перспективных авиакомплексах разгоняется аж до мегабита :)
kurgus: (Flammable)
Eclund et al. Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. PNAS, May 2016
Functional MRI (fMRI) is 25 years old, yet surprisingly its most common statistical methods have not been validated using real data. Here, we used resting-state fMRI data from 499 healthy controls to conduct 3 million task group analyses. Using this null data with different experimental designs, we estimate the incidence of significant results. In theory, we should find 5% false positives (for a significance threshold of 5%), but instead we found that the most common software packages for fMRI analysis (SPM, FSL, AFNI) can result in false-positive rates of up to 70%. These results question the validity of some 40,000 fMRI studies and may have a large impact on the interpretation of neuroimaging results.
kurgus: (Flammable)
Какая красивая коробка - унутре Tilera SoC.
72 ядра on chip, mesh-on-chip интерконнект оных, 2x10GE SFP+, 8x10GE SFP, 16xGE, 240 GB mSATA SSD, FIPS 140-2 l3 ready...

И под Linux.
Плюс Multicore IDE, включая железо-оптимизированный gcc/g++  compiler.
kurgus: (Flammable)
До чего неумолим прогресс: если в классической латыни currus был колесницей, то ныне, в google-переводе, стал автомобилем.

И Овидиевые строки о Фаэтоне и колеснице Гелиоса*...
...consiliis, non curribus utere nostris!
dum potes et solidis etiamnum sedibus adstas

...в этом свете звучат как сообщение об отзыве автомобилей производителем...

Хотя, если вдуматься, и там, и там речь идет о мерах по предотвращению аварийности.

---
* Метаморфозы, II, 146-147
kurgus: (Flammable)
...и люблю Backblaze - так это за то, что первые не публикуют статистику отказов жестких дисков, а Backblaze - публикует.
Хоть и выборочно, но с 2013 г. и по работающей базе в несколько десятков тысяч HDD (61 тыс. в Q1 2016).

Вот интересный пример из их старенького (2013): Enterprise Drives: Fact or Fiction?




Enterprise Drives



Consumer Drives



Drive-Years of Service
368 14719



Number of Failures
17 613



Annual Failure Rate
4.6% 4.2%
kurgus: (Flammable)
Звонят намедни товарищи разработчики-эксплуататоры Системы NN.
Далее диалог:
-- Надо сервер по памяти апгрейдить, щас оперативки 96 гиг, надо 256.
-- А нафига 256? - Вроде бы справляется, со временем отклика ОК.
-- А мы планируем шоб еще лучше и быстрее - на MS SQL in-memory OLTP запустить.
-- Интересно. Какие и зачем индексы-таблицы в оперативку загонять планируете?
-- Да пока не определились.
-- ?? А как память считали - ставили под transaction monitor и прогоняли in-memory advisor?
-- Да нет, еще не прогоняли.
-- А как же определили, что надо именно 256?
-- А в сервер больше не влазит.
kurgus: (Flammable)
IBM Spectrum Scale (бывш. GPFS). Specifications:

  • Maximum file system size 299 bytes

  • Maximum number of files/file system 264 (9 quintillion) files per file system

Для справки:
Число звезд в нашей галактике ~ 2*1011.
Таким образом, на каждую звезду можно:

  • завести ~9*107 файлов (Население Земли сейчас ~7.3*109. Если вокруг каждой сотой звезды крутится своя Земля, то хватит на досье каждого гражданина Галактики)

  • отвести хранилище размером в ~3.96*1017 байт или в 396 петабайт. Это, если мерять Землей, ~56 Мбайт на жителя.

И если набирать этот массив 8 Тбайт жесткими дисками WD Red массой 0.65 кг, то они затянут ~8*1013 тонн - пустяки, всего дюжина мелких астероидов вроде Эроса.
kurgus: (Flammable)
Процессор Intel Xeon E5-2699 v4.
Свежевыпущенный, марта 2016. Listprice от Intel при анонсе - $4115

Конфигуратор Fujitsu. Серия Primergy, модель BX5280 M2.
Тот же самый Xeon E5-2699 v4.
Listprice - $27921.62

Не покупайте память и диски у производителей серверов - обдерут как липку.
(Эви Немет. UNIX. Руководство системного администратора).
kurgus: (Flammable)
По предварительным итогам использования - отстой.
Правда, я избалован MediaWiki.
Что там есть:
1. Синтаксис [[страница|текст]], на чем весь Wiki-функционал, кажись, заканчивается
2. Визуальное редактирование в местами извращённой форме. Т.е. типа WYSIWYG, но, в некоторых случаях вместо операций над текстом с использованием меню нужны операции по созданию текста в отдельной форме (текст с гиперссылкой)
3. Несколько предопределённых шаблонов верстки (колонки)
4. Типа-версионность

Чего там нет:
0. Нет доступа к разметке документа (и, кажется, wiki-разметки как таковой, кроме [[text]]. Вместо этого кнопка к HTML-исходнику, сгенерированному WYSIWYG-редактором.
1. Нет структуры документа. То есть нет вообще - невозможно определить заголовки. Можно только манипулировать шрифтами, создавая иллюзию оных.
Соответственно, нет иерархии структуры и невозможно автопостроегие оглавления с автогиперрссылками в документе.
2. Нет Инклюда-Трансклюда, т.е. собрать документ из субдокументов, воткнув их в соответствующие разделы (см. п.1) невозможно - прощай, коллективная / параллельная работа и шаблоны (== вставка структурированных данных)
3. Нет категорий (и их иерархии) - т.е. нет мультирубрикации и автогенерации списков документов по рубрикам
4. Нет автоподписей с timestamp'om
5. Нет страниц обсуждения документов
6. Нет диффов версий документа
7. Нет списков наблюдения интересующих пользователя документов
8. Нет персональных страниц пользователя и пользовательских обсуждений (и гиперссылок на них из подписей, см. п. 4) и, соответственно автоуведомлений о новых сообщениях пользователю от коллег
9. Нет сносок (типа тэгов ref / references MediaWiki) - нет списков литературы / источников / комментариев. Drag'n'drop библиографии из Zotero не работает.
10. Нет Tex'а! И как вставить формулу?
11. Нет медиабиблиотеки с описаниями файлов и версионностью. Если надо вставить иллюстрацию - вставляй ссылку на файл из файловой иерархии Web-сервера
12. Как оформлять иллюстрации? (подписи, размер, выравнивание). Аналога [[File:filename|param1|param2|...]] не обнаружил
Ну и много отсутствующего прочего

Такое впечатление, что MS-программасты взяли какой-то Web-редактор, приселили туда синтаксис [[страница|текст]] и обозвали это дело wiki. Повбывыв бы.
kurgus: (Flammable)
Цена лицензии на международную телефонную связь в Украине - 8 993 000 грн
(См. http://www.nkrzi.gov.ua/index.php?r=site/index&pg=52&language=uk пункт Постановление КМУ „Про розміри та порядок зарахування плати за видачу, переоформлення, видачу дубліката, копії ліцензії на провадження діяльності у сфері телекомунікацій і продовження строку її дії”).

Цена лицензии на международную телефонную связь в США - $1 680 (для иностранных компаний $2 080). Это включая цену юруслуг по лицензионному оформлению от аккредитованной при FCC юрконторы.

Чего-то я не понимаю в этой жизни.

А тем временем УГЦР рапортует о 4856 выявленных нарушениях порядка маршрутизации международного трафика за неделю и кагбэ негодует на нарушителей, рушащих рынок:
цена на завершение международного вызова на сети украинских операторов последние недели колеблется в пределах 0,19-0,22 $/мин. В то же время за рубежом подобный межоператорский тариф, который в дальнейшем формирует розничную цену, в основном на порядок ниже. В РФ – 4,5 центов, в Эстонии – 1,9, в Литве – 1,4, в Польше – 5 центов за минуту
И требует мочить в сортирах VoIP безлицензионщиков нещадно штрафовать за это дело в особо крупном размере дабы международна в Украине не подешевела до эстонско-литовского уровня.
kurgus: (Flammable)
Deep Optics насобирала $4M на свои адаптивные "омнифокальные" очки.

Коммерческие прототипы линз с управляемым переменным фокусным расстоянием (Electrically-Modulated Tunable Lens Technology) были сделаны и запатентованы во время оно e-Vision, Физически - это манипуляции с жидкими кристаллами, насколько я понял, они манипулируют показателем преломления по поверхности для нормально падающего света, соответствующим образом ориентируя (нематические?) ЖК с их шибко "вытянутым" эллипсоидом поляризации:

Что интересно, Mitsui Chemical показала такие очки PixelOptics еще 4 года назад, на CES-2012:

Изменение фокусного расстояния в этой модели было либо вручную, либо по показателям акселерометров при наклоне головы в режим чтения.
Однако к концу 2013 г. PixelOptics обанкротилась.

Теперь их знямя подхватила DeepOptics, которая воткнула в оправу пару оптических сенсоров, которые отслеживают расстояние между зрачками и подстраивает фокусное расстояние очков под дистанцию до разглядываемого объекта.
Что, по идее, более удобно и правильно, чем в варианте PixelOptics.
Будем надеяться, что у них получится. По приемлемой цене и без банкротства.

P.S. А если электроды делать не круговыми, то можно и астигматизм править...
kurgus: (Flammable)
В порядке повышения безопасности, бюрократичности, деньгоотъема и параноидальности вообще ICAO приняла спецификацию Machine Readable Travel Document with Biometric Identification Capabilities с хранением, как минимум, отпечатков пальцев (и, по возможности, радужки).

Зимой, при сухой коже и излишне чистых руках, папиллярные оцифровщики хронически отказываются снимать отпечатки пальцев.

Например, когда я во время оно получал американскую визу, сканнер отпечатков сознался в своем бессилии.
Но американцы знают об этой фигне - и в таких случаях выдают баночку крема, после нанесения которого на руки сканер мигает зеленым огоньком.

Но в Украине, увы, об этой проблеме и ее решении не знают - когда Т. ходила за новым биометрическим загранпаспотром, сканер сказал "Ой!", заветной баночки не оказалось, влажных салфеток в сумочке - тоже.
И в итоге паспорт-оператор сказала "Ну не получается - ничего страшного, вписываю, что от сдачи отпечатков отказались, так можно".
В итоге получен оксюморон цифровой эпохи - биометрический паспорт без биометрии.
kurgus: (Flammable)
NATO Standard STANAG 2579 LINGUISTIC SUPPORT FOR OPERATIONS - ALingP-1

Как говорят коллеги из НАТО - "Что нас объединяет - так это наш poor English" :)
Несмотря на наличие STANAG 2591 ADVANCED DISTRIBUTED LEARNING (ADL) ;)

Profile

kurgus: (Default)
kurgus

June 2017

S M T W T F S
    123
45678910
111213 14151617
18192021222324
252627282930 

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 8th, 2025 10:06 am
Powered by Dreamwidth Studios