Наверняка на волне скандалов о «сливе» личных данных вы перестраховались и сменили пару-тройку паролей на более сложные. Но задумывались ли вы о том, как много о вас уже знают, без взлома? Всё, что вы когда-нибудь писали в социальных сетях, каждый ваш лайк, репост и комментарий говорят о вас намного больше, чем вы можете себе предположить. KV.by взял интервью у, наверно, одного из самых необычных руководителей одного из самых необычных направлений в сфере IT. Представляем Артура Хачуяна, генерального директора SocialDataHub.
— Компания существует 7 год, мы занимаемся обработкой открытых источников данных. То есть со всего открытого интернета собираем информацию: соцсети, блоги, форумы, приложения для знакомств, для продажи, госреестр и так далее. Из всего этого мы вычленяем факты, делаем выводы и эти выводы продаём.
У нас основные направления — это реклама, банки, страховые и ритейл. То есть мы повышаем эффективность компании, помогаем что-то продать, основываясь на идентификации человека, его интересах и так далее. И ещё одно направление — государство, поиск всяких террористов, насильников, педофилов, убийц, маньяков.
— С чего началась работа с данными? Нужно ли знать какую-то сложную математику для работы с Big data?
— Мы начали собирать данные в 2010 году. Половина данных у нас до сих пор ещё никак не монетизирована, они бережно хранятся и мы ещё не знаем, зачем они. Рано или поздно свои плоды они принесут. Конкретно для сбора вряд ли нужно «рубить» в математике, но каждая вторая задача у нас завязана на ней. Я не говорю о распознавании лиц, я об элементарных вещах таких как корреляция… Сидишь, решаешь какие-то задачи, и понимаешь, что у тебя раз в два дня всплывает какая-то элементарная базовая математика: линейная алгебра, матрицы перемножать или какие-то разделы ТФКП.
Это проблема рынка, все data-scientist-ы сейчас не очень сильно образованные в математике. Часто это программисты, которые хорошо программировали и выучили десять библиотек машинного обучения, не особо понимая основы всего. Я сам заканчивал (но не закончил) вуз, но, тем не менее, у меня была профильная специальность. Но сейчас я не знаю ни одного университета, который бы готовил профильных специалистов. Поэтому мы сами открыли магистратуру в трёх вузах.
#KVAD#
— Как вы «докатились до такой жизни», что начали продавать людям информацию о них же самих?
— Людям мы ничего не продаём. Продаём компаниям, но надо понимать, что компаниям мы не продаём персональную информацию о конкретных пользователях. Вот пример кейса: приходит интернет-магазин, он зарабатывает, скажем, 1 млн рублей. Мы ставим счётчик на сайт, который идентифицирует входящих пользователей и показывает им определённые товары.
Когда в магазин заходит условная девушка, в тот момент, когда сайт грузится, мы уже посмотрели все её фотографии в Инстаграме, проанализировали цвет верхней и нижней одежды, как он соотносится с семантикой её постов, цветом одежды, друзьями, погодой.
И в тот момент, когда сайт загрузился, мы ей показываем идеальный товар, который ей нужен. Тем самым повышаем эффективность продаж конкретного магазина. Вот так выглядит маленький кейс в ритейле. Это я всё к тому, что ничьи персональные данные мы не продаём. Мы продаём безличные выводы, анализ кластеров либо базы клиента. Единственные персональные данные, которые продаются, продаются государству. Но и в этом случае мы разрабатываем систему, и они покупают систему. То есть мы сами ничьими данными не торгуем.
— Может ли какой-то человек обратиться, а не компания?
— Чисто теоретически да, но мы стараемся этого не делать по причине того, что есть закон, запрещающий выдавать информацию о третьих лицах. Даже если ты её получил из открытых источников, закон очень размыто это описывает.
Мы это не делаем по следующей причине: если мы неправильно человека идентифицируем, и он вдруг окажется не владельцем этой информации, решит подать в суд, а за это можно и сесть. Только в индивидуальном порядке, если это мой знакомый, например, и у него угнали машину и по номерам надо посмотреть что-нибудь.
— Вы работаете с данными, с сетями, с алгоритмами. Насколько сами открыты в соцсетях? Насколько сами своим же кейсам подвержены?
— На самом деле у меня достаточно открыты соцсети, и я пользуюсь правилом не постить то, за что потом будет стыдно. Хотя сложно сказать, за что тебе не будет стыдно через 10 лет. На самом деле я спокойно отношусь, потому что у меня не очень высокий уровень паранойи в соцсетях. То что есть в открытом доступе — оно там и есть, ничего с этим не сделаешь. Дома ко мне в трусы всё равно никто не залезет.
— Если вы это не выложите в сеть.
— Да, конечно. То есть я спокоен. Но всё равно, когда я делаю какие-то посты, я всегда проверяю задний фон, вдруг там что-нибудь попадётся.
— А можете рассказать, что сложнее всего узнать о человеке из его постов?
— Например, владеет ли он квартирой. То есть квартира в собственности или он её снимает. Это достаточно сложная метрика, которую определить можно, только имея несколько лет социальной активности этого человека. Это если он не писал: «ура, я купил квартиру», а по каким-то косвенным параметрам.
Ну и процесс установления аффилированности между двумя лицами. Кто-то может «спалиться», сделав какую-то публикацию, но большинство так не поступает. Тут задача понять, как люди были связаны, как они связаны сейчас и как они могут быть связаны в будущем, — то есть спрогнозировать, как и кого пользователи могут встретить, на каком мероприятии, как будут взаимодействовать.
— Есть ли для человека, который реально параноит, который не хочет, чтобы кто-то о нём что-то знал, кроме имени-фамилии и сколько ему лет, какие-то советы?
— Надо понимать, что с высоким уровнем развития всех алгоритмов для сбора данных, точно также развиваются и всевозможные плагины для браузеров для анонимизации себя. Торы, защищённые сети, р2р-мессенджеры — есть человек хочет «не палиться», он «не палится». Он заведёт нормальный фейк, заведёт сим-карту левую. Вопрос: зачем? Если ты хочешь прятаться от Фейсбука или какого-нибудь рекламного алгоритма, чтобы не было контекстной рекламы, достаточно плагин в браузере поставить, который будет кликать на всю рекламу и портить твой цифровой след.
Если человек боится государства, то у государства есть доступ к трафику. От этого никак не скроешься, только поставив VPN, создав кусок защищённой сети. Но единственная моя социальная паранойя — я еду всегда в соседний дом заказываю. Вдруг кто-то базу доставки взломает и узнает, где я живу.
— Может ли человек целенаправленно обмануть систему? И будет ли это распознано?
— Да, большинство параметров элементарно вычисляются. Особенно когда люди указывают не свой возраст, то можно посмотреть на возраст его друзей, как правило близко к среднему всегда у всех друзей возраст совпадает. Можно и школьных друзей посмотреть. То же касается и работы, и путешествий. Конечно, есть люди, которые серьёзно заморачиваются, у них специальная симка якобы рабочая и ещё какая-нибудь.
— Это проверяется вручную?
— Нет, автоматизировано. Высчитывается зависимость между параметрами, мы видим, что человек вываливается за среднестатистическое отклонение, и понимаем, что он соврал. По поводу возраста — в том же Инстраграме люди часто делают пост о дне рождения, вроде «ура, мне сегодня 26!».
Когда-то один раз пост случайно сделал, мы его запомнили, вычленили из него факт, запомнили дату публикации и потом считаем. Или дата рождения ребёнка, если мама пишет «смотрите, я на шестом месяце».
Ага, значит через три родим, через двенадцать год и так далее, и подбираем разные товары. Ещё из подобных кейсов: часто люди, у которых нет своих фоток в Инстаграме и не знаешь, кто это, сторис снимают, которые потом удаляются. Они себя засвечивают и таким образом можно идентифицировать чей-то аккаунт.
— Какой объём занимает информация об одном человеке?
— Если не считать медиаконтент, фотографии и так далее, а только знания, то не так много, пару мегабайт на человека.
— По сути, это какой-то файл расширения txt, в котором и записана информация?
— Да. В базе данных лежит файл, в нём есть всякие поля: рост, вес, пол и так далее. Всего же у нас хранилище 8 - 8,7 петабайт, там данные с соцсетей, история. Больше всего занимают лайки и социальные действия, связи между людьми.
— А ваша география?
— У нас есть вся Россия, СНГ и мы начинаем сейчас Америку и Китай индексировать. У нас там не особо много клиентов, там у нас замониторены персоны, интересные кому-то отсюда. Это какие-то ребята, которыми государство интересуется, либо публичные личности, которыми интересуются коммерческие бренды.
У нас нет пока задачи собирать контент, ещё и законодательство изменилось, и мы пока не понимаем, как в новом законодательстве работать и себя позиционировать.
— Можете ли вы назвать самый странный кейс, который вам заказывали?
— Есть у нас сервис по подбору целевой аудитории. Там бывают порой очень странные запросы, например, кто покупает какие-нибудь квантовые лазеры или ещё что-то. То есть явно случайно человек попал к нам. Но мы очень долго смеялись с одного рекламного агентства, которое занимается бьюти-индустрией. Оно просило найти девушек с распознаванием образов, которые используют нюдовую помаду (цвета тела). Мы им написали: как можно найти девушек, у которых помада цвета… ничего?
— Какой из кейсов кажется вам наиболее сложным, интересным?
— Наверно, всё, что связано с правоохранением: тема раскрываемости преступлений, снижения криминогенного уровня, основываясь на данных, и так далее. Там очень много интересных задач, начиная от распознавания и идентификации людей и заканчивая алгоритмами, которые прогнозируют поведение пользователя.
— Насколько больше градус ответственности при работе с государством?
— Чувствуется интерес и ответственность к этой истории. Основная штука в том, что мы не занимаемся всякими посадками за репосты и так далее. Мы решаем конкретные задачи, и, естественно, этого никто не понимает. С государством работать проблематично, трудно, сложно, потому что они медленные, часто не идут на контакт.
С государством работать могут не все, платежи раз в год, в декабре, куча ответственности. Но, например, у военных и правоохранителей есть преимущество: у них очень чётко структурирован мозг. Они могут неправильно хотеть решить задачу, но чётко знают, какая у них задача. Если приходит рекламное агентство, то ему важен не результат, а процесс, как это всё делается, а ещё в середине задача поменяется десять тысяч раз, в итоге окажется всё совсем не так и решить вообще надо было вчера. У правоохранительных органов есть чёткая задача, чёткие сроки. Вот чемпионат мира. К этому чемпионату мира должно быть то-то, то-то и то-то, плевать, как сделаете, главное — результат. А и люблю решать задачи, когда важно результат получить, и тебя не трогают, не заставляют решать каким-то понятным способом.
— Правильно ли понимаю, что государство не афиширует, что работает с вами и открытыми источниками?
— На самом деле есть открытые мероприятия, мы с прокуратурой, например, делали хакатон. Они открыли данные, мы дали их командам, порешали задачи и сделали проекты. Редко государство открывает какие-то закупки, и, наверное, это правильно. Не по причине того, что это безумно дорого, просто не все должны знать, кто этим занимается. Это защищает и поставщика, и заказчика от всяких ненужных людей, которые всякие угрозы присылают.
— То есть и вам присылают угрозы?
— Да, присылают. Есть люди, которые считают, что мы сидим в наушниках и прослушиваем чьи-то телефоны. Бывает, что и на абонентский ящик в офис приходят всякие странные письма «придём и сожжём себя» и так далее. Поэтому у нас никто из сотрудников не пишет, где он работает, ведут себя достаточно скрытно.
Мы ещё часто работаем через третьи компании, которые имеют лицензии. Мы не очень лицеприятный для государства бренд, потому что у меня есть люди с судимостью, например, большая часть не имеет высшего образования. И лучше государству сотрудничать с какими-нибудь госучреждениями, у которого линолеум и коридоры. А они потом у нас всё закупят. Это не перепродажа и коррупция, а нормальная история с выигрышем тендера компании с лицензией, с которой потом заключается открытая покупка. То есть и нам, и им выгодно.
Комментарии
Страницы
Не сказочник. Соцсети, комменты и проч. давно уже источником для спецслужб. У него, как я понял, частный бизнес. И, думаю, доходный.
Некоторые моменты в его высказываниях указывают, что может оказывать услуги криминальным структурам, коллекторам и проч. Не утверждаю, что этим занимается. Но имхо располагает кой-какой инфой.
> список учредителей
ХАЧУЯН АРТУР СЕРГЕЕВИЧ, 100%, 10 000 руб.(RUR)
И? ;)
Дык ООО. Все знают, что это?
Но. Говорит, что компания 7 лет на рынке. А дата регистрации -- 20.05.2015.
Кол, короче. Инфу, г-да журналисты, проверять надо.
И что? Вы же сами задаете вопрос: "Дык ООО. Все знают, что это?" Вы что, не знаете, как закрываются и заново открываются такие ООО с небольшой сменой вывески? Сначала это "Рога и копыта", через пару лет "Рога и копыта-2", затем "Рога и копыта плюс", "Рога и копыта-М", "Рога и копыта Проф" и т.д., и т.п. В результате компания на бумаге существует полгода, а по факту - 10 лет.
В общем, "кол" вам за незнание жизни.
Cами-то что-нибудь открывали-закрывали? (Имхо вряд ли.) Речь о поименованной в интервью компании, которая со слов интервьюируемого
С, как Вы выразились, "небольшой сменой вывески" наименование меняется. Т.е. это уже не поименованная в интервью компания.
Спорьте и дальше, Логика нет, безрыбье...
:)
Питон не стал спорить и правильно сделал: переименование такого бизнеса вредило бы наработке клиентской базы, а герой явно не дурак.
Остаюсь при мнении: статья рекламная и непроверенная, а что девушки, имхо включая Питона, пятаков наставили -- это нормально. :)
Вот вам пример. Лет 10 назад я заказал оконную раму на балкон у минской фирмы "***". Она к тому времени существовала уже очень давно, была на слуху, её реклама звучала из каждого утюга, а лично меня подкупило обещание 5-летней гарантии. В общем, раму я заказал, оплатил, мне её в срок поставили.
Прошло пару лет, одна из створок стала плохо закрываться. Я звоню в фирму "***" - ведь у меня же 5-летняя гарантия! А девочка на том конце провода заявляет: "Вам ставила раму фирма "*** Плюс", а мы теперь - "*** Лтд". Да, мы находимся по тому же адресу, у нас те же телефоны, тот же сайт, та же торговая марка "***", но юрлицо другое, так что по старым обязательствам мы не отвечаем и своей 5-летней гарантией вы можете подтереться". По итогу, пришлось долго разговаривать с их директором, в конце концов он прислал мастера, который отрегулировал створку, но это было подано как одолжение, а не как выполнение гарантийных обязательств.
И, кстати, эта фирма существует до сих пор, уже под новым юридическим названием, что нисколько не мешает ей уже минимум четверть века оставаться одним из основных игроков на рынке пластиковых окон, ведь торговая марка - "***" - остается старой.
Так что, ещё раз повторюсь: вы ничего не знаете о реальной жизни. Переименование юрлица не мешает ни наработке клиентской базы, ни чему-либо ещё.
Страницы