mozgosteb (mozgosteb) wrote,
mozgosteb
mozgosteb

Друзья, друзья друзей, друзья друзей друзей и анализ

Немного Big Data вам в ленту. Скачал около 20 000 живых профилей пользователей ЖЖ и решил посмотреть, какую интересную информацию можно извлечь.




Остановился на анализе друзей и попытался что-то понять о том как образуются круги общения. Что я сделал? Для каждого журнала из 20 000 я нашёл самую большую клику друзей (посмотреть свою клику можно по ссылке чуть ниже). Клика - это группа пользователей, где каждый дружит с каждым (см. картинку). Я предположил, что самая большая клика - это и есть основной круг общения. Написал программу для обработки данных и стал ждать результатов…

Собственно, вот результаты по каждому.
Перед тем как нажимать два момента:
- Чтобы предоставить точные данные пришлось бы скачивать весь ЖЖ, поэтому клики составлены только из тех, кто вошёл в выборку. На самом деле ваши клики могут быть чуть больше!
- Каждая ссылка "кликабельна" и можно сёрфить по чужим кликам.
Теперь можно нажимать :)

Можно использовать инфу, чтобы понять, с кем плотно дружат ваши друзья, и узнать, с кем стоит задружиться.

В общей же статистике мало интересного, за исключением одного момента, который я не могу понять. Надеюсь, вы мне поможете.


По горизонтали размеры клик (от 1 до 63), а столбики над ними показывают, сколько пользователей в них входят.

- У 7% пользователей нет взаимных друзей или они не захотели открывать информацию.

- Примерно половина (50%) входят в клики от 2-х до 4-х человек. В большинстве своём, это неактивные пользователи, либо те, кто начал вести журнал недавно, либо те кто не пишет и не (редко) комментирует, либо используют ЖЖ только для чтения конкретного автора

- Примерно треть (35%) входят в клики от 5 до 12 человек. Вот где самая соль всея ЖЖ. Это пользователи, которые активно общаются, что-то пишут и действительно читают тех, на кого подписаны.

- Дальше начинаются боты и люди, которые френдят всех, кто френдит их. Всех-всех не просматривал, но не верю я, что может существовать группа из 50 человек, где каждый взаимно читает каждого. Не настолько велика наша уютненькая. Самые большие клики, которые мне удалось зафиксировать, состояли из 63 взаимофрендов (тот самый небольшой бордовый пупок в конце графика).

А вот тот самый странный момент:

Благодаря friendstime, я читаю журналы не только из своей ленты и многих “знаю в лицо”. Пытался воспользоваться этим знанием, чтобы понять, действительно ли пользователи одной клики объединены неким общим интересом. Да, клик “по интересам” действительно немало. Есть клики, которые кучкуются вокруг искусства, физики, биологии, есть ролевики, киноманы, читатели Эволюции. Но, в основном, когда я гляжу на клику, то не вижу общего интереса. Может, неправильно смотрю.

Например, друзья из моих клик: litera_dura, k_medvezhonkina, elisa_liz, sister_lu, esteveste, anka_hulig, lysoval, mozgosteb, andeadd, radugaw, hemso, mage_pro, zheniavasilievv
Есть ли у нас какая-то общая тема? Какой-то объединяющий фактор? Не знаю, мне кажется, что мы просто взаимно приятные друг другу люди.

А у вас как? Предлагаю поучаствовать в опросе, чтобы понять общую картину.

Что ещё? Примерно каждый десятый пользователь томится во френдзоне. Т.е. дружит с большой кликой, но сам в неё не входит.

Что скажете о своей клике?

Моя клика меньше 5 человек и нас связывает общая тема
8(10.1%)
Моя клика меньше 5 человек и нас НЕ связывает общая тема
10(12.7%)
Моя клика от 5 до 12 человек и нас связывает общая тема
20(25.3%)
Моя клика от 5 до 12 человек и нас НЕ связывает общая тема
8(10.1%)
Моя клика больше 12 человек и нас связывает общая тема
2(2.5%)
Моя клика больше 12 человек и нас НЕ связывает общая тема
2(2.5%)
Ваши алгоритмы что-то напутали
10(12.7%)
Просто хочу посмотреть на результат опроса
19(24.1%)


Доп. информация для программистов и прочих интересующихся подробностями:
- Полезная инфа для тех, кто хочет обрабатывать страницы ЖЖ автоматическими средствами: https://www.livejournal.com/bots/
- Поиск клик трудозатратная операция. Я использовал алгоритм из википедии и чуть не умер. Удалось немного оптимизировать, но всё равно компьютер обрабатывал инфу где-то неделю.
- 20 000 человек это, конечно, не весь ЖЖ. Это друзья друзей моих друзей. Поэтому информация о кликах для самого дальнего круга может быть немного (а может и сильно) не точна. Если есть ошибки, то в меньшую сторону, т.е. ваша клика может быть больше.
- Исходный код алгоритма предоставлять не буду, поскольку принципиально не распространяю порнографию. Но не прочь поболтать о реализации.



Отдельное спасибо за помощь bearinbloodbath и sel_kie!
Tags: Друзья, ЖЖ, Код
Subscribe

Posts from This Journal “Код” Tag

  • Да что ж такое!

    В предпросмотре поста ЖЖ показывает одно содержимое, а после публикации другое! И только обще пофигистичныйоптимистичный настрой мешает впасть…

  • Анализатор постов в ЖЖ

    Всегда интересно сравнить аналитику о людях выполненную компьютером и свои собственные наблюдения. Заодно, есть шанс кое-то узнать о своём журнале.

  • Эгоисты, хорошисты, идеалисты

    Уважаемый navlasov месяц назад написал пост, где сравнил два типа преподавателей Российских вузов: Начнем с "ландскнехта". Здесь в…

  • Программист в преддверие нового года.

    Я не очень умею делать программы, которые работают прямо на сайте, но подзаморочился и сделал. Редактор новогодних снежинок. Пользуйтесь. Рисуем,…

  • Zoom / тыжпрограммист

    На этот раз я нарезал много няшных картинок определенного стиля и тематики и натравил эту коллекцию на ваши аватарки. Получилось не так удачно,…

  • Глазами старых газет и матричных принтеров

    А давненько не было никаких измывательств над вашими аватарками. На днях я узнал один простенький, но элегантный алгоритм, который…

  • Прикладная археология

    Коллектив "похудел" на одного коллегу, наверное самого нелюдимого из всех, кто на моей памяти у нас работал. Если кто не знал, я - программист. У нас…

  • Синхронистичность 2

    Это второй этап проверки теории синхронистичности. Из 8-ми участников первого этапа шестеро записались на новый тур + присоединились…

  • Хоку на основе постов ЖЖ

    Сделал генератор хоку на основе постов ЖЖ или вообще любого вашего текста. Что-то годное получается редко, но не пропадать же добру. Развлекайтесь:…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 190 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →