炒股无法避免的一个环节就是对信息的收集与分析,往往风吹草动都会引发市场的各种解读,引发股价波动。因此专业的炒股人士往往会加很多的股票交流群,随时关注所有动向,这样让自己非常的辛苦。这种原始的信息战斗方案,虽然好过了普通韭菜,但是在新技术面前,简直就是不堪一击。 那么阿丽塔的舆情分析系统,是怎么样搭建的呢?今天我们小编有幸和阿丽塔1.0时代的工程师斯蒂芬进行了沟通,今天就带大家一探究竟。 小编:斯蒂芬先生,听说阿丽塔在1.0版本就做到了可以分析微博上网友对某支股票的态度,这是怎么做到的呢? 斯蒂芬:恩,这个技术我们叫他“爬虫",当然这种虫子并不是那种满地都是,吓人的那种。他们其实就是我们写下来的代码,当我让他们工作的时候,他们就像无数个机器人就帮我在所有的微博信息里帮我浏览,同时,在他们出发之前,我就已经给他们布置好任务,让他们留意特定的关键词。比如“大盘”“指数”“基金”当然还有股票的名称像“东方通信”等等,这些千千万万的爬虫开始全网寻找这些关键词,一旦发现有人发的微博,跟这些关键字相关,就全部把它复制保存下来。因为这就是我让他们去寻找的重要信息,我们根据这些信息,来分析判断人们在关注什么,以及他们看好,或者不看好什么。 小编:可是我就算看一天微博,我也才看很少的信息,你刚才说千千万万的爬虫帮你寻找全网的信息,加起来你就算整个公司的人一起看,都看不完吧,哪还有时间分析呢? 斯蒂芬:哈哈哈,当然,我们不会亲自去看每一条消息,这样根本处理不过来。简单的来说,我们会对搜集到的信息做归类处理。比如有1万条微博,是关于“东方通信”的,那么我们会把这一万条微博存在一个文件里,接下来做“情绪分析”。 小编:情绪分析?这个又是什么?听起来很有意思。 斯蒂芬:其实就是分析所有的词语传递的情绪是正面还是负面,可以想象成这样,就像我们的一个同事,他在翻看这一万条关于东方通信的微博内容,一个词语一个词语的阅读,当她读到“涨”就给加一分,看到“跌”就减一分,看到“好”就加一分,看到“差”就减一分,看到“热情”就加一分,看到“冷漠”就减一分。我们在1.0版本里有把所有的词语都进行了情绪评估,一个词是正面还是负面还是中性,都被标记好了。因此每一条微博都能有一个得分。当把关于东方通信的一万条微博全部读完,就能得出一个微博上所有网友对他的情绪评分,是总共加了50000分,还是总共扣的3000分,通常,这能很大程度上反映所有人整体的态度,因此我们根本不用听几个朋友或者专家怎么说。 小编:那这样一万条微博,阿丽塔要多少时间才能分析完呢? 斯蒂芬:0.0001秒。 小编:我的天啊!就算我一个小时分析200条,1万条要分析2天,阿丽塔竟然0.0001秒就可以完成分析。那不是1秒钟相当于我的20万倍,等于我的18万天啊。瑟瑟发抖。怪不得叫人工智能。这才是第一代的技术啊? 斯蒂芬:是的,第三代人工智能强大的地方那就更多了,比如每个词的情绪分不再是加一分减一分,而是做了更多的精准评分,有的词会加3分,5分,有的会减3分5分。同时爬虫更多,能够搜集的信息平台也从第一代的微博,知乎,雪球、知道,更加延伸到了更加封闭的生态系统,像QQ、微信、脉脉等等平台,当然,关于3.0的核心技术,仍然属于保密的内容,我不能更多的透露。 小编:真的是神秘又强大的舆情系统。这简直就是天眼啊。真是感叹技术发展带来让人想不到的应用。 |