AI2(SO3)3

点击文档标签更多精品内容等伱发现~


VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档

还剩5页未读, 继续阅读

今天一起体验作业帮“拍照搜题”功能从实际产品使用流程中切实感受I技术 如何为教育创造更多可能~

前两期对抖音和美图的体验,让我们见证了计算机视觉技术带给人類生活感官及娱乐的刺激本期我们对作业帮进行体验,感受I对教育的助推

作业帮是一款以“拍照搜题”为核心功能的在线教育产品,該功能的实现主要运用了OCR和深度学习技术故本文围绕该项功能的体验,结合简要的技术分析领略作业帮化身“I小叮当”的魅力,话不哆说开始本期的旅程吧~

作业帮是一款以拍照搜题、课程辅导为核心功能的K12教育产品,该产品主要面向的是K12阶段的学生、家长及老师人群其中学生人群为主。

如图根据七麦数据的实时榜单排名显示,作业帮在畅销榜中排名第二而在免费榜单中排名第五。

值得注意的是这是所有教育主题下的产品排名,若仅考虑K12教育范畴作业帮是当之无愧的“小霸王”。

这也间接说明了作业帮在明确的产品定位下,为学生解决了习题***搜索、学习辅导等问题并且提供了相对竞品而言更为优良的用户体验。

同时根据艾瑞数据显示(图中垂直坐標轴单位为万台),作业帮的月活和同类型的产品如小猿搜题、学霸君相比之下,其排名为第一且领先的优势比较明显。

如图作业幫的月活平均值为8478万台,而小猿搜题为1618万台二者相差的距离较远,仅从日活的角度来看作业帮的日活值也达到小猿搜题的5倍,进一步證明作业帮在同类型产品中具有较强的竞争力

通常,我们衡量一个工具类的产品好坏除利用榜单排名外,月活和日活是更为重要的指標

则结合上述数据分析可见,在线教育的服务需求中作业帮向用户交出了一份满意的***。而作业帮获得的良好口碑与拍照搜题这┅核心功能功能精益求精的良好性能与优秀的用户体验密不可分。

为了进一步认识拍照搜题功能及其背后的相关技术原理以下将从拍照搜题功能项的用户-场景-需求分析功能目的功能逻辑用户评论等方面进行剖析,并结合技术给出最终的体验结论

2. 用户-场景-需求分析

鈳见,作业帮的主要用户可分为学生、家长及老师其中以学生群体为主。

为了更形象地说明拍照搜题功能的意义我们讲三个典型的用戶故事。

小是一名高三的学生正面临严峻的升学压力。平时在家自己写作业时如果遇到不会的题,他会直接打开作业帮不用手动输叺,直接拍照搜索同类型的题既不会耽误时间,又能及时理清楚当天所学的知识点偶尔,如果课堂上老师讲题的思路他不清楚回家吔会自己拍照,然后看看平台上别人的解题思路就豁然开朗了

此外,高三了很多知识点需要不断地强化巩固所以他还有一个高效学习嘚小窍门,那就是拍照搜题之后通过举一反三对同类型的题目进行反复练习,一次性吃透知识点

更重要的,因为处于一个教育水平相對落后的县城而平台上围绕拍照搜题,还可以选择一些名校名师来帮助解答或观看对应的解题视频帮助自己见识到更简便的解法,感覺作业帮的搜题功能太方便了简直就是自己的“小叮当”。

老王是小的爸爸文化程度较低,平时大部分时间都在忙工作尽管如此经濟也是捉襟见肘,他希望小可以好好读书将来摆脱和自己一样的生活困境。老师给小介绍了一款应用软件叫作业帮帮助他解决了辅导駭子的无力感,同时直接拍照搜题可以节省时间,安排也很灵活同时在线教育更为经济,也为家里节约了很多补习费

还有的时候老迋辅导小的妹妹小B写小学作业,也不用自己输入百度之后搜索那么麻烦了直接拍照就可以看到***后再辅导孩子,体验很不错所以现茬他逢人就推荐作业帮。

陈老师是小王的班主任在小县城任教,有比较多空余时间但是工资比较低。工作闲暇之余陈老师还在作业幫上为学生们答疑解惑,比如对学生拍照搜题的结果如果还不理解,就换种思路帮助继续解答或者帮助一些孩子进行强化学习和训练,这样既可以继续发挥自己的教学价值还能赚取一部分的额外收入,所以陈老师也很心水作业帮~

结合用户-需求-场景及用户故事我们可鉯很清楚地看到,作业帮作为一个K12阶段相对成功的在线教育产品依托于人工智能技术的发展,为广大的学生、家长和老师带来了便利

對于学生而言,遇到不会的题目或含糊不清的知识点作业帮的拍照搜题,使得孩子们可以不用受困于老师不在身边、家长无力辅导或逐攵字输入搜索的困境同时该功能的外延还可以帮助学生强化知识点,学会举一反三甚至因为平台上对学生的问题还提供了名校名师答疑解惑的选项,一定程度上可以缓解教育资源不平衡的矛盾

而对于家长而言,作业帮的拍照搜题帮助他们缓解了自身文化程度不高无法輔导孩子的无力感同时帮助工作忙的家长节省了时间,也替经济条件有限的家长省了钱而对教师用户而言,作业帮也为他们价值和利益最大化提供了一个平台对作业帮而言,拍照搜题的提出是迎合I时代对教育的一种创新,同时为计算机视觉技术的落地提供了良好的落地契机为传统教育的改革带来了新的方向。而随着平台的不断成熟围绕着拍照搜题,作业帮进一步开拓了课程辅导、学习圈等功能进一步提升了作业帮的服务。但不可否认的是拍照搜题仍然是作业帮的亮点,而且作业帮的发展战略也一直立足于不断地提升后台算法对题目照片的识别的准确率及题库的完备率,也因此才得以维持向上的发展劲头

传统意义上的产品设计,强调功能主次鲜明的重要性而从当前对人工智能类的产品体验中也可以看出,该原则对I类产品亦同样重要

算法、技术可以有千千万万种,用户可能遍布天涯海角但作为一个产品,尤其是工具类的产品如果本身核心功能不够出众,或在后续的完善中偏离了核心功能轨道只有死路一条。而从囚工智能发展的角度来看算法准确率的提升和优化是一个不均衡的过程。

比如起步的时候,可能随便加大训练数据数量或者是调整学***参数或训练的方式算法提升的效果就很明显,因为说到底所谓的人工智能,还是利用了计算机超强的存储及快速暴力求解的能力

泹随着不断地推进,面对的数据越来越复杂、用户场景越来越多、需求越来越丰富算法还想提升,哪怕那么一个百分点都是十分困难嘚,这也是所有人工智能类产品在迭代进程中都会面临的问题

但是我们从作业帮拍照搜题的识别越来越准确,用户体验也越来越好可鉯看到作业帮一直在坚持后台算法的迭代和优化,这种对初衷的坚持是算法之外更可贵的产品精神

从中可见,在拍照的过程中做出了兩个比较明显的限制。

第一个是横屏拍照保持题目处于图片的特定区域,其目的在于减少后续识别算法处理的难度其次是对拍摄灯光嘚要求,因为当光线较暗时图片不够清晰,则后期的文字识别会出问题不利于最终的识别准确率。

这是用户体验和算法准确性之间的┅种权衡更人性化的产品设计提倡,尽量减少对用户的要求增加用户使用的自由性。

然而对于人工智能算法类的产品设计而言其准確率的获得往往需基于一定的前提,一旦打破这些限制算法识别的效果可能就会十分差劲,则会带给用户更糟糕的影响

以下是实际体驗的一个过程截图:

基于上述体验,可见拍照搜题技术已经取得了可接受的成效。

为了增加对算法识别的难度体验中我们特别使用手寫题目,而从搜索的结果来看返回结果中的5道题与原图的相似度很高,说明文字识别及后续文字特征匹配的准确率达到了可应用的程度

同时我们还尝试了将两道题放在一起拍,则画面中占比较大的题目也可以检索得到很好的输出这进一步说明,算法在处理的过程中對于文字的切割比较准确。但是体验中也发现了一些不足。

比如:题目拍摄的要求较高尤其是屏幕中限定的框大小是固定的,而有的時候搜索的题目长短不一所以大部分情况下难以在平台给定的小框内容纳题目,所以只能拍摄题目的关键部分如果一次识别不准确就偠反复尝试,直到找到或放弃增加了用户操作的成本。

这是由于后台算法的灵活度还不够决定的

其实我们需要更多地理解,这不是产品本身设计死板而是因为现有的机器学习或深度学习算法,本身仍比较机械比如:很多神经网络的输入,都有固定大小的需求一些算法也仅仅对达到某些条件的图片处理才能获得良好的准确率,同时I类的产品设计又缺乏足够的经验积累

这或许会在未来随着深度学习進一步发展,算法具有更强的推理和学习能力后可以一定程度上增加产品设计的灵活度。

再比如:针对少数部分文字描述而题意的表達主要依靠示意图的数学题,体验过程中我们尝试只拍摄题目的图片此时系统大概率下无法检索。也就是说出现“图中图”的情况,算法识别准确率较差

这可能是因为系统基于OCR和深度学习的方法,主要对文字切割进行处理但是对图像特征的处理比较欠缺,所以检索效果较差

则上述问题的解决,可通过多种技术方案融合应对不同用户场景需求的特定任务处理,增强算法应用的鲁棒性减少算法失靈的情况,这应当也是未来人工智能产品落地的一个重要关注点

最后,还有一个小问题有时拍摄上传数学类的题目,返回的结果中可能还包含物理、化学、英语等结果我们将这类错误姑且称之为跨学科错误

这也是可以理解的因为算法更关注于对拍摄题目的文字识別,并在之后以文字特征的相近性作为主要指标进行搜索结果返回。如此只要题目描述和题库文本更相似就会作为结果返回,却忽略題目类别的考虑

关于这个问题的解决,或许可以考虑在识别的过程中,增加类别标签如拍摄题目上传之后,可以通过用户设定题目類标签比如:属于语文、数学、英语等,则上传之后在特定的范围检索这一方面可以提高算法检索的效率,另一方面也可以减少跨学科返回的错误

(这一步在技术上看来是可行,而且增加的成本也只是用户上传的时候多了一个打标签的操作但是却可以上传之后,结匼这个标签减少检索的范围同时减少跨学科返回的错误,而且后面做用户评论分析分析这个问题还是槽点比较多地一个那为什么作业幫不做呢?我想不明白~)

作业帮自上线以来收获的口碑不错,根据七麦数据显示其IOS市场下评分结果如图:

总体评分达到4.6好评率较高,哃时为了进一步发现该应用仍存在的问题我们搜集相关用户评论共30条,其中部分用户数据统计截图如下:

30条数据中1、2、3、5等级对应的數据量分别为20、3、2、5条,其中以低分差评为主更利于我们发现产品的问题。

则对用户数据进行关键词提取后发现其基本占比如图所示。

我们将用户对问题的描述提取出对应的关键词进行归类以便后续进行归因分析。

首先是结果问题主要包含的描述如搜不到题目搜絀来的题目与用户需求不符合***解析有误等,占比较高达36.7%其次是闪退问题,约16.7%的用户反映在拍照搜题的的使用过程中会出现闪退问題也属于一个高频问题。最后拍摄问题同样地也有16.7%的用户反映,拍摄的过程中存在拍摄困难横屏适配的问题同时跨学科问题也比較明显,它是指用户拍摄数学题结果检索出来英文题目,这是比较刺激用户体验一种存在用户直观看来会觉得系统无疑是“人工智障”。

此外还有抄袭问题它主要反映了由于拍照搜题的便利性的同时带来了孩子不加思考、直接抄袭的弊端,占比达6.7%这背后也反映出技術的双刃性。

产品既要宠着上帝,还要冒着被抛弃的风险“管管上帝”要秃头~

我们将最终问题产生的原因主要归类为算法准确率、产品设计、产品运营、产品bug

首先针对结果问题如搜题不准确、跨学科问题等都是由于平台算法不够精准、鲁棒性差而引起的一种搜索结果返回失误,该原因也是最为重要的一个而且也是大部分人工智能产品普遍存在的问题。

因为对于I类的产品而言算法准确率及稳定性矗接影响了产品的使用体验。虽然目前有一些优秀的产品细节设计可以缓解用户对准确率的矛盾但是效果并不明显,而该类问题的解决呮能依赖于对算法的进一步强化训练及参数调节

题目拍摄过程中存在的横屏问题,则属于产品设计的范畴需要产品人员充分理解算法嘚应用的基础,而后结合用户的使用流程进行功能设计的优化可以改善

其它类似于产品运营、题库、产品bug的问题,同样需要产品及运营囚员发现之后及时展开具体调研并制定相应的方案去进行解决。

拍照搜题功能从技术的实现角度上来看,主要有两种方式

第一种方式是以图搜图。即平台中的题库同样按照图片方式存储则当平台处理一个用户拍摄上传的解题需求时,算法通过计算用户题目图片的特征并进行搜索排序,从题库中找到对应的最相似特征的图片则该图片即为用户所搜索的题目。

这种方案本质上是基于计算机视觉特征與机器学习算法的匹配检索技术

但这种方式的不足在于,一方面系统的题库需要以图片的形式存储消耗的硬件空间较大,而且计算效率较低性价比较低。

另一方面对于两道题目而言,基于图片维度特征的比对进而界定文字题目的相似度,和直接基于文本特征进行題目相似度的比对必然还是后者的准确率要更为可靠。

因而作业帮采用的是另一种基于OCR技术和深度学习结合的技术方案。

OCR(Opticl Chrcter Recognition)指的昰电子设备(如扫描仪或数码相机)检查纸上的字符,通过检测暗、亮的模式确定其形状而后利用字符识别方法将形状翻译成计算机文芓描述的过程。

通俗地讲就是针对印刷体字符,采用光学方式将纸质文档中的文字转换为黑白点阵的图像文件,并通过识别软件将图潒中的文字转换成文本格式供文字处理软件进行加工的一项技术。

则基于上述定义拍照搜题的过程,就是首先利用OCR将图片中的题目處理识别成文字,而后根据用户的题目文本和平台数据库中的题库比对找到最为相似的TOP 5(作业帮提供5个选项)。

OCR处理的过程主要包括以丅几个:

(1)图像输入及预处理:针对不同格式的图像输入进行必要的预处理。

预处理过程首先进行二值化即将彩色图像转换为黑白圖像,主要是为了剔除掉一些冗余特征只留下重要的特征。

其次进行噪声去除因为图片二值化之后,可能在图片中出现很多小黑点或其它噪声类的附着会影响后续的识别,所以要进行必要的过滤处理

最后进行倾斜校正。因为用户在拍照的过程中可能出于拍摄的技術、环境等客观因素的影响,照片的角度不利于最终的识别因此需要进行必要的倾斜校正以保证图片水平。

(2)版面分析:直观来讲這一步就是对图片中的文本进行段落、每一行的切分。

(3)字符切割:将图片按照行和列进行划分则切割后字符就变成了自己一个字。

(4)字符识别:通过机器学习或深度学习进行文字的识别。

(5)版面恢复:对识别后的文字保持段落、行及文字间的相对位置不变。

洏在文字识别的过程中目前更为常用的方法是基于深度学习算法。深度学习算法识别单个文字的过程如图所示:

如图经过OCR预处理并分割之后,对一个文字而言基于深度学习方法的识别,首先对其进行卷积操作提取特征而后进行下采样操作,保留更重要的特征而后繼续进行卷积和下采样操作之后,将最后一层下采样操作获得的特征输送至全连接层进行处理并最终输出其概率分布从中可见,最终以98%嘚置信度对当前文字判定为“运”

对其它文字的识别亦同理,当前基于深度学习的文字识别算法准确率通常达到99%以上。

技术关键词:OCR 罙度学习识别文字

同时,基于相近的技术作业帮对应用进行了扩展。

他们为了满足家长批改作业、辅导孩子的需求进一步开发了具囿针对性的家长端。

在家长端主打的特色功能是口算批改和作文搜索,则该需求的指向性更为明显背后的技术原理和流程本质上和作業帮也是比较相似的,但家长版的整体体验更加简洁因为对于家长而言,更多的是起到辅助和陪伴的角色

具体的体验在这里就不赘述叻,感兴趣的小伙伴可私底下悄咪咪去体验一把

在这里特别提及家长版是因为,在体验I类产品的过程中发现其实人工智能产品的设计Φ和传统的产品设计还是有很多类似的地方。归结到底还是对用户需求的把握有的时候基于同一项或相近的技术,可以解决很多用户的鈈同需求所以有的时候,如果产品设计人员过度重视算法和技术实现的细节反而会使得我们忽略了用户的需求

换一个角度,许多人说目前人工智能算法的应用其瓶颈在于找到落地的场景作为切入点。那么我想对这些产品分析体验的过程就是要求产品或技术人员结合鼡户-场景-需求及功能目的、功能逻辑的分析之后可以懂得——

某一些算法通过运用什么样的流程设计,解决了哪些人的哪些问题从而当媔临新的需求时,学会迁移借鉴某些产品已经验证过的算法及功能流程的设计这样的体验可能才具有价值,希望我们可以努力把这件事莋得更好!

本期主要体验了作业帮的“拍照搜题”从中我们看到,基于OCR和深度学习技术的结合人工智能在K12教育上也发挥了巨大的潜力,在未来不断地发展和技术完善中作业帮可想象的空间也许不局限于K12,甚至是***教育也未可知

作业帮再一次证明,科学技术本身没囿温度和创造力而真正焕发无穷力量的是产品。

本文由 @ Lun 原创发布于人人都是产品经理未经许可,禁止转载

参考资料

 

随机推荐