Главная » Просмотр файлов » Building machine learning systems with Python

Building machine learning systems with Python (779436), страница 3

Файл №779436 Building machine learning systems with Python (Building machine learning systems with Python) 3 страницаBuilding machine learning systems with Python (779436) страница 32017-12-26СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

One way would be to start analyzing your brain and write down all rulesyour brain processes while you are shuffling your e-mails. However, this will bequite cumbersome and always imperfect. While you will miss some rules, you willover-specify others. A better and more future-proof way would be to automate thisprocess by choosing a set of e-mail meta info and body/folder name pairs and let analgorithm come up with the best rule set. The pairs would be your training data, andthe resulting rule set (also called model) could then be applied to future e-mails thatwe have not yet seen. This is machine learning in its simplest form.Of course, machine learning (often also referred to as Data Mining or PredictiveAnalysis) is not a brand new field in itself. Quite the contrary, its success over therecent years can be attributed to the pragmatic way of using rock-solid techniquesand insights from other successful fields like statistics.

There the purpose is forus humans to get insights into the data, for example, by learning more about theunderlying patterns and relationships. As you read more and more about successfulapplications of machine learning (you have checked out www.kaggle.com already,haven't you?), you will see that applied statistics is a common field among machinelearning experts.As you will see later, the process of coming up with a decent ML approach is nevera waterfall-like process. Instead, you will see yourself going back and forth in youranalysis, trying out different versions of your input data on diverse sets of MLalgorithms.

It is this explorative nature that lends itself perfectly to Python. Beingan interpreted high-level programming language, it seems that Python has beendesigned exactly for this process of trying out different things. What is more, itdoes this even fast. Sure, it is slower than C or similar statically typed programminglanguages. Nevertheless, with the myriad of easy-to-use libraries that are oftenwritten in C, you don't have to sacrifice speed for agility.[2]What the book will teach you(and what it will not)This book will give you a broad overview of what types of learning algorithmsare currently most used in the diverse fields of machine learning, and where towatch out when applying them.

From our own experience, however, we know thatdoing the "cool" stuff, that is, using and tweaking machine learning algorithms suchas support vector machines, nearest neighbor search, or ensembles thereof, willonly consume a tiny fraction of the overall time of a good machine learning expert.Looking at the following typical workflow, we see that most of the time will be spentin rather mundane tasks:• Reading in the data and cleaning it• Exploring and understanding the input data• Analyzing how best to present the data to the learning algorithm• Choosing the right model and learning algorithm• Measuring the performance correctlyWhen talking about exploring and understanding the input data, we will need a bitof statistics and basic math.

However, while doing that, you will see that those topicsthat seemed to be so dry in your math class can actually be really exciting when youuse them to look at interesting data.The journey starts when you read in the data. When you have to answer questionssuch as how to handle invalid or missing values, you will see that this is more anart than a precise science. And a very rewarding one, as doing this part right willopen your data to more machine learning algorithms and thus increase the likelihoodof success.With the data being ready in your program's data structures, you will want to geta real feeling of what animal you are working with.

Do you have enough data toanswer your questions? If not, you might want to think about additional ways toget more of it. Do you even have too much data? Then you probably want to thinkabout how best to extract a sample of it.Often you will not feed the data directly into your machine learning algorithm.Instead you will find that you can refine parts of the data before training.

Many timesthe machine learning algorithm will reward you with increased performance. Youwill even find that a simple algorithm with refined data generally outperforms a verysophisticated algorithm with raw data. This part of the machine learning workflowis called feature engineering, and is most of the time a very exciting and rewardingchallenge. You will immediately see the results of being creative and intelligent.[3]Getting Started with Python Machine LearningChoosing the right learning algorithm, then, is not simply a shootout of the three orfour that are in your toolbox (there will be more you will see).

It is more a thoughtfulprocess of weighing different performance and functional requirements. Do youneed a fast result and are willing to sacrifice quality? Or would you rather spendmore time to get the best possible result? Do you have a clear idea of the future dataor should you be a bit more conservative on that side?Finally, measuring the performance is the part where most mistakes are waiting forthe aspiring machine learner. There are easy ones, such as testing your approachwith the same data on which you have trained.

But there are more difficult ones,when you have imbalanced training data. Again, data is the part that determineswhether your undertaking will fail or succeed.We see that only the fourth point is dealing with the fancy algorithms. Nevertheless,we hope that this book will convince you that the other four tasks are not simplychores, but can be equally exciting.

Our hope is that by the end of the book, youwill have truly fallen in love with data instead of learning algorithms.To that end, we will not overwhelm you with the theoretical aspects of the diverseML algorithms, as there are already excellent books in that area (you will findpointers in the Appendix). Instead, we will try to provide an intuition of theunderlying approaches in the individual chapters—just enough for you to get theidea and be able to undertake your first steps. Hence, this book is by no means thedefinitive guide to machine learning. It is more of a starter kit. We hope that it ignitesyour curiosity enough to keep you eager in trying to learn more and more about thisinteresting field.In the rest of this chapter, we will set up and get to know the basic Python librariesNumPy and SciPy and then train our first machine learning using scikit-learn.During that endeavor, we will introduce basic ML concepts that will be usedthroughout the book.

The rest of the chapters will then go into more detail throughthe five steps described earlier, highlighting different aspects of machine learning inPython using diverse application scenarios.What to do when you are stuckWe try to convey every idea necessary to reproduce the steps throughout thisbook. Nevertheless, there will be situations where you are stuck. The reasonsmight range from simple typos over odd combinations of package versions toproblems in understanding.[4]In this situation, there are many different ways to get help. Most likely, your problemwill already be raised and solved in the following excellent Q&A sites:http://metaoptimize.com/qa: This Q&A site is laser-focused on machine learningtopics.

For almost every question, it contains above average answers from machinelearning experts. Even if you don't have any questions, it is a good habit to check itout every now and then and read through some of the answers.http://stats.stackexchange.com: This Q&A site is named Cross Validated,similar to MetaOptimize, but is focused more on statistical problems.http://stackoverflow.com: This Q&A site is much like the previous ones,but with broader focus on general programming topics. It contains, for example,more questions on some of the packages that we will use in this book, such asSciPy or matplotlib.#machinelearning on https://freenode.net/: This is the IRC channel focusedon machine learning topics.

It is a small but very active and helpful community ofmachine learning experts.http://www.TwoToReal.com: This is the instant Q&A site written by the authors tosupport you in topics that don't fit in any of the preceding buckets. If you post yourquestion, one of the authors will get an instant message if he is online and be drawnin a chat with you.As stated in the beginning, this book tries to help you get started quickly on yourmachine learning journey. Therefore, we highly encourage you to build up your ownlist of machine learning related blogs and check them out regularly.

Характеристики

Тип файла
PDF-файл
Размер
6,49 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6274
Авторов
на СтудИзбе
315
Средний доход
с одного платного файла
Обучение Подробнее