Google speech api v2 для чайников

Привет. Сегодня я хочу рассказать об отличной вещи для разработчиков, распознавание речи силами Google. Ни для кого не секрет, что телефоны на базе Android умеют искать в Google то, что вы им надиктовали, и распознает это весьма успешно. Многие этим пользовались, реверсили запросы и использовали в своих проектах. Увы, где-то весной 2014го это закончилось, Google прикрыли доступ к первой версии своего API, изменили формат запроса и добавили аутентификацию для них.

Сейчас это вполне себе легальная функция для разработчиков, вполне документированная, но не без сложностей. Первую версию API застать мне не случилось, а вот вторую попросили коллеги помочь разобрать, ибо надо было что-то делать. К концу дня стало понятно, что не все подробно описано в рунете (да и в англоязычном тоже). Так что давайте по порядку.

UPD 07.01.2016:
Теперь Google Speech API не поддерживает стерео файлы формата Flac (про wav не уверена), только моно. Для записи тестового файла поспользуйтесь Audacity, внизу слева необходимо выбрать частоту 44100, справа сверху режим «Mono». При экспорте файла в формате Flac на всякий случай выберите уровень сжатия 0. Таким образом, статья все еще актуальна на эту дату.
В качестве бонуса работающий API-key AIzaSyCPYK77NqpUfWoHof_HlhnKaGZAsaMT02Q, но заведите лучше свой, интерфейс там немного поменялся,сейчас пункт называется API Manager, там в поиске надо найти Speech API, enable его, и завести в Credentials new API Key.
(for non-russian speakers: google speech api doesn’t support flac stereo files, so previous examples doesn’t works now, please, record your own test files via Audacity, use Mono recording channel, this option in top right conner of application, then use python file, which is at the bottom of this article, thanks)
/UPD

1. Надо обязательно зайти сюда и почитать о формате входных данных, выходных данных, используемых кодеков, а так же скачать примеры аудио-записей для тестов. После чего проверить (при наличии микрофона) https://www.google.com/intl/en/chrome/demos/speech.html , как это будет распознаваться в итоге и подходит ли под ваши задачи.

2. Если все понятно, то, в случае, если вам повезло иметь *nix-подобную систему под рукой, то можно тут же проверить при помощи Curl (пример есть по ссылке выше, API-key для тестов можно использовать AIzaSyAqk7vE0vQDR3JItUPgFp6bcPqgJz8h8tI, работал на август 2014, имейте совесть, заведите свой ключ для продакшена). Если вам не повезло, и под рукой есть только винда, то проверить можно Python скрипта, который опубликован в конце, или любым другим удобным для вас способом написания Post-запросов.

3. Если слова post-запрос и API-key вас не испугали — то вы с абсолютной уверенностью сможете прикрутить распознавание голоса от Google к любой вещи (хоть к чайнику, хоть к умному дому).
Получить API ключ довольно просто (хотя и не тривиально). Необходимо залогиниться под своей учетной записью, зайти на консоль разработчиков, создать новый проект. Перейти слева в раздел APIs и попытаться найти там Speech API. Когда вы его там в списке не нашли, заходим в группу Chromium Dev, вступаем в нее. Снова обновляем страничку APIs, видимо, что Speech API там появился. Радостно включаем его. Google говорит нам, что у нас есть 50 запросов в сутки, но мы ему не верим, ибо это не правда. Скорее всего после релиза бесплатно будет доступно 50-500 запросов, остальное за деньги. А пока можно наслаждаться халявой (подсказывают в тырнетах что 500 запросов в день).
API-key создается в Creditionals -> Create new Key -> Server key -> Create. Все. Ключ готов.

4. Переходим к данным. Оказалось, что это тоже не так просто. Сервер запросто вернет пустой запрос, если язык не тот, или rate в заголовке неверный. Для создания валидных аудио-файлов рекомендовалось использовать Audicity, для формата выходных файлов обязательно flac. Опыт показал, что сколько не бейся, wav работает заметно хуже. Проще конвертировать (или записывать изначально) в flac. Через Audicity просто записываем свой голос, нажимаем файл — экспортировать, выбираем Flac — и готово.
Теперь надо проверить частоту (rate) с которой был записан файл, по умолчанию это 44100, указано в левом нижнем углу приложения Audicity.

5. Для распознавания первого в вашей жизни файла все готово. Теперь нужно в заголовке указать Content-Type: audio/x-flac; rate=44100; где rate это число, которое мы узнали в Audicity, и запустить post-запрос. В результате вернется что-то похожее на

{
"result":[
{
"alternative":[
{
"transcript":"this is a test",
"confidence":0.97321892
},
{
"transcript":"this is a test for"
}
],
"final":true
}
],
"result_index":0
}

6. Завершением всего этого станет нюанс, что при распознавании вторая версия API почему-то возвращает два результата, первый из которых пустой:
{"result":[]}. Не пугайтесь, типа так и надо. Причину не знаю, не описано.

7.

Обещанный кусок кода на Python для тестирования:

#!/usr/local/bin/python
 
import urllib2
import sys
 
key = "AIzaSyAqk7vE0vQDR3JItUPgFp6bcPqgJz8h8tI"
url = "https://www.google.com/speech-api/v2/recognize?output=json&lang=ru-ru&key="+key
try:
   filename = sys.argv[1]
except IndexError:
    print 'Usage: democode.py <file>'
    sys.exit(1)
 
audio = open(filename,'rb').read()
 
headers={'Content-Type': 'audio/x-flac; rate=44100'}
 
request = urllib2.Request(url, data=audio, headers=headers)
response = urllib2.urlopen(request)
print response.read()

p.s. В основном мы бились с тем, что wav файлы пережевывать он не хотел, а в flac у нас был другой rate, при экспорте из телефонии у нас получался 8000.
Удачного распознавания!

68 thoughts on “Google speech api v2 для чайников

  1. Якісний пластик для 3D принтера від Filament Shop – великий асортимент для професійного моделювання!

    Filament Shop фокусується на продажу філаментів для 3D принтерів та хобі.

    Філамент PLA:

    • Стандартний PLA — ідеальний для початківців
    • Модифікований PLA — краща адгезія
    • Якісні марки — стабільні характеристики
    • Різнокольоровий асортимент — понад 20 кольорів

    Особливості матеріалу:

    • Біорозкладний матеріал — безпечний для довкілля
    • Простота використання — не потребує підігрітого столу
    • Без шкідливих випарів — підходить для дітей
    • Відмінна адгезія — якісні деталі
    • Підходить для більшості принтерів — Ender, Prusa, Kingroon та інші

    Де використовується:

    • Швидке моделювання
    • Подарунки
    • Навчальні проекти
    • Хобі та творчість
    • Архітектурні моделі

    Налаштування:

    • Температура екструдера: 190-220°C
    • Температура столу: не обов’язково (50-60°C)
    • Швидкість друку: 40-100 мм/с
    • Діаметр: 1.75 мм
    • Точність розміру: ±0.02 мм

    Як отримати:

    • Експрес доставка по Україні
    • Самовивіз — зручні варіанти
    • Безкоштовна доставка від певної суми

    Філамент PLA від Filament Shop – це професійний вибір для ваших проектів. У нас ви знайдете лише перевірені матеріали від відомих виробників.

    Конкурентні тарифи та спеціальні пропозиції роблять 3D друк доступним для кожного.

    Детальніше: https://filament-shop.in.ua/plastyk-dlya-3d-druku/pla-ua

    #PLA #3Dпринтер #філамент #3Dдрук #пластикдля3D #Kingroon #3Dматеріали #Україна #3Dручка

  2. stripchat free tokens 2025 android ios mobile.

    https://stripchat-tokens-mod.lovable.app/

    stripchat token hack
    stripchat token generator
    stripchat free tokens
    stripchat hack
    stripchat tokens free unlimited
    stripchat premium free
    stripchat free tokens generator
    stripchat hack android
    stripchat hack ios
    stripchat tokens hack no survey
    Stripchat App Hack 2025: How to Get Unlimited Tokens for Free

  3. DatabaseLeak – Find what google can’t find
    Great in data leak: With over 20 billion collected passwords
    Super fast search speed: Allows easy and super fast search of any user or domain.
    Many options for buy, many discout. Just 2$ to experience all functions, Allows downloading clean data from your query.
    Go to : https://DatabaseLeak.net

  4. Introduction
    Discover enduring elegance with high-quality handbags. This carefully selected showcase presents beautiful designs that embody quality and elegance.
    Quality & Craftsmanship
    High-quality materials distinguishes true sophistication. Every piece demonstrates careful craftsmanship, from hand-stitched edges to lasting fittings. Such features provide lasting beauty and enduring appeal.
    Style Categories
    Structured Bags
    Elegant structured purses deliver versatility for formal occasions. Characteristics include:

    Defined silhouettes
    Several pockets
    Refined appearance
    Adaptable styling

    Casual Elegance
    Casual elegance blends everyday use. These pieces include:

    Flexible materials
    Easy carrying
    Generous storage
    Contemporary styling

    Color Palettes
    Timeless colors define premium collections:

    Luxurious tans
    Sophisticated blacks
    Versatile beiges
    Striking jewel tones

    Investment Pieces
    Premium leather goods serve as smart acquisitions. These pieces hold appeal through:

    Premium craftsmanship
    Timeless style
    Versatile styling
    Long-term performance

    Care & Maintenance
    Correct maintenance ensures longevity:

    Routine conditioning
    Correct housing
    Professional restoration
    Treatment from damage

    Styling Tips
    Elevate your style with strategic accessory pairing:

    Complement hardware
    Proportion with look
    Combine textures
    Develop personal aesthetic

    Conclusion
    Investing in premium accessories develops a timeless wardrobe. Each selection conveys a narrative of excellence and unique expression. Explore designs that align with your aesthetic and appreciate these treasures for years to come.
    Meta Descriptions (for Pinterest)
    Explore premium accessories. Timeless design meets exceptional quality. Curated showcase of elegant accessories for the modern fashion lover.
    Hashtag Sets
    #LuxuryStyle #LeatherGoods #ClassicFashion #BagAddict #FashionGoals #Handcrafted #StyleInvestment #DesignerInspired
    https://www.pinterest.com/artisangrade/hermes-replica-birkin-kelly-constance-lindy/

  5. ?? **LoveShop маркетплейс – как зайти и где найти рабочую ссылку**

    LoveShop – надёжный даркнет-маркет для покупки и продажи товаров и услуг анонимно через Tor и VPN.

    **Как зайти:**
    1?? Установите VPN.
    2?? Скачайте Tor Browser.
    3?? Найдите рабочую ссылку LoveShop.
    4?? Вставьте ссылку в Tor, пройдите капчу.
    5?? Создайте аккаунт без реальных данных.

    **Оплата:**
    – Криптовалюта (BTC, USDT).
    – Возможна оплата через внутренние обменники.

    **Доставка:**
    Через систему кладов, моментальная выдача по регионам.

    ? **Почему выбирают LoveShop:**
    – Анонимность и удобство.
    – Большой выбор товаров и продавцов.
    – Быстрая доставка.
    – Поддержка 24/7.

    ?? **Меры безопасности:**
    – Используйте VPN и Tor.
    – Не раскрывайте свои данные.
    – Проверяйте репутацию продавцов.

    ?? **Рабочие ссылки LoveShop:**
    loveshop_links_array

    #loveshop1300-biz #shop1-biz #loveshop13 #loveshop15 #loveshop16 #loveshop17 #loveshop18

    оставайтесь в безопасности!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *